讯飞刘庆峰:今天,中国的大模型底座能力到底怎么样?

来源:观察者网

2024-06-28 15:17

6月27日,北京,科大讯飞举行讯飞星火升级发布会,星火大模型V4.0亮相。

科大讯飞董事长刘庆峰全程演讲,科大讯飞研究院院长刘聪真机实测,回答两个关键问题:

今天,中国的大模型底座能力到底怎么样?

今天,风起云涌的大模型究竟如何应用落地?

以下是刘庆峰演讲(节选):

尊敬的各位领导、各位合作伙伴、各位院士专家、各位媒体朋友、线上的朋友们,大家好!热烈欢迎大家莅临讯飞星火V4.0的发布会现场。

科大讯飞董事长刘庆峰

这一年多来,以大模型为主要带动的通用人工智能浪潮在全球风起云涌、高潮迭起。随着大模型技术研发和产业应用的不断深入,大家越来越关注两个非常关键的核心问题。

第一,今天中国大模型的底座能力到底怎么样?在中美科技日益激烈的人工智能领域博弈下,去年10月17日,英伟达因为美国商务部的要求,对中国所有能训练大模型的智能算力全面断供。就在6月25日,OpenAI也正式通知将从7月9日开始终止所有来自中国的API申请。在这个背景下,热热闹闹、风起云涌的通用人工智能浪潮,到底有没有自主可控的国产底座能力做支撑,这决定了我们在这条路上到底能走多远,决定了通用人工智能这一波浪潮;相当于PC和互联网的诞生,在人类历史上有深刻的意义,而我们能不能享受这波红利,能不能成为美国之后全球智慧涌现的第二极?

第二,大模型将会改变信息分发获取的方式,改变人机交互方式,改变内容生产方式,也会改变我们的整个产业形态和竞争格局,改变科研范式,这是大家都能看到的大趋势和未来。Gartner预测,到2026年现在80%的企业都要用到通用人工智能,而今天这个数字是5%左右。

大模型在今天风起云涌、如此大的投入下,究竟怎么落地?美好的未来摆在这里,当前第一步该怎么以科学合理投入,才能让大模型真正的刚需价值能够落地,能够看得见、摸得着,能够用统计数据来证明应用成效。我想关于底座技术、关于应用落地,是今天所有的关心大模型、关心通用人工智能的研究机构、企业、高校、科研院所以及政府部门共同关心的话题。今天讯飞星火V4.0的发布,我特别想跟大家分享我们这两方面的看法,给出科大讯飞对这两个问题的答案。

讯飞星火APP的使用高峰期不是周末,而是工作日

实际上,从去年5月6日讯飞星火V1.0发布之后,大模型的各项能力都在快速提升,我们几乎每个月都会有一次非常重要的升级。以大家特别关注的文本写作为例,今天星火大模型写出来的东西已经不仅仅能让我们觉得不错,很多时候还会给我们很大的触动,给我们带来惊喜,甚至是感动。

今年6月7日上午,高考语文作文题新鲜出炉,当天中午就有很多人,包括机构、老师、投资人等,从各个角度来测星火在高考作文中的写作能力如何。非常自豪的是,大家都给了讯飞星火很高的评价。在“重庆日报新重庆客户端”上发布这篇文章,是6月7日12:10让大模型写的,在人工智能圈一个大佬云集的微信群里,被大家专门拿出来作为一个经典案例点赞。

大家可以看到,星火写的内容非常专业,很好地运用了排比、引用、论证等写作手法。当时有很多人给了评分,在满分是60分的情况下,最低的给了52分。大家读一下就会看到,在这中间有思辨的想法,引经据典也都写得非常好。这是没有任何人工干预生成的结果,是大模型自己写出来的,它的能力确实越来越强了。

当然,大家还会关心说今天大模型写作、写诗、作画能力在不断提升,而要真正地解决人类刚需的一个非常重要的标志就是科研,究竟大模型在赋能科研方面到底有没有成效?

以我们和中国科学技术大学生命学院刘海燕教授团队的合作为例,我们用大模型中基于条件扩散模型的蛋白质主链设计算法SCUBA-D,能够从头生成自然界不存在的蛋白质。实践证明这种生成的蛋白质在我们医学特别需要的领域中,它的结合亲和力与天然的蛋白质相当,甚至更强。最重要的是,我们把设计成功率从原来的0.1%提升到64%,提升了640倍,原来需要6个月做的设计,现在1天就做完了。这个已经不是在简单的科研验证阶段了,目前已经成功地设计了48个蛋白质,还在批量生产。这篇文章也在今年5月正式被《Nature》子刊接收,证明了我们在业界的领先地位。

我想说的是,大模型不仅可以写诗、作画,在改变工业、改变科研范式等方面已经实实在在发挥作用,包括我们和中国科学技术大学做的合成类的科学创新,比如说化学;还有与合肥综合性国家科学中心能源研究院合作,在推进大模型赋能核聚变整个过程中更快地预测、更好地应对各种各样的异常情况,这些都在快速推进之中,这是我们在科研上面的各种进展。

讯飞星火APP的使用高峰期不是周末,而是工作日;不是晚上,而是工作日的上午9:30和下午3:30。这说明大家真正用星火来解决工作中的刚需问题。我们一直说大模型应该是解放生产力、释放每个人想象力的,从这些数据就可以看到。

基于全国产算力平台,全面对标GPT-4 Turbo

从去年5月6日的讯飞星火V1.0一路走到今天的讯飞星火V4.0的发布,有一点非常令我们自豪——讯飞星火大模型是基于全国产算力平台训练出来的。

去年10月24日,我们与华为联合软硬件一体化,科大讯飞提供了大量的算子库和算法资源,联合在安徽发布了中国首个国产万卡算力集群,这是中国第一个能训千亿以上浮点参数大模型的硬件平台。在这个硬件平台上,讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。

什么叫全民开放大模型?就是国家网信办等八个部委联合认证,老百姓可以随即下载使用的大模型。当时是唯一的,今天讯飞星火V4.0发布还是唯一的,在全国产算力平台上训练的大模型,所有算法都是我们自主可控的,每一行码、每一个数据都是我们自己编写、自己清洗出来的大模型。一定程度上,今天星火大模型V4.0的发布对完全自主可控的大模型究竟走到了什么样的发展阶段,具有非常重要的标志意义。

那么在这个基础上,讯飞星火V4.0到底到了什么水平?

这是基于认知智能全国重点实验室和中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟,在去年6月份联合发布的国产通用认知智能大模型测评体系。这个体系一共有7个主要方面,涵盖了481个测试项,所有数据都是“背靠背”测试,数据都是随机动态产生的。非常高兴的是,讯飞星火V4.0已经实现了(大家公认最好的通用认知大模型)GPT-4 Turbo的对标,我们在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越,在代码和多模态能力上还有差距。

代码能力是我们非常关注的能力之一,因为它涉及未来的产业信息化和信息产业化的核心,而ChatGPT去年2月份通过谷歌二级程序员测试,当时的GPT-3.5用这个测试集只获得了60多分,GPT-4 Turbo今年1月份测试大概在80分,现在到86分,也在快速迭代和进步。我们预计在今年8月份,讯飞星火会达到现在86分以上的水平。

多模态能力还有所差距,是因为我们当前在文生视频上还没有算力,也不是下一步的核心重点,但是有生态伙伴一起做。

但在多模态方面,有一个非常重要的应用,就是图文识别。无论是医疗领域,能不能看懂电子病历、看懂体检报告;还是教育领域,能不能看懂笔记、看懂考卷;以及在司法、金融、科研、办公等各个领域的应用,图文识别能力都是至关重要的。

科大讯飞的图文大模型以及星火大模型中的图文能力,在国际上现在是先进的。我们与GPT-4o做了对比,因为GPT-4o在多模态方面,特别是图文上面比GPT-4 Turbo要强。所以,我们与5月14日OpenAI发布的GPT-4o最新版本相比,各个专门领域讯飞星火V4.0的效果都比它好,不仅仅在OCR直接识别上,关于版面的自动理解、更合理的版式认知结构等方面,我们都做得更强,从而使得今天要给大家看到的很多应用,它的落地更能够解决刚需。

在中文领域,讯飞星火V4.0实现了对标GPT-4 Turbo,那么在英文领域怎么样?这是国际各种主流机构给出来的,最主流的中英文测试集,绝大部分是英文,中间有理解推理、综合考试、数学科学和代码等维度的测试。大家可以看到,一共12项主流测试集,绝大部分是英文的,讯飞星火V4.0有8项实现了超越。这个数据大家可以直接调用我们的API自己去测,这是很令我们自豪的进展。

推动万物互联时代人机交互革命

我们观察到GPT-4o的发布,全世界都在进一步关注语音,其实在去年11月份的时候,Whisper已经发了他们OpenAI的整体语音技术,并把语音做成一个非常重要的方向。最近苹果的手机大家也看到了语音技术的进步,手机厂商对语音技术进一步产生了更大的关注,而且要用它来改变所有人机交互的方式。

人类社会进入到了万物智能互联的时代,越来越多的设备没有屏幕,离我们几米之外,不方便用键盘,不方便触摸。在越来越多的时候,我们需要更自然的人机对话,用户才能够得到更好地体验,更迅速地学习,获得相关生活中的帮助,我们更需要语音。

星火语音大模型再次升级,会使得万物互联时代下人机交互的革命进一步落得更透,这也是科大讯飞在1999年创业时就提出来了要实现人机信息沟通的无障碍。过去10年,从深度神经网络出台之后,科大讯飞一直引领着语音技术的发展。我们是全世界第一个让语音识别超过了专业速记员水平的公司,像这种会议转写的情况,机器翻译超过了99%的大学六级考生,通过了国家翻译师资格考试;个性化语音合成也给央视的节目进行配音;我们的多语种技术在2020年代表中国,在美国把讯飞列入实体清单之后,对中国极限施压的背景下,多语种技术依然保持了全球领先,解决了我们的汽车、手机、智能家居等出海“卡脖子”问题。

我们非常荣幸在几天前获得了国家科技进步奖一等奖,这也是中国人工智能领域在深度神经网络之后的第一个国家科技进步奖一等奖,当然也有中国科学技术大学、清华大学、华为、中国移动等合作伙伴共同努力的结果。

技术进一步发展使得我们在万物互联时代的人机交互标准被重新定义,它应该要实现多语言多方言的交互,在远距离、高噪音场合下也能够识别,能够全双工随时随地可以打断,可以支持多模态,语音、手势、嘴型等结合。大家关注的Open AI发布的GPT-4o中最重要的一个全双工功能,实际上使用的是科大讯飞2020年就在国际会议上提出来,在去年5月正式发布的国际标准。

目前,我们的语音识别在最主流的语种上已经继续保持了全球领先,这是多语种多方言免切换的演示,在相对安静的手机等各种场景下,还有更极限的场合,例如强干扰情况下“鸡尾酒会”的语音识别场景都能进行识别。

伴随着技术的最新进步,我们也有个专门的讯飞同传软硬一体的翻译系统,这个系统戴上去,我在上面讲话,你听到的就是英语,当然我们还有更多语种。同时,这个翻译系统是软硬一体化的,我在后台讲话,通过语音识别、翻译、语音合成,每个人戴着耳机就可以听到,从而实现大会同传、展厅同传以及各种旅游同传。一个人讲话所有人听,我们还会推出软硬一体化的设备,让各种语言混杂在一起可以随意开会,要把整个软件和硬件结合在一起,来解决现在社会的刚需。

将来,我们日常的机器人进入到各种高噪音环境下,在各种各样的服务场景下,有这样的能力,我们就不怕机器听不懂了。语音识别进入到规模化使用,当年我们在手机输入法上,在全球率先提出手机语音听写时代开始到来,它的标志是85%以上的准确率,到89%就可以全面使用了,现在我们的识别中,两个人混叠场景准确率已经到了91%,远超国际竞品,三混叠场景准确率更是完全不一样,我们准确率已经到了85%以上,但其他的只有20%多。在-5dB的高噪场景,噪音已经比我们人讲话还要高不少的情况下,我们依然能做到90%以上的准确率。

因为这些技术进步,我们从去年底到今年的国际连续最权威的语音识别比赛,一个是国际多通道语音分离和识别大赛CHiME-7,我们继续拿了全球第一;另一个是今年的上半年国际声学、语音和信号处理会议ICASSP 2024(International Conference on Acoustics, Speech, and Signal Processing)的旗舰赛事——国际车载多通道语音识别挑战赛(In-Car Multi-Channel Automatic Speech Recognition Challenge,ICMC-ASR) ,科大讯飞是全球第一,这个不是中文的,是英文和多语种的比赛。

今天,我们的语音交互已经搭载了5700多万辆的汽车,去年中国500多万辆汽车出海,成为中国出海的“新三样”,其中的多语种智能语音技术几乎全是科大讯飞提供的。不仅仅是语音,我们还将语音与大模型结合,与红旗、奇瑞、广汽合作,包括最近又和一汽签订了战略合作协议,越来越多的车企开始用我们“能听会说、能理解会思考”的汽车方案。

发展中国通用人工智能,一定要有大模型的底座能力

在去年9月份发布的GPT-4V,OpenAI大模型在图文识别和理解分析能力上,上了一个大台阶,随后11月推出语音识别大模型Whisper,今年2月又推出了文生视频大模型Sora ,今年5月推出GPT-4o,看起来是一个又一个的热点,但实际上还是依托GPT-4的底层通用大模型能力。

以Sora为例,并不是外界所说的“对物理世界的认知进一步加强了”,而是通过GPT-4V的理解能力和生成能力,结合GPT-4V的“打标签”能力、传统的文生视频能力,用GPT方法做了重写,从而实现了Sora。本质上,与大模型在医疗领域做一个医疗专用模型,在教育领域做一个教育专用模型并没有本质差别,只要有算力、有数据,其实没有真正核心技术的壁垒。

我们要发展中国通用人工智能,整个产业一定要有大模型的底座能力,我们有很多人可以做专用系统,很多人可以做我刚才说的大模型所调用的各种专用的小系统。但是国家不能没有自主可控的通用大模型底座,这决定了我们本轮通用人工智能发展到底能走多远。我们这么热热闹闹的社会热点,这么多的投入,将来能不能真的走到红利兑现那一天,我觉得底座能力是至关重要的。

今天所有的企业一定要科学地认识到大模型能力的边界,我们可以举出很多成功的例子,也可以举出很多的坑、很多不行的地方,每一家都是如此,所以我们要给统计数据。比如医疗八十几分是什么概念,国家执业医师资格考试60分就可以通过了,我们要考协和医学院等分数最高的医学院,七十几分也就可以上了。大模型的能力并不是包治百病,并不是什么任务都能100%完成。但是可以大概把它分成这几块,一个是叫一般难度任务,用通用大模型底座就直接可做,比如说代码、文案、翻译这些,会用到文本生成、摘要这些能力,直接用底座就可以满足应用。

中等难度任务涉及了知识库、深度的客服,它需要定制优化后才能用,这一般来说必须要做SFT的专门优化,很多地方可以做到,现在在很多客服行业可以大幅提升效率。

还有很多高难度任务,比如说高难度数学推理、多阶的推理类的知识问答,以及开放域的通用智能体等,实际上是非常难的,需要更大的模型,还需要专门的算法去摸索,在这些领域中,它具有很强的不确定性。所以今天我们认清这个边界,每个企业就可以知道自己应该怎么去做。

实际上,今天企业要探讨的话题是我们怎么能用更少的算力、更高的效率来打造我们的专属模型和专属应用。我们企业可以拿通用底座来做自己的专用行业模型,一般来说一个月就可以上线,在底座能力上进一步提升。底座如果60分,专业模型可能会做到80分,然后有了专用的行业模型,每个企业或者企业的不同岗位,在针对私域的IT语料加上高质量的微调,又可以进一步提升,一周就可以完成。所以,我们现在希望与很多龙头企业打造行业模型,提供给行业内所有上下游公司。

若GPT-5发布,差距会有多大?

今天人工智能技术的发展绝不是一家公司可以把所有事情都做完的,在这个时代,做帝国注定要衰落,只有生态才能生生不息;必须是自主可控的繁荣生态,才有中国通用人工智能大未来。

我非常高兴地向大家报告,从今年1月30日讯飞星火V3.5发布以来,我们的开发者团队持续高速增长,目前已经增长到702万,这都是实名认证的开发者团队。海外开发者数量从34万增加到40万,大模型的直接相关开发者达到了57万,这些数据都还在快速增长中。

面向下一阶段的人工智能的发展,这一波通用人工智能浪潮,我们要打造新的生态。特别要关注到的,第一是源头技术生态。科大讯飞针对几百万开发者团队,我们希望只要有比较好的AI能力,不论是高校还是创业企业,都可以集成在我们的底层平台上,让几百万开发者团队都能够用起来。

过去18个月,用过我们人工智能能力的独立终端已经突破40亿。我们把源头技术生态打开来,让更多的英雄有用武之地。今天人工智能非常重要的一个特点是大平台加上英雄主义,所以我们把源头技术生态打开。智能体生态让无论是企业每个岗位的人,可以做自己岗位的助手,也可以做自己的个性化助手,做完以后都可以分享出来。在我们的平台上,我们将来会设计分享模式和商业机制,从而形成智能体的生态。只要你懂场景,只要你愿意自己去试,试完成功了,你就可以发布到我们的智能体生态上,让所有的一线洞察能力和经验成为整个商业体中的一环。还可以有应用生态,用原来的开发者生态来做各种应用,无论是创业,还是企业内部的应用。去年我们新增的几百万开发者团队中,有50%以上是企业应用。

最后行业生态是希望跟各个行业里面的龙头企业一道来打造整个行业模型,然后把这个行业模型提供给行业里面的生态伙伴来共享产业收益,目前我们已经和现在很多龙头企业在做这件事。

从源头智能体开发到行业生态,在推动的过程中,特别重要的是一定要底座技术的完全自主可控,否则可能我们就把大楼建在别人的院子里,建在沙滩上,随时会倒塌,要真正做到软硬件一体化,才能更深度地落地。

在这样大的发展过程中,我们一定要科学理性地认识到中美科技的综合差距。今天我们说讯飞星火V4.0对标GPT-4 turbo是全方位对标。但是我们同时要看到,一旦GPT-5发布,因为它的模型尺寸更大、训练时间更长、数据更多,又会把这个差距给拉开,甚至拉到一年以上。

当然,我们有信心快速追赶,而且是在完全国产算力自主可控算法和数据基础上来追赶,保证不出现代差,保证极限情况下,能够顶上扛上。我们既要认识到差距,又要有充分的信心,要能够科学理性地给出从源头技术、到生态、到产业应用落地的一整套打法,要以长期主义来打造真正自主可控的AI产业生态。

责任编辑:沐梵
观察者APP,更好阅读体验

欧盟公布终裁结果,中方:不认同、不接受

神舟十九号发射圆满成功

人类罕见“甜蜜时刻”后,富国皮袍下的“小”逐渐冒头

G7真打算这么干了,俄方怒斥

“石破茂大败,美国大惊”