心智观察所:我国科研机构主导的大模型成果首次登上Nature
来源:观察者网
2026-02-07 09:02
【文/观察者网专栏作者 心智观察所】
几天前,《Nature》杂志刊发了一篇来自中国的人工智能研究论文。这在顶级学术期刊上并非新鲜事,但这篇论文的分量却非同寻常:它来自北京智源人工智能研究院,核心成果是一个名为“Emu3”的多模态大模型,而它试图回答的问题,是整个AI领域过去五年来悬而未决的核心命题——我们能否用一种统一的方式,让机器同时学会看、听、说、写,乃至行动?
这个问题听起来简单,但它的复杂程度足以让全球顶尖的AI实验室争论不休。
OpenAI用Sora惊艳世界,靠的是扩散模型;Google的Gemini整合多模态,用的是复杂的编码器拼接;Meta的Chameleon尝试统一,却始终难以在性能上与专用模型抗衡。而智源的答案,是一个看起来朴素得近乎偏执的选择:只用“下一词预测”。
这个选择的意义,可能需要一些背景知识才能理解。
论文前言
一场关于“语言”的豪赌
如果你问一位2020年的AI研究者,未来的多模态智能会是什么样子,他大概率会给出这样的预测:图像生成归图像生成,文字理解归文字理解,视频处理归视频处理,然后我们用某种“胶水”把它们粘在一起。这不是懒惰,而是当时的技术现实——不同模态的数据特性差异太大,专精往往意味着高效。
事实上,这条路线在过去几年里取得了巨大成功。Stable Diffusion让普通人也能生成惊艳的图像,GPT-4让对话AI变得无所不能,而各种视觉-语言模型则在问答、识别、描述等任务上不断刷新纪录。但问题也随之而来:这些模型就像一个技艺精湛但只会单项运动的运动员,让它们协同工作,需要复杂的工程架构、精细的模态对齐,以及大量的人工干预。
更关键的是,这种“专科化”的发展路径隐含着一个令人不安的假设:也许机器智能天生就是碎片化的,我们永远需要为每一种能力单独训练一个模型。
Emu3挑战的,正是这个假设。
智源团队的核心洞见是:如果我们把图像、视频、文字都转换成同一种“语言”——离散的符号序列——那么让模型学习“预测下一个符号”这一个任务,是否就足以涵盖所有多模态能力(如下图)?
这个想法并非没有先例。早在2020年,GPT-3就已经证明,仅仅通过预测下一个词,语言模型可以涌现出惊人的推理、翻译、编程能力。但将这一范式扩展到图像和视频,面临着截然不同的挑战:一张512×512的图像,如果用简单的方式转换成符号,可能需要几十万个token,这对于Transformer架构来说是灾难性的计算负担;更重要的是,图像的空间结构、视频的时间连续性,与文字的线性叙事有着本质区别,简单的“下一词预测”真的能捕捉这些复杂的关系吗?
智源的答案是肯定的,而Emu3就是他们的证明。
一个分词器的艺术
要理解Emu3的技术突破,首先要理解它的“视觉分词器”(Vision Tokenizer)。这个听起来不起眼的组件,实际上是整个系统的基石。
想象一下,你需要用电报向一个从未见过图片的人描述一幅画。你不可能传输原始的像素值——那太冗长了;你也不能只说“一幅风景画”——那太模糊了。你需要的是一种既紧凑又富有表现力的编码方式,能够在有限的符号中保留足够的视觉信息。
Emu3的视觉分词器做的正是这件事。它能够将一张512×512的图像压缩成仅仅4096个离散符号,压缩比达到64:1;对于视频,它在时间维度上进一步压缩4倍,使得一段4帧的视频片段也只需要4096个符号表示。这些符号来自一个包含32768个“词汇”的码本——你可以把它想象成一本视觉词典,每个“词”代表一种特定的视觉模式。
更精妙的是,这个分词器是为视频原生设计的。传统的图像分词器处理视频时,只能逐帧编码,完全忽略帧与帧之间的时间关联;而Emu3的分词器通过三维卷积核,能够同时捕捉空间和时间维度的信息。在实验中,这种设计用四分之一的符号数量,就达到了与逐帧处理相当的重建质量——这不仅意味着更高的效率,更意味着模型能够真正“理解”视频的动态本质,而非仅仅处理一堆静态图片。
有了这个分词器,图像和视频就变成了与文字一样的符号序列。接下来的事情,就是让一个Transformer学会预测这些序列中的“下一个符号”。
当简单遇上规模
Emu3的模型架构,用一句话就能概括:它就是一个标准的大语言模型,只不过词汇表里多了32768个视觉符号。
这种极简主义设计在AI研究界是罕见的。主流的多模态模型——无论是LLaVA、BLIP-2还是Flamingo——都采用“编码器+语言模型”的复合架构,即先用一个专门的视觉编码器(通常是CLIP)把图像转换成特征向量,再用适配器将这些特征“注入”语言模型。这种设计的好处是可以复用已有的预训练组件,但代价是系统复杂度的急剧上升,以及模态之间潜在的隔阂——视觉编码器和语言模型毕竟是独立训练的,它们对世界的理解未必一致。
Emu3选择了一条更激进的路:不用任何预训练的视觉编码器,不用任何复杂的模态融合机制,只用一个从零开始训练的decoder-only Transformer。所有的多模态知识,都是在统一的下一词预测任务中从数据里学来的。
这种“大道至简”的设计哲学,在实践中转化为了惊人的实验结果。
在图像生成任务上,Emu3在人类偏好评估中得分70.0,超越了Stable Diffusion XL(66.9)这个扩散模型的标杆;在视觉语言理解的12个基准测试上,它的平均分达到62.1,与采用复杂编码器架构的LLaVA-1.6(61.8)持平;在视频生成的VBench评估中,它取得了81.0分,超过了专门的视频扩散模型Open-Sora-1.2(79.8)。
这些数字的意义在于:一个仅仅用“预测下一个符号”训练的模型,在生成和理解两个看似矛盾的方向上,同时达到了专用模型的水平。这在此前被认为是不可能的——毕竟,扩散模型和自回归模型的数学基础完全不同,擅长理解的架构通常不擅长生成,反之亦然。Emu3的成功,相当于一个运动员同时在短跑和马拉松比赛中夺冠,打破的不仅是记录,更是人们对专业化边界的认知。
规模定律的启示
如果说单点性能的突破还可以归因于工程技巧或数据质量,那么Emu3论文中最具科学价值的发现,则来自于它对规模定律Scaling Laws的系统研究。
规模定律是现代AI研究的圣杯之一。它描述的是模型性能与模型规模、数据规模之间的数学关系——如果我们知道这个关系,就能预测一个更大模型的表现,而不需要真的训练它。这对于动辄消耗数百万美元计算资源的大模型研发来说,具有极其重要的实用价值。
此前的规模定律研究主要集中在纯语言模型上。Emu3的贡献在于,它证明了多模态学习同样遵循可预测的规模定律,而且——这是关键——不同模态共享同一套数据扩展指数。
具体而言,无论是文字到图像、图像到文字,还是文字到视频,当训练数据量翻倍时,模型的验证损失都以0.55的指数下降。这意味着多模态能力的提升不是各自为政的,而是遵循统一的数学规律。基于较小模型的实验数据,研究团队准确预测了70亿参数模型的性能,拟合优度超过0.99,误差不到3%。
这个发现的意义远超学术范畴。它暗示着,未来的多模态智能可能不需要为每种能力单独设计训练策略——只要把不同模态的数据混合在一起,用统一的目标训练,规模扩大后能力就会自然涌现。这极大地简化了研发路径,降低了技术门槛,也让通用人工智能AGI的愿景变得更加可信。
论文的另一个亮点,是Emu3在机器人操控任务上的出色表现。
在CALVIN基准测试——一个评估机器人执行长序列任务能力的标准测试——中,Emu3在“连续完成五个任务”的指标上达到了87%的成功率。这意味着机器人在接受语言指令后,能够依次完成一系列复杂操作,如“拿起桌上的杯子”、“打开抽屉”、“把杯子放进去”等,每一步都需要视觉感知、语言理解和动作规划的紧密配合。
这个结果揭示了Emu3框架的深层潜力:它不仅仅是一个内容生成工具,更可能是通往具身智能的一条捷径。传统的机器人学习需要专门设计感知模块、决策模块和控制模块,然后艰难地将它们整合在一起;而Emu3的思路是,把视觉观察、语言指令和机械臂动作都转换成符号序列,让模型在统一的框架下学习它们之间的关联。
论文中展示了一个令人印象深刻的例子:给定一段烹饪视频的前两秒,Emu3可以预测接下来两秒会发生什么——锅中的食材如何翻炒(如下图),厨师的手会移向哪里,蒸汽会如何升腾。这种“世界模型”的能力,被认为是通向更高级AI的关键:一个真正理解物理世界的模型,应该能够预测行动的后果,而非仅仅记忆静态的图像-文字关联。
与海外同行的比较
在全球AI研究的版图上,Emu3处于什么位置?
最直接的比较对象是Meta的Chameleon。这是另一个尝试统一多模态学习的模型,同样采用了token化和自回归预测的范式。但Chameleon在发布时面临着一个尴尬的处境:虽然架构统一,但性能与专用模型存在明显差距,尤其在图像生成质量上。Emu3的突破在于,它证明了这个差距可以被弥合——关键在于视觉分词器的质量和训练策略的优化。
与OpenAI的路线相比,差异则更加根本。OpenAI的Sora代表了扩散模型在视频生成上的巅峰,它的视觉质量和时间一致性令人叹为观止。但扩散模型有一个内在限制:它本质上是一个生成器,而非理解器。要让Sora“理解”视频内容并回答问题,需要额外嫁接一个视觉语言模型——这又回到了模态割裂的老路。Emu3的自回归范式则天然统一了生成与理解:生成是预测视觉符号,理解是预测文字符号,它们在同一个模型里用同一种方式完成。
Google的Gemini采用了一种更折中的策略:它确实整合了多种模态,但内部架构仍然依赖预训练的视觉编码器和复杂的模态融合机制。这种设计的好处是可以快速利用已有的技术积累,但代价是系统的复杂性和潜在的模态偏见。Emu3的从零训练策略虽然计算成本更高,但带来的是更纯粹的多模态表征——所有模态的知识都是在同一个优化目标下共同习得的。
从开放性的角度看,Emu3的优势更为明显。论文作者承诺开源关键技术和模型,包括视觉分词器、训练代码和预训练权重。这与OpenAI对Sora和GPT-4的封闭策略形成鲜明对比。对于中国乃至全球的AI研究社区来说,这意味着一条新的技术路线变得可以复现、可以改进、可以建立在上面。
商业化的想象空间
技术突破最终需要转化为社会价值,而Emu3的架构特性为商业化提供了独特的可能性。
首先是部署效率。Emu3的核心是一个标准的Transformer,这意味着它可以直接复用大语言模型已经非常成熟的推理基础设施——包括vLLM的动态批处理、PagedAttention的内存优化、各种量化和剪枝技术。论文提到,研究团队基于FlagScale开发了支持无分类器引导的推理后端,在保持生成质量的同时实现了低延迟和高吞吐。这为大规模服务奠定了基础。
其次是应用的统一性。传统的多模态服务需要为不同的能力部署不同的模型——一个处理图像生成,一个处理视觉问答,一个处理视频理解——这带来了显著的运维复杂度和资源浪费。Emu3的单一模型架构意味着一套部署可以支撑多种能力,大大降低了服务的边际成本。
更具想象力的是交互形态的变革。当一个模型同时具备生成和理解能力,而且可以处理图像、视频、文字的任意组合时,传统的“输入-输出”界限就变得模糊了。一个用户可以上传一段产品演示视频,要求模型生成配套的图文说明书;可以描述一个场景,让模型生成视频并实时回答关于视频内容的问题;甚至可以让模型“想象”一个物理过程的结果,比如“如果我把这杯水倒在键盘上会发生什么”。这些交互在此前需要复杂的多模型协作,现在可能在单一模型内流畅完成。
在特定垂直领域,Emu3的潜力同样值得关注。教育场景中,一个能够生成演示图像、解释概念、回答问题的统一助手,比分离的工具组合更加自然;电商场景中,从产品图片的生成、变体的创建、到用户问询的回答,可以在同一个模型中完成;医疗影像分析中,统一的多模态理解可能帮助医生更高效地处理报告和图像。
当然,从实验室原型到商业产品还有很长的路要走。论文也坦诚地讨论了现有的局限:推理速度仍有提升空间,视觉分词器在压缩率和保真度之间存在权衡,长视频的处理能力有待增强。但这些是工程优化的问题,而非范式上的死胡同。
一个范式的开端
回到本文开头的问题:Emu3的真正意义是什么?
从技术角度看,它证明了“下一词预测”作为多模态学习统一范式的可行性。这不是一个增量式的改进,而是对主流技术路线的根本性挑战。如果Emu3的结果可以被进一步扩展——更大的模型、更多的数据、更长的上下文——那么AI领域可能正站在一次范式转移的门槛上。
从产业角度看,它为中国AI研究树立了一个新的标杆。在大模型竞争中,中国团队往往被认为是快速跟进者而非规则制定者。Emu3登上Nature,不仅是学术声誉的认可,更重要的是它提出了一条不同于OpenAI、Google、Meta的技术路线,并且用实验证明了这条路线是可行的。这种原创性的贡献,是建立长期技术影响力的基础。
从更宏观的视角看,Emu3的成功暗示着一种可能的未来:也许智能的本质就是预测。预测下一个词,预测下一帧画面,预测下一个动作——当这些预测任务被统一到同一个框架中,涌现出的可能不仅仅是更强的模型,而是对“理解”和“创造”本身的新诠释。
论文的结尾写道:“统一的下一符号建模为世界模型提供了一条有希望的道路,这种模型整合了感知、语言和行动。”这不仅是一个技术愿景,也是一种哲学立场:智能也许不需要被分解成相互独立的模块,它可以是连续的、统一的、自然生长的。
当然,一篇论文不能回答所有问题。Emu3的上下文窗口还不够长,处理小时级视频仍是挑战;它的推理能力与专用语言模型相比仍有差距;它对真实物理世界的”理解”究竟有多深,还需要更严格的测试。但它已经迈出了关键的一步:证明了一条更简洁、更统一的道路是存在的。
在AI发展史上,最重要的突破往往不是做出更复杂的系统,而是找到更简单的原则。从反向传播到注意力机制,从强化学习到扩散模型,每一次飞跃都源于对复杂性的简化。Emu3的贡献,也许正是把多模态智能的复杂性,简化成了一个朴素的问题:下一个符号是什么?
这个问题的答案,将塑造AI的下一个十年。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。