白热化:北大团队发布5D世界模型

来源:观察者网

2026-06-06 09:19

(文/周远方 编辑/刘媛媛)

2026年6月5日,北大EvoPhys团队与摩尔线程联合发布了EvoPhys-World。一个试图让机器人学会“想象”的5D世界模型,在这一天正式亮相。

四天前,英伟达刚刚发布了他们的世界模型Cosmos 3;前一天,斯坦福教授李飞飞发表论文,为“世界模型”这个被严重滥用的概念画出了权威的“三分法”地图。学界、产业界、算力巨头在同一时间窗口亮牌,显现当前AI新主流路线的竞争,进入白热化的阶段。

这场竞争的核心,可以用一个极为简单的动作来检验:

你让机器人把桌上杯子移到左边。

第一种做法,它看到杯子,识别指令,伸手抓取,平移放下。整个过程像条件反射,不会想。这是VLA时代,视觉语言动作模型,眼睛和手脚直接连线,中间没有脑子。

第二种做法,它看到杯子,脑子里展开几张图。图一,轻轻推,杯子滑到左边。图二,用力推,杯子翻倒,水洒出来。图三,没碰到,杯子不动。它剪掉图二和图三,选择图一。这是世界模型,4D版,三维空间加时间。它能预测下一秒会发生什么,就像一个能观看物理规则电影的观众,但它仍然只是一个观众。

第三种做法,还是这几张图,但它进一步想。如果桌面有水渍,图一的滑动距离会不会改变。如果杯子是空的和满的,翻倒的阈值有何不同。如果推的时候手指碰了一下杯沿,杯子会不会转。它同时推演多条世界线,并在分叉中选择。这是世界模型,5D版,在时间和空间之上,再加一维动作与因果。它不是在预测电影,而是在导演剧本——它在行动前,快速做完了一场关于“后果”的短梦。

这不是让机器人的眼睛升级,而是给它造了一个脑子。一个是学会“看”,一个是学会“想”。

一、EvoPhys的底牌:5D世界模型与“一个基模,两种形态”

EvoPhys-World不是一个由多个独立模块拼凑起来的“缝合怪”。它是一个统一的基础模型,将感知、记忆、预测、决策、行动全部压缩进了同一个隐空间。

EvoPhys-World 模型架构示意图。展示了Latent Memory Pool、Unified State-Action Token、World Engine 与 World Policy 的双模式螺旋结构,以及Next-State Prediction与Next-Action Prediction的并行推演路径。

在这个隐空间里,它呈现出两种形态。

第一种叫World Engine,即“世界引擎”。 你给它一个动作,比如“推”,它就能在脑子里模拟出这个世界接下来会变成什么样——杯子会滑多远、会不会倒、水会不会洒。这是它的“想象”能力,所谓“万物可孪生,物理可交互”。

第二种叫World Policy,即“世界策略”。 你给它一个目标,比如“让杯子停在这里”,它就能倒推出实现这个目标需要的一系列动作——手应该伸多快、用多大的力、角度怎么调整。这是它的“行动”能力,所谓“世界可预演,万物可操控”。

它们不是割裂的。World Policy执行后产生的结果,会反馈给World Engine,让它的“想象”更精准;更精准的“想象”又能生成更好的“行动”。这就是“自进化”的核心——它不是让机器人学会“做动作”,而是让它学会“做实验”。先在大脑里做一万次实验,再挑出最优的那个方案去执行。

这种设计有一个深层的哲学基础:动作空间的设计。英伟达Cosmos 3是机器人中心主义的,它的动作被定义为机械臂的关节角度、夹爪的位置。而EvoPhys采用人本主义路线:它不教机器人“二指夹爪怎么动”,而是先教模型学“人的五指怎么捏杯子、怎么拧瓶盖”。

但人本主义不只是路线的选择,它延伸出一套更完整的工程标准——“三位一体”。这套标准认为,人类的数据采集设备、机器人本体、以及人类远程操控机器人的交互设备,必须共享同一个数据接口。人类戴着设备去推杯子时,眼睛看到的画面、头部转动的姿态、手指的骨骼点与用力大小,都遵循同一套格式。这套格式被机器人直接读取,也被远程操控的人类原样接收。这样一来,人类采集的交互数据可以直接用于训练,学到的行为可以直接转移到机器人上,而人类在远程操控时也不会有任何感知上的错位。

这意味着,它理解的是任务本身,而不是被特定的硬件形态所绑定。在机器人形态尚未收敛的今天,人,才是那具最通用的本体。

说到“知”与“行”的关系,World Engine承担的就是“知”的角色——它知道推杯子后世界会如何变化;World Policy承担的是“行”的角色——它知道为实现目标该如何出手。据接近该团队的人士透露,他们将两者的闭环概括为“知行合一”:不是先仿真再决策的“先知后行”,而是知行互训、螺旋上升。

这个螺旋能够高效运转,有一个关键的硬件前提。EvoPhys团队将模型训练在摩尔线程的MTT S5000千卡集群上。这款芯片最特殊的地方在于:它不是英伟达H100那样的“纯训练卡”,而是保留了完整的图形渲染管线。World Engine要实时“画出”杯子被推倒的画面,World Policy要在这幅画上计算下一步的动作——渲染与训练必须在一颗芯片上同时完成,不能分到两台机器上倒腾数据。英伟达的数据中心卡为了极致算力阉割了渲染模块,而摩尔线程的“全功能GPU”恰好满足了世界模型的这种刚需。

二、它为什么特别?——英伟达和李飞飞提供的地图

EvoPhys这张底牌之所以在这个时间点显得如此锋利,是因为它同时与两件大事形成了对照。

英伟达的“主流”路线。

就在EvoPhys发布的三天前,英伟达推出了世界模型Cosmos 3。黄仁勋将其定位为“Physical AI的ChatGPT时刻”,打出了三张牌:数万亿级别的多模态token、开放的开发者生态、以及与宇树科技等本体厂商的硬件协同。

但解剖它的数据构成,会发现一些有意思的细节。据英伟达公开的技术报告,在Cosmos 3 Reasoner的预训练阶段,约2200万样本中,OCR文字识别占42.9%,2D空间定位占16.5%,视觉问答占11.3%,而视频理解与推理仅占0.05%。

换句话说,英伟达的模型是一个极其渊博的“通才”,但在“如何推一个杯子”这门物理课上,它可能还是个初学者。它的“教材”里,掺杂了太多“语言”和“合成画面”。它可能学到的更多是“推”和“动”在统计上总是一起出现的语言关联,而不是“当施加的力大于最大静摩擦力时,物体才会发生位移”的物理因果。它强大,但它解决的是规模化问题,而不是“理解”问题。

与此同时,来自产业前线的真实需求数字,显得更为冷静。智元机器人合伙人姚卯青曾估算,GPT-5训练语料折合约100亿小时,而全行业汇聚的高质量具身数据仅约50万小时,差距以万倍计。黄仁勋所说的“GPT时刻”,更准确地讲,或许是“基础设施的归因时刻”,而非“模型能力的落地时刻”。算力可以买到,但真实世界数据,必须是一天一天攒出来的。

李飞飞的“地图”。

同样是在这个时间窗口,学界给出了自己的框架。6月4日,斯坦福教授李飞飞发表论文,把被严重滥用的“世界模型”划出了三大功能类别:渲染器(生成逼真像素)、仿真器(生成符合物理规律的世界状态)、规划器(生成动作序列)。她特别强调,这三者中最被低估、但价值最深远的,是仿真器。她预言,最终这三类模型的边界将不断消融,走向一个“大一统世界模型”。

在这张地图上,英伟达和北大的位置被照见了。

Cosmos 3,偏重渲染与仿真,试图涵盖一切,但重心是“生成逼真的未来世界”。而EvoPhys,恰好精准地押注在李飞飞所说的那片“无人区”——价值最深、也最难啃的“仿真器”上。但更关键的是,EvoPhys悄悄画出了超越地图的路线。李飞飞的框架里,三者在分头演进后需要被“缝合”。而EvoPhys用“一个基模,两种形态”给出了更极致的答案:这三个功能从来不需要被缝合,它们从一开始就共享同一个隐空间,通过“螺旋自进化”互相喂养。

也就是说,当李飞飞还在为行业画出“如何走到终点”的地图时,EvoPhys已经拿出了“走到终点之后”的引擎。

三、从“是什么”到“为什么”

现在需要解释一个问题:为什么EvoPhys的这条“5D”路线,比Cosmos 3的“4D”路线,更接近对物理世界的“理解”?

我们可以借用围棋的变化图来理解所谓5D。

棋手在考虑下一步时,脑子里不是只算一个点,而是同时摆几张变化图。图一,我下这里,对手应那里;图二,我打入,对手反击,我是否做活。棋手在零点几秒内剪掉明显低胜率的分支,落子。世界模型推演物理后果,本质上在做同样的事——但棋盘从361个交叉点变成了无限的连续空间。一个动作下去,可能的后果有无限多种。模型要在零点几秒内剪掉那些违反物理规律的分支,只保留符合重力、摩擦力、碰撞体积的路径,再从中选最优。

这就是模式匹配因果推断的区别。

模式匹配,是模型在数据里看到“推”这个动作,和“杯子动”这个画面,在统计上总是一起出现。于是它学会了这个规律。结果,当它被要求推一个铁块时,它依然会用同样的力气——因为它不理解“为什么”需要更用力。它只是记住了一对表象。

因果推断,是模型在无数真实交互中,学会了一条底层物理规律:“当施加的力大于最大静摩擦力时,物体才会发生位移”。它不是在匹配“推”和“动”的画面,而是在学习那个通用的物理方程。因此,无论是推杯子还是推铁块,它都能根据物体的质量和材质,计算出需要多大的力。它理解了原因和结果之间的必然联系。

更进一步。反事实推理问的是:“如果刚才我没推,杯子会不会因为桌面的震动而自己滑落?”这是在脑子里构建一个与现实不同的平行世界去推演。EvoPhys的5D引擎,本质上就是在工程化这种“反事实”能力。

教一个模型“为什么”,和教它“是什么”,完全是两个世界的事情。前者通向真正的智能,后者只是更高级的鹦鹉学舌。

结尾:两种出牌,定义权博弈

英伟达Cosmos 3走的是“主流”道路——20万亿token、开放生态、硬件协同,它解决的是“如何让更多机器人快速学会一个动作”的规模化问题。这是算力帝国的一次标准出牌。

EvoPhys的激进,在于它连李飞飞刚画出的地图都不满足。李飞飞说世界模型应该融合渲染器、仿真器、规划器三类功能。EvoPhys的回应是:这三者从来不需要被融合,它们从一开始就应该长在一起。“一个基模,两种形态”,不是一个愿景,而是已经跑通了的架构。李飞飞还在指出“前方应该有一座桥”,EvoPhys已经站到了桥的对岸,回头看地图说:“我们的引擎已经过了河。”

李飞飞画出“渲染器-仿真器-规划器”三分地图,其本质是学术正统的渐进主义:承认三者终将消融,但坚持必须经历“先分后合”的阶段,以“大一统”为终极静态终点。EvoPhys的架构更激进。它直接取消“三分法”的中间状态,将仿真器(World Engine)与规划器(World Policy)压进同一隐空间,让两者不是“边界消融”后的并列选项,而是相互喂养的动态闭环——Policy执行后的真实结果反馈给Engine,Engine生成更精准的状态预测再驱动Policy。这不是“先分后合”的渐进融合,而是知行合一的螺旋上升。

团队曾将AI的三层进阶概括为:LLM读万卷书,具身智能行万里路,世界模型知行合一。前两者或知或行,各有偏重;而世界模型的终点,恰恰是知行互训的即时融合——没有静止的“大一统”,只有持续的螺旋。

而这场竞赛最意味深长的一幕,或许发生在硬件层面。摩尔线程为EvoPhys提供了一颗“会渲染”的GPU——这恰好是英伟达数据中心卡被阉割掉的能力。这是一个信号:在世界模型这个新战场上,中国芯片公司正在用“渲染+训练”的融合架构,试图定义一个新的标准。如果世界模型最终被证明需要一张“会画画”的芯片,英伟达可能不得不在下一代产品中恢复这项功能。

这不再是追逐,我们在一起做的,是路线定义权的博弈。

责任编辑:刘媛媛
观察者APP,更好阅读体验

特朗普:只有中美,能从伊朗废墟中取出浓缩铀

美大使急喊:美国赢中国才重要,欧盟别想着“自主”

欧企仓促逃离古巴,“美国制裁面前欧洲像只小狗”

“美国没工夫管我们了”,泽连斯基给普京致公开信

“惊人反转”,拿俄方做幌子,美国这也不想给德国了?