世界模型WorldArena Track1榜单智元GE 2.0登顶,然后呢?

来源:观察者网

2026-06-01 21:31

近日,观察者网了解到,在最新公布的WorldArena Track1(世界模型感知与动作响应赛道)评测中,智元自研的世界模型**Genie Envisioner-Sim 2.0(GE 2.0)以总分第一的成绩获得全球冠军。

相关榜单

相关资料显示,WorldArena Track1 是面向具身世界模型的权威国际评测榜单,全称为"世界模型感知与动作响应赛道"(World Model Perception and Action Response Track)。它主要评估世界模型在"认知世界"和"响应动作"两方面的综合能力。

世界模型在"认知世界"和"响应动作"两方面的能力,本质上是在回答一个核心问题:机器人能否像人类一样,在行动前先在脑海中"模拟"未来,从而避免在真实世界里做昂贵的试错。

先说"认知世界"。这并非简单的"看见"或"识别",而是机器人对物理规律建立内部表征的能力。

人类大脑天然具备这种心智模型,是因为人出生在物理世界。棒球击球手能在几毫秒内本能地预测时速160公里的球路,根本来不及等视觉信号传到大脑再做计算,靠的就是潜意识中的世界模拟。

世界模型要做的,就是让AI也拥有这种"直觉":它不仅要识别出杯子、桌子和行人,更要理解杯子接近桌边可能掉落、玻璃落地会破碎、人在柱子后不是消失而是被遮挡、车辆在雨夜刹车距离会改变。 

这种能力被形式化为一个决策过程,智能体通过压缩高维感官数据为紧凑的潜在状态,从而推断出真实环境中不可直接观测的因果关系和物理动态。

再说"响应动作"。认知世界本身并不输出动作,世界模型只是回答"如果我这样做,世界会变成什么样"。要让机器人真正动起来,还需要一条从世界模型到策略的通路,业界通常称之为世界动作模型(WAM)。 它的核心逻辑是"想象-执行":先在内部模拟不同动作序列带来的未来画面,再从中选择最优路径。

这种能力在自动驾驶中尤为直观。车辆每秒模拟成千上万种潜在交通场景,从中选择最安全的路径。 

对于机器人而言,这意味着机械臂无需重新训练就能适应新物体或意外障碍,因为它已经在内部"梦境"中预演过抓取和运动的物理后果。这两者的结合,构成了具身智能的完整闭环。认知世界让机器人"知其然"——理解物理规律;响应动作让机器人"行其然",将理解转化为精准控制。

智元GE 2.0的特别之处,在于它不只做认知或只做动作,而是试图做一个全功能的世界模拟器。长时序生成、多视角生成、本体状态生成、近实时推理、奖励判别,这些环节被串成一条链。更重要的是数据回流机制,仿真器在虚拟环境里跑出有效数据,经过奖励模型筛选,再反哺给策略模型。这就像一个学生在模拟考里反复试错,错题自动归类,针对性补强,而不是每次都拿一张全新卷子从头做。

这种路线的好处是快和便宜。在虚拟世界里推一万次杯子,电费成本远低于真机损耗。智元官方称,GE 2.0在特定测试指标上超越了英伟达等海外巨头的基线方案。但代价也很明显,仿真器里的玻璃破碎和真实车间里的玻璃破碎,物理参数可能完全不同。值得注意的是,WorldArena榜单上刷屏的不只是智元。星动纪元Ctrl-World拿了具身任务能力全球第一,北京人形Pelican-Unify成了双冠王。中国军团在世界模型赛道正在形成集体冲击力。这不再是单家企业的孤勇,而是国内本体厂商、科研院所和算法团队共同发力的结果。

但榜单的局限性必须被正视。WorldArena测的是仿真环境下的能力,而仿真到真实的鸿沟至今仍是具身智能的公敌。刚体碰撞在仿真里相对成熟,布料、流体、软体形变、手指与瓶盖的摩擦力,这些真实操作中的日常难题,在仿真器里仍然是硬骨头。

本文系观察者网独家稿件,未经授权,不得转载。

责任编辑:胡祥熙
观察者APP,更好阅读体验

“应许之地”的挑战者

“颁和平奖的国家都这么背信,还有没有国际法了?”

美反华议员跳脚:好危险,生物技术也得“卡”

美方得寸进尺:只要总部在中国,都不准买

“井底之蛙!中国造船产能是美国200倍,绝非夸张”