一场百人动捕过后,行业巨头们又要小心了

来源:观察者网

2026-06-08 20:31

2026年5月31日,上海宝山。100名舞者同时走进1000平米的动捕棚。

百人动捕活动现场

头顶上,76台相机阵列早已架好。 

这场挑战的技术参数注定载入行业史册:5300个反光点,每帧6万组二维数据,每秒需要处理约720万个二维图像点,而系统端到端延迟被牢牢控制在12毫秒以内,这比人类眨一次眼还要快一个数量级。 

几个小时后,全球公开可查的最大规模实时多人动作捕捉纪录,属于一家中国公司:青瞳视觉。

 一、阿凡达,与动捕这门手艺 

2009年,《阿凡达》让观众首次看到那些栩栩如生的蓝色纳威人。很多人并不知道,每一个数字角色的动作,都源于真实演员穿着贴满反光点的紧身服,在一个布满摄像头的棚里表演。

 

《阿凡达》系列相关镜头

这就是动作捕捉,是物理动作与数字信号之间的底层转换协议。 

这门手艺被少数几家公司垄断了四十多年。如果你问一位好莱坞导演或顶尖生物力学教授,动捕系统在用谁家的?",答案大概率是英国的Vicon和美国的OptiTrack。前者从1980年代起深耕好莱坞和全球顶级实验室,后者则在NASA航天仿真领域根基深厚。

它们的优势是漫长的品牌认知与由此形成的生态惯性。 而青瞳视觉2015年才从中科院自动化所走出来。如今,其动捕相机累计出货量已突破10万台,覆盖国内90%以上的985和211高校,国内出货量位居第一。硬件实现100%国产化,同等配置价格比进口低四到六成。 

Vicon和OptiTrack的强项,是服务于一部电影拍两年的好莱坞逻辑。但青瞳视觉从创业第一天起,面对的就是完全不同的需求土壤:国产年番要求周周更,虚拟偶像要求天天播,机器人要求日日练。

正是这些非标准的极限任务,让青瞳视觉长出了Vicon不具备的肌肉。 

二、百人并发:一场玩笑催生的极限压榨 

关于这场百人挑战的由来,有一个颇有意思的缘起。

去年在西安,AMD渠道行业解决方案经理李凯男看到青瞳视觉团队在调试设备,聊起技术瓶颈时发现,青瞳视觉的硬件已达顶级规格,但算力解算成为卡点。李凯男主动提出,可以试试我们(AMD)的机器,随后两人头脑风暴,李凯男撺掇说,能不能搞个100人试试,张海威当场拍板应下。

张海威后来笑着回忆,这是老板拍脑袋,CTO拍屁股,真正落地的压力全部落在技术团队身上。 为什么100人比1个人难这么多?

捕捉100个人,难点的增长从线性变成指数级。100个身形相似的女舞者在同一场地交织。每人身上53个反光点,总计5300个点。系统必须在12毫秒内,完成从图像采集到骨骼解算的全链路处理。 

更困难的是身份识别。100个身形相似的人在高速舞蹈中相互遮挡,标记点反复丢失重现。系统必须在毫秒级判断“这个光斑是A的左肘还是B的右膝”。

一旦ID错乱,骨骼就会漂移、扭曲。 第一次内部测试时,系统刚加载到70人左右就卡住了。CPU占用率飙升到99%,内存调用异常。

张海威回忆,研发工程师在“揪头发”,“一堆人对着电脑,全程懵了。”

走道里站满了舞者,开销、场租、人力成本都在燃烧。团队不得不宣布中场休息,留下专家会诊小组现场极限拉通诊断。 问题出在哪里?

当时的硬件配置已是顶级算力,理论上足以应对百人解算,但软件能否“吃透”这个硬件,是另一回事。

CTO张群在复盘会上说,底层算法没有充分利用这么多核心资源。很多线程在空转、争抢,核心越多,调度混乱反而越严重。 AMD渠道经理李凯男补充说,需要在动捕这种实时场景里做线程亲和性绑定,让核心解算线程固定在特定核心上,不被中断。否则线程频繁跳跃,累积的损耗在每一帧都是致命延迟。 

为此,AMD团队做了两件事。一是从大约10款处理器中反复联调,锚定了一颗最平衡的芯片,并从总部调来可调BIOS版本。 

三、Hero,AMD请出的超频英雄 

企业级合作摇人,通常摇的是架构师、FAE。

AMD这次摇了个超频玩家。 

Hero。超频选手,隶属七彩虹iGame超频团队,2026年1月刚把锐龙7 9800X3D超到7335.48MHz,登顶HWBot全球第一。工位是液氮桶,不打卡,但对电压和时序的敏感度,可能比某些BIOS工程师还高。 

AMD相关系列介绍

AMD把他请进青瞳视觉的动捕棚,任务不是刷分,是让一颗64核线程撕裂者在120帧实时动捕里,把每一帧延迟钉死在12毫秒。

他干了三件事:对齐8通道DDR5的突发写入;改写L3缓存命中规则;最狠的是把64个物理核和128个逻辑线程的亲和性彻底钉死,让解算线程永不被中断。消费级BIOS里的常规操作,搬到企业级可调BIOS上,需要既懂芯片物理极限、又懂固件底层的人。

AMD跟超频圈的交情,从Athlon时代就开始了。Intel把倍频焊死的时候,AMD的Athlon XP留着L1金桥,拿2B铅笔涂两下就开了。

Barton 2500+花赛扬的钱跑出P4的性能,江湖人称“穷人的法拉利”。后来AMD推Ryzen Master,赞助HWBot,超频从玩家省钱的玩法,变成了产品生态的一部分。

现在Hero在青瞳视觉棚里做的事,是这套文化的第三次迭代:从铅笔超频,到液氮破纪录,再到产业级BIOS微操。液氮桶里练出的手艺,在动捕棚里派上了用场。 

软件层面,青瞳视觉团队则同步重写了底层线程调度,将整个解算管线并行度拉满。 优化近一个月后,第二次测试开启。系统从启动开始就平稳运行,并在验证中从100帧主动加压到120帧。每一帧的数据采集、三维重建、骨骼解算,全部在几毫秒左右完成。

张海威站在屏幕前,看着100个数字人的骨架在低延迟状态下整齐舞动。

“那几个小时的苦,那一刻都值了。”他感慨。 他后来补充说:“我们不是为做100人而做100人。我们是要证明,这套系统用常规出货的软件、正规的千平场地、标准相机布局,它就能撑住。这就像要求一辆量产的普通家用车,直接跑出赛道的极限成绩,还不爆缸。” 

四、屠龙术:好莱坞未竟事 

百人并发不是凭空长出来的。

它的根基,第一次扎深在2017年的《凡人修仙传》剧组,那是青瞳视觉对单点精度和流程标准的第一次硬碰硬。

《凡人修仙传》相关画面截图

 那年,江苏原力正在制作这部后来被称为国漫标杆的作品。其动捕系统原由国际团队Profite服务,这家团队曾长期负责《阿凡达》。但因续集档期紧张,Profite无法长期驻场来服务一部国产年番,原力找到了青瞳视觉。 

张海威回忆:"那会儿说实话,我们动捕的性能跟Profite差距还比较大。但为了给他们提供服务,我们必须把性能和流程标准提高到跟Profite同样的档次。"

CTO张群带着技术骨干在原力驻场了三四个月,把整个制作流程拆解成七八个步骤,逐一攻关。

从《凡人修仙传》第一集开始,就用青瞳视觉的系统拍摄。 

《凡人修仙传》幕后花絮截图

这次被迫升级让青瞳视觉证明了其性能已达到国际同等水平。但仅有准是不够的,真正拉开差距的是并发规模。 行业内对多人实时动捕的探索一直停留在较低水位。

据公开记录,吉尼斯纪录认证的多人实时动捕上限仅为19人;行业内有视频可查的最多案例也只有40多人。传统巨头的核心场景是10人以下的好莱坞中远景拍摄,从未被要求过去做40人以上的同场实时解算。 2022年,青瞳视觉完成了41人同场动捕测试,打破了行业纪录。但41人不是终点。西安那次头脑风暴后,他们直接将目标翻倍不止——100人。这一次,张海威要求必须用常规出货的软件、标准的1000平米场地和相机布局,不能为降低算力压力而缩小参数。 《凡人修仙传》的驻场苦战,和41人、100人的并发突破,青瞳视觉的每一步都是由这些非标准需求倒逼出来的。 

五、飞轮:从塔基到塔尖 

但青瞳视觉也并非一直在做这类拔高上限的任务。这些项目耗时数月、研发投入巨大,单笔营收占比并不高。

那么,是什么在支撑青瞳视觉不断挑战这种"边界"? 答案藏在另一条业务线里,那些看起来没那么"性感"的批量生意。 钱从哪里来?

张海威给出了关键情况:目前营收结构里,影视娱乐占的比例已经不如机器人业务。 

传统动捕市场有两种模式。

好莱坞一部电影拍两年,项目制、高毛利、低频次;高校科研一套设备用三五年,单机、离线、高精度。但中国市场正在催生全新的需求类别。虚拟偶像与直播需要全年无休,这种高频磨损倒逼青瞳视觉把动捕服寿命从一年延长到五到八年。

短剧与综艺则对系统冗余提出极高要求,青瞳视觉正在接洽30人同场的需求,而客户要求冗余度做到60-90人才敢用。高校市场则覆盖了国内九成以上的985和211高校,学生今天用青瞳视觉的产品做毕设,明天去了宇树、智元工作,也会习惯性继续采购。 

当我们将这两条线放在一起看时,青瞳视觉的成长路径逐渐清晰,它不是一条直线,而是一个咬合的飞轮: 塔基,是那些支撑公司活下去、长肌肉的批量生意。它们贡献了七八成的现金流,也提供了好莱坞项目给不了的迭代密度。没有这批稳定的现金流,青瞳视觉根本无法养活一个专职团队去攻克耗时数月且利润微薄的非标项目。 

而塔基养出来的能力,又被投入塔尖的任务中,去拔高技术天花板。比如水下动捕,一个气泡的折射就会让光学追踪丢失,青瞳视觉为此重构了水下光路算法,这项改进意外反哺了户外强光下的抗干扰能力。

再比如飓风风洞,为风洞实验的科研场景中提供高精度定位测量。还有6400平米的无人机集群避障训练场,为国家级科研机构提供亚毫米级定位。 其中最特别的项目,是全球首套乒乓球运动分析系统。国家队长期有一个焦虑:没拿金牌之前,并不知道什么样的人适合打乒乓球。

青瞳视觉为中国乒乓球研究院开发的这套系统,以亚毫米级精度捕捉挥拍瞬间的微小震颤,通过大规模数据对比分析,为选材育才和科技奥运提供定量依据。

这些任务单笔营收占比不高,但它们是"技术上限"的锻造者。

它们在B端客户心中产生了登月效应:连水下气泡都能搞定、连17级飓风都不怕,常规项目自然不在话下。这种品牌心智,直接转化为出海势能和议价能力。

百人动捕本身,就是塔尖能力的极限封顶。它目前没有直接的商业场景买单,但为综艺项目、为出海谈判提供了不可复制的品牌信用。 塔尖积累的品牌与能力,最终又会反哺塔基。当青瞳视觉能以"我们做过100人动捕"的品牌信用去谈其他类似的复杂多人动捕场景的项目需求时,甲方自然愿意接受更高的报价;当海外客户听说青瞳视觉为乒乓球国家队等机构提供过服务时,其基础产品的出海阻力也会小得多。

这就是飞轮的咬合。 

六、冰山之下:从卖硬件到卖真值数据 

而在水面之下,一个更深层、更巨大的结构正在生长。

数据的冰山基座。不管是塔尖任务中产生的运动员"高精尖"动作,还是塔基生意中积累的千人级群舞数据,它们的最终去向,都指向一个崭新而庞大的市场:具身智能。 

青瞳视觉相关训练场景

AMD的李凯男提供了一个关键判断:"这个行业最缺的就是数据,仿真的数据是有一定位数的。当环境越恶劣时,越需要真实数据来提供。"

他所说的位数,指的是仿真环境在物理引擎精度、传感器噪声建模上存在固有的简化上限。当真实场景的复杂度超过这个上限,必须靠真实世界的高精度动捕数据来填补。 

这些数据正在沉淀为青瞳视觉最核心的、不可复制的资产。从卖硬件到卖数据,青瞳视觉的商业想象空间,正隐藏在这片水面之下。 

在所有新需求中,具身智能是最关键的变量。

张海威说了一个重要判断:高质量的运动数据,是训练人形机器人的"ImageNet"。中国拥有宇树、智元等数十家人形机器人公司,这种市场加政策双重驱动的需求密度在欧美几乎不存在。 

青瞳视觉作为国内具身智能领域应用最广的动捕品牌之一,正在成为这一波浪潮的核心数据供应商。这个超级变量的出现,直接改变了青瞳视觉的竞争格局。

它不再是跟在Vicon身后抢影视客户的追赶者,而是在一个全新赛道上成为定义者。 

七、攻守易势:当需求中心从好莱坞转向上海 

回顾动捕行业三十多年的发展史,是一个标准的需求牵引供给的故事。好莱坞对顶级视效的追求,孵化了Vicon这条全球最强势的供应链。

可以说,是欧美的消费级影视需求,哺育了全球动捕产业的第一梯队。 但这个逻辑正在发生根本性变化。中国市场同时出现的,是年番周周更、虚拟偶像天天播、机器人每天练的高频需求,最苛刻的用户已经从好莱坞制片人变成了中国的动画导演、虚拟偶像运营和机器人算法工程师。他们需要的是今天下单、明天开拍、后天出数据的敏捷交付。 

Vicon的护城河,已从单纯的技术领先演变为生态与习惯壁垒。但其软硬件高度绑定,不向外部算力平台开放底层接口,在中国的服务节奏仍停留在上一个时代。更关键的是,同等配置价格高出国产四到六成。 这就是攻守易势的时刻。当中国市场对并发规模、实时性、敏捷交付的要求远超欧美时,需求定义权已经发生转移。

青瞳视觉与AMD的深度合作正是在此背景下发生,那次西安偶遇后,双方花了四五个月做底层优化,为这场需求中心的转移铺好了算力管道。 

八、当叙事真空时,让“100人”说话 

在交流中,我们问张海威一个问题:"外界要理解青瞳视觉的技术到底有多强,最容易参照的案例是什么?" 

他短暂停顿了一下,给出了一个意料之外但却诚实的答案:“《凡人修仙传》。” 

原因很简单:因为《凡人修仙传》的片尾,给了青瞳视觉一个logo露出。这是少数几个可以被公开讲述的标杆案例。 这背后是一个残酷的现实:Vicon在全球建立品牌,靠的不是它自己的广告,而是《阿凡达》。

那些世界上最会讲故事的电影人,在片尾滚动字幕里替它完成了品牌叙事。这是一种生态级的叙事溢出,它是被动的、体系性的、可遇不可求的。 

而青瞳视觉呢? 

它在乒乓球训练房里装了十微米级的捕捉系统,但那套系统不会出现在奥运直播的特写镜头里,因为它解决的是选材育才的战略问题,不是展示技术的表演问题。

它在飓风风洞里铺设了亚毫米级的定位网络,但那里永远不会有一个纪录片导演架起摄像机,因为那是国家级的气动实验。它为某高校建设了国内最大的无人机集群训练场,但那里的一切,都归入保密目录。 

这些项目,每一个都验证了青瞳视觉的技术已经触碰到了行业最罕见的极限,但每一个都不能说。 这不是青瞳视觉一家公司的困境。这是一个正在承接全球产业需求中心的生态,在品牌叙事能力上的代际差距。 

Vicon用40年等来了《阿凡达》。青瞳视觉很难等,也不能等。 所以它选择了另一条路,当叙事真空时,用可量化的硬指标来填补。 百人动捕就是这个逻辑下的产物。

李凯男在交流中说得直白:"不是说为了100个人只能100个,这样是不对的。性能的冗余设计,冗余的弹性,才是实力的体现。"

百人这个数字,看得见、摸得着,就像速度一样,你说你有多快,跑一个试试就知道了。 

人数和速度一样,是最朴素的硬指标。它不需要客户盖章,不需要顶级IP背书,不需要片尾logo露出。

100个人同时站在1000平米的棚里,76台相机同时工作,12毫秒内完成全链路解算,这是可以用公证处现场证明的客观事实。 

这是一种更朴素、也更笨拙的品牌建立方式。它没有好莱坞大片的叙事张力,没有《阿凡达》式的原创性光环,但它有一个优势:它不依赖于任何外部条件的成熟。 

真正建立起全球最无所不能的科技品牌这个心智,需要什么? 

需要像当年的NASA那样,有一个阿波罗计划,有一个让全世界都看到人类能做到什么的标杆事件。它不是一个公司的宣传片,它是一个时代的集体记忆。 

青瞳视觉的百人动捕,当然远没有达到阿波罗计划那样的量级。但它的逻辑是一样的:在等待《阿凡达》式的原创性叙事到来之前,先自己去定义一些看得见、摸得着的硬标准。 

青瞳视觉当然还远没到定义标准的那一步。但它正在做一件更重要的事,就是让100这个数字,成为动捕领域一个绕不开的坐标。当未来有人问"中国动捕能做到什么程度"时,答案不需要从某部电影的片尾字幕里寻找,只需要记住一个数字:100。 

那些真正伟大的叙事,从来不是被"讲"出来的,而是被一次又一次可被验证的“做到”喂养出来的。 《凡人修仙传》的驻场苦战,百人实时动捕的极限突破,水下追踪一个气泡的折射,为中国最顶尖的乒乓选手分析毫厘之间的震颤。

这些被锁在档案里的故事,终有一天,会随着整个产业的成熟,被一一讲出来。 而这一切,都不着急。

责任编辑:胡祥熙
观察者APP,更好阅读体验

争气!

日企喊疼:中国再不供货,工厂快歇菜了

重要发现,“有助降低对美高科技材料依赖”

美国绕过英国“购岛”?英媒担忧:将终结现代外交

“美国时常对中国酸葡萄,这次亲自下场”,还是败了