科大讯飞携手华为,实现基于国产算力的MoE模型推理方案

来源:观察者网

2025-03-11 16:12

3月11日,据“科大讯飞研究院”公众号,近日,科大讯飞携手华为在国产算力领域取得重大进展,双方联合团队率先突破国产算力集群上MoE模型的大规模跨节点专家并行集群推理,这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案。

科大讯飞介绍,联合团队通过软硬件的深度协同创新,在多个关键技术层面深挖硬件潜力,完成昇腾集群上的验证和部署。在算子融合方面,团队在MLA预处理阶段通过Vector与Cube异构计算单元并行流水,并将多个小算子融合重构为原子级计算单元,消除小算子下发开销,MLA前处理时延降低50%+,实现性能的显著提升。

在混合并行策略和通信计算并行优化方面,团队构建了TP(张量并行)+EP(专家并行)混合范式:对MLA计算层采用机内TP并行,发挥机内高速互联优势,降低跨机通信损耗;创新MoE专家分层调度,64卡均衡分配专家计算节点,定制AllToAll通信协议,专家数据交换效率提升40%,构建跨机/机内双层通信架构,通过分层优化降低跨机流量60%;同时研发路由专家负载均衡算法,实现卡间负载差异小于10%,集群吞吐提升30%。

通过分布式架构创新与算法协同优化,联合团队在国产算力上实现了显著的性能提升。单卡静态内存占用缩减至双机部署的1/4,效率提升75%,专家计算密度增加4倍,推理吞吐提升3.2倍,端到端时延降低50%。

科大讯飞称,这一突破性的解决方案也将应用于讯飞星火深度推理模型的训练加速,预期训练时推理效率将提升200%。同时,基于该方案的推理引擎也实现了国产算力上DeepSeek V3和R1的高效推理。

近期,科大讯飞深度推理大模型星火X1也完成升级,在模型参数量比业界同行少一个数量级的情况下,星火X1的数学能力全面对标DeepSeek R1和OpenAI o1,在中文数学各项任务中均实现领先。科大讯飞始终坚定走国产化道路,星火X1也是当前唯一采用全国产算力训练的深度推理大模型。

阅读 37834
责任编辑:连政
观察者APP,更好阅读体验

评论17条

见素居

03-11 16:34

来自浙江省

科大走在正确的道路上。
一,联合华为 纯国产自主可控
二,融汇deepseek,提升效率

65
1

萤火虫啊

03-11 23:17

来自安徽省

见素居

03-11 16:34

来自浙江省

科大走在正确的道路上。
一,联合华为 纯国产自主可控
二,融汇deepseek,提升效率

65
1

科大讯飞跟科大的关系,
就跟清华同方与清华的关系是一样。

6

萤火虫啊

03-11 23:14

来自安徽省

讯飞还在活着?

10

树冠上的云

03-11 22:41

来自北京市

很好了。国产卡除了生态,就是跨节点互联了。至于国产卡,单卡性能差1倍,不是什么大不了问题。但互联受限就很难大规模计算和推理了。

1
3

龙门王二

03-11 21:25

来自山西省

苛政猛于虎

03-11 19:59

来自广东省

眼睛耳朵是先进传感器,可不是什么讯飞

2

耳朵听到的信息不需要语音识别处理?

1

沧海一剑客

03-11 21:10

来自江苏省

重庆欢迎你

03-11 16:34

来自重庆市

脑子:deepseek。
眼睛:海康威视。
耳朵嘴巴:科大讯飞。
身体:宇树机器人。
………

27

智元的机器人技术也很厉害

1

打开APP查看17条评论

朝令夕改!“没人知道特朗普五天后的规定是啥样”

“人人都想制造业回流美国,但没多少人想自己下工厂”

“如果处理不当,还有比美国衰退更可怕的事情”

回过味了?“不该抗中,是时候‘去美国风险’”

美业界“喊疼”:请中方“收回成命”

朝令夕改!“没人知道特朗普五天后的规定是啥样”

“人人都想制造业回流美国,但没多少人想自己下工厂”