​全国政协委员张云泉:国内智算集群效率普遍偏低,需突破“算力围城”

来源:观察者网

2025-03-04 18:00

“政协委员提案不是‘一锤子买卖’,不光要四处调研发现问题、写成提案指出问题,还要持续跟进解决问题。”全国政协委员、中国科学院计算技术研究所研究员张云泉用这句话道出了他连续几年聚焦算力基础设施建设而提交提案的初心。  

全国政协委员、中国科学院计算技术研究所研究员张云泉

作为算力领域的专家,张云泉今年再次围绕算力设施建设与智算产业发展,提案呼吁加快高端算力设施建设,提升算力使用效率,以应对人工智能大模型快速发展所带来的“算力围城”困局。“前两年,我的提案关注‘东数西算’宏观布局,今年则要聚焦‘超智融合’趋势下的发展难题。”张云泉表示道。

对于张云泉而言,一份好的提案不只是写出来的,还是跑出来的。在过去一年的时间里,张云泉走访了众多算力中心及相关企业,对于当下算力产业发展状况进行了敏锐洞察。“我们可以看到伴随DeepSeek等AI开源大模型涌现,大模型在各个行业的应用不断变多,这对算力基础设施建设提出新需求。而当前算力市场存在供需性矛盾:‘算力结构单一、高端算力紧缺’。而算力基础设施与国际领先水平存在代际差异,制约了大模型迭代创新速度。”

谈及算力建设短板问题,张云泉直言:“我认为这种供需失衡,首先反映在规模上。”他介绍,目前国内公开的主要智算中心单体规模仅在100-1000Pflops之间。高端智算中心要求具备万卡级分布式训练能力,性能需达到10Eflops@BF16以上,且机架功率密度达到40-100kW。

此外,智算中心算力结构单一,基础工具链不完善,通用性不强,利用率不高则进一步加剧了供需矛盾。“部分智算中心往往只考虑低精度训练算力需求,未结合行业场景考虑混合精度融合算力需求,导致通用性不强;而国产高性能可扩展并行训推编程框架和优化工具链的缺失,则导致国产大规模智算集群计算效率普遍偏低,可扩展性不高。”张云泉说。

张云泉还提及另一个产业痛点“大模型与产业应用脱节”。“国内大模型百花齐放是好事。不过在此过程中,有些大模型研制单位只注重训练效果、参数规模,而忽视模型落地到产业应用时的效率和不同场景应用效果,难以为实体产业发展服务。”

对于算力设施建设与智算产业发展的诸多痛点,张云泉在新提案中呼吁,一方面从算力供给侧,引导高端算力发展走上“超智融合”技术路线,建设大算力、全精度、高互联的高端智算中心,并发展先进存力,促进产业界均衡配置算力与存力资源;另一方面从算力应用侧,重点支持头部基础大模型企业,打造世界领先开源开放主权级基础通用大模型,鼓励开放更多应用场景。

张云泉介绍,超智融合技术也是近年来全球计算领域热点话题,其核心思想是将超算与智算的能力相结合,以满足在人工智能高速发展背景下的各行业多元算力需求。而如国家超算互联网等算力平台,正成为国内“超智融合”技术演变的重要依托。

对于如何走好“超智融合”,张云泉提出多项具体建议:

一、出台高端智算中心建设管理办法,建立智算中心分级准入标准,支持市场主体建设高端智算中心,新建智算中心必须通过大模型训练或推理能力评测,不符合要求的不予批准建设。

二、集中资源,重点支持大模型领军企业。加强统筹布局,坚定不移培育“领跑者”,打造世界领先的开源开放主权级基础通用大模型。

三、建设国家级大算力集群,引入先进算力调度、分配、优化和管理技术,提高利用率。积极引导基于全精度、大算力、高互连国产芯片,构建新一代超智融合国家级算力中心。

四、设立“智算工具链产业基础再造”和“超智融合”专项研发基金,通过产学研协同创新,打造开放共享的智算工具链和超智融合生态。

作为全国政协十四届的委员,张云泉已连续多年建言算力设施建设,2023张云泉提出合理规划算力网建设相关提案,建议建设国家级算力调度和交易平台,该提案得到了相关部门的正式答复和办理。

为何对算力设施建设如此执着?他笑道:“提案就像种树,不能只播种不养护。既然成为了政协委员,就得为数字中国栽种好算力这棵‘大树’!”

本文系观察者网独家稿件,未经授权,不得转载。

阅读 43005
责任编辑:陈济深
观察者APP,更好阅读体验

评论17条

落雕都督

03-04 18:17

来自吉林省

不是工业企业不注重“大模型落地”,而是工业企业有自己的更高效的AI发展路线,用不着商业大模型这个“笨笨”。
需要指出的是,尽管大学/研究所在计算机和电子信息方面有很强的实力,但他们聚焦的研究方向是商业AI ,而非工业AI,所以目前工业企业更愿意自建AI团队(大型企业),或是与自动化企业(拥有较好的数据源和对工业机理的理解)合作升级智能系统,来推进工业企业的AI战略。

工业AI与商业AI最大的区别在于:工业AI需要将IT(信息技术)与OT(运营技术)有效结合才能管用。换句话说,再优秀的商业大模型也只是IT,离开了OT支持,是无法与工业企业生产相结合的。

大学/研究所取得IT的经验比较容易,在实验室就可以验证成果;而想要取得OT的经验就得去找有重资产的工业企业合作。如果大学/研究所缺乏与工业企业合作的渠道,那么在OT方面的经验就可能接近于零,这样的大学/研究所想要搞工业AI就是天方夜谭了,只能去搞轻资产的商业AI。

工业AI投入生产立刻就能见效,就能创造财富,就有资源不断自我完善迭代升级;而商业AI到目前为止,依旧是个烧钱怪。。。
————
举个例子:
工业AI助力石化橡胶厂压缩机组“黑匣子”控制系统改造

国内某橡胶厂一丁苯橡胶装置氨气制冷压缩机组为某进口品牌大型双螺杆制冷冰机。该机组采用容量调节滑阀和内容积比调节滑阀组合式的连续无级控制方式,原控制方式采用橇装单片机系统,其控制程序具有保密性、画面简单、功能不透明、问题诊断困难等问题,特别是大型双螺杆压缩机特有的内压缩过程内容积比控制技术,更是成为制约控制系统升级改造的一大瓶颈,国内同型号机组的多次改造尝试均未成功。 
面对这一挑战,中控技术团队针对客户的改造需求,利用工业 AI 建模工具成功解锁了螺杆压缩机内容积比滑块控制的“黑匣子”难题,实现了容量与内容积比双连续无级可调的大型复杂双螺杆压缩机控制技术的突破,彻底解决了大型复杂螺杆压缩机就地控制盘的“黑匣子”与信息孤岛问题。 
在此次改造中, 中控用 T9100 压缩机控制系统替换了原厂家配套的单片机就地控制柜, 满足了客户对于工厂关键机组运行安全性稳定性的要求。 改造后,系统控制策略清晰、算法透明,有助于客户理解和掌握螺杆压缩机的能量滑阀及内容积比滑块控制功能、调节原理。系统画面美观、功能全面,数据记录与历史趋势完备,提升了客户使用体验,并为机组运行异常原因分析提供了可靠手段。同时,专业控制算法与软件包还实现了螺杆压缩机组的全自动启停控制与高度自动化运行,实现了完全可视化、透明化的机组数字化改造。

以上,摘自《2024中国工业AI发展洞察与展望白皮书》
不仅能破解密码,连你的控制律都破解了!
其实这个案例不是破解别人的“黑匣子”,不是研究人家写入了哪些代码,而是在AI辅助下搞清楚了进口机组的控制律,并重新设计了控制系统,用我们自己的高级的“开源”的可升级的控制系统把外国的落后的不能升级的“黑匣子”单片机控制柜替代了。
请问“大模型”能做这个“创造性”工作么?目前只能是代替人做些文案和规程内按部就班的工作吧?

37

沉住气

03-05 15:01

来自北京市

不懂就问。10Eflops 与 1000Pflops 差距很大吗 ?

挣钱嘛不寒碜

03-05 12:38

来自四川省

第二点不赞同,中小企业、初创企业也需要支持,不能让几家大企业搞垄断

端茶倒水呵呵

03-05 00:34

来自吉林省

算力少有少的用法,他提到的“基础工具链不完善,通用性不强”我觉得才是关键,尤其是各地算力中心其实都是商业云的阉割版本,到处都是坑,文档也不全,你按照他自己官方网站的指引文档根本就进行不下去,都得自己想办法,门槛着实有点高。

1

渐行渐远

03-04 23:08

来自福建省

是不是芯片的原因??

winsam

03-04 23:01

来自山东省

落雕都督

03-04 18:17

来自吉林省

不是工业企业不注重“大模型落地”,而是工业企业有自己的更高效的AI发展路线,用不着商业大模型这个“笨笨”。
需要指出的是,尽管大学/研究所在计算机和电子信息方面有很强的实力,但他们聚焦的研究方向是商业AI ,而非工业AI,所以目前工业企业更愿意自建AI团队(大型企业),或是与自动化企业(拥有较好的数据源和对工业机理的理解)合作升级智能系统,来推进工业企业的AI战略。

工业AI与商业AI最大的区别在于:工业AI需要将IT(信息技术)与OT(运营技术)有效结合才能管用。换句话说,再优秀的商业大模型也只是IT,离开了OT支持,是无法与工业企业生产相结合的。

大学/研究所取得IT的经验比较容易,在实验室就可以验证成果;而想要取得OT的经验就得去找有重资产的工业企业合作。如果大学/研究所缺乏与工业企业合作的渠道,那么在OT方面的经验就可能接近于零,这样的大学/研究所想要搞工业AI就是天方夜谭了,只能去搞轻资产的商业AI。

工业AI投入生产立刻就能见效,就能创造财富,就有资源不断自我完善迭代升级;而商业AI到目前为止,依旧是个烧钱怪。。。
————
举个例子:
工业AI助力石化橡胶厂压缩机组“黑匣子”控制系统改造

国内某橡胶厂一丁苯橡胶装置氨气制冷压缩机组为某进口品牌大型双螺杆制冷冰机。该机组采用容量调节滑阀和内容积比调节滑阀组合式的连续无级控制方式,原控制方式采用橇装单片机系统,其控制程序具有保密性、画面简单、功能不透明、问题诊断困难等问题,特别是大型双螺杆压缩机特有的内压缩过程内容积比控制技术,更是成为制约控制系统升级改造的一大瓶颈,国内同型号机组的多次改造尝试均未成功。 
面对这一挑战,中控技术团队针对客户的改造需求,利用工业 AI 建模工具成功解锁了螺杆压缩机内容积比滑块控制的“黑匣子”难题,实现了容量与内容积比双连续无级可调的大型复杂双螺杆压缩机控制技术的突破,彻底解决了大型复杂螺杆压缩机就地控制盘的“黑匣子”与信息孤岛问题。 
在此次改造中, 中控用 T9100 压缩机控制系统替换了原厂家配套的单片机就地控制柜, 满足了客户对于工厂关键机组运行安全性稳定性的要求。 改造后,系统控制策略清晰、算法透明,有助于客户理解和掌握螺杆压缩机的能量滑阀及内容积比滑块控制功能、调节原理。系统画面美观、功能全面,数据记录与历史趋势完备,提升了客户使用体验,并为机组运行异常原因分析提供了可靠手段。同时,专业控制算法与软件包还实现了螺杆压缩机组的全自动启停控制与高度自动化运行,实现了完全可视化、透明化的机组数字化改造。

以上,摘自《2024中国工业AI发展洞察与展望白皮书》
不仅能破解密码,连你的控制律都破解了!
其实这个案例不是破解别人的“黑匣子”,不是研究人家写入了哪些代码,而是在AI辅助下搞清楚了进口机组的控制律,并重新设计了控制系统,用我们自己的高级的“开源”的可升级的控制系统把外国的落后的不能升级的“黑匣子”单片机控制柜替代了。
请问“大模型”能做这个“创造性”工作么?目前只能是代替人做些文案和规程内按部就班的工作吧?

37

目前的AI,只能辅助,不能自觉。

1

打开APP查看17条评论

涉多个知名品牌!翻新卫生巾、纸尿裤竟被二次销售

国安部曝光4名“台独”网军分子

“特朗普想搞新世界秩序,但美元要先遭殃”

“因为普京不喜欢”,特朗普将自家俄乌特使降格

英首相:向乌派遣维和部队的计划进入“行动阶段”

涉多个知名品牌!翻新卫生巾、纸尿裤竟被二次销售

国安部曝光4名“台独”网军分子