10万块H100！马斯克宣布启动全球最大AI集群-观察者网

7月23日，据国外媒体报道，马斯克在其社交媒体上宣布，旗下AI初创公司xAI已开始在位于田纳西州的所谓孟菲斯超级集群（training cluster）上进行训练，号称这是“全球最强大的AI训练集群”。

马斯克在X平台的宣布截图华尔街见闻

据马斯克介绍，这个集群由100,000个液冷H100 GPU组成，这些芯片是英伟达去年开始提供的。

马斯克还表示，该集群在单个RDMA结构（即远程直接数据存取结构）上运行。据思科介绍，这种结构可以在计算节点之间提供更高效、更低延迟的数据传输，而不会给中央处理器（CPU）带来负担。

马斯克今年5月曾透露这一计划，将英伟达H100串联到一台巨型的超级计算机中，并称其为“算力超级工厂”。

当时，马斯克匆匆忙忙地开始了Supercluster的工作，需要购买英伟达“Hopper”H100 GPU。这似乎表明，当时这位科技大亨没有耐心等待 H200 芯片推出，更不用说即将推出的基于 Blackwell 的 B100 和 B200 GPU。尽管预计较新的 Nvidia Blackwell 数据中心 GPU 将在 2024 年底之前发货。

马斯克新浪科技

xAI的目标是到2024年12月训练出“按每项指标衡量都是全球最强大的AI”。马斯克表示，孟菲斯超级集群将为实现这一目标提供“显著优势”。

不过，据外媒表示，不要对这一时间节点报太大期望，因为马斯克以公开提出并错过许多项目（如全自动驾驶汽车、无人驾驶出租车产品Robotaxi和将人类送往火星）的最后期限而闻名。

马斯克周一还表示，特斯拉将在明年小规模生产用于内部使用的Optimus机器人，并希望到2026年能大规模生产供其他公司使用。这比他之前承诺的时间表晚了。之前马斯克宣称到2024年底将在特斯拉工厂使用Optimus机器人，并在2025年交付给其他公司。

另外，Microsoft正在与OpenAI首席执行官Sam Altman（阿尔特曼）合作开发一个价值1000亿美元的AI训练超级计算机，代号为Stargate。如果这一项目取得成功，xAI的孟菲斯超级集群可能不会长期保持全球最强大的AI训练集群地位。

心智观察所研究员潘攻愚认为，马斯克一直标榜特斯拉是一家人工智能和机器人公司。特斯拉大型工厂三班倒一刻不停地进行数据搜集用于AI训练，马斯克需要近10万块H100用于特斯拉FSD自动驾驶服务，为下半年推出Robotaxi做准备。不过如此大量的采购有两个挑战，一个是能耗。目前H100全年总能耗已经超过了格鲁吉亚等小国全年所有的电量；一个是从训练到推理的跳跃，毕竟H100用于推理的性价比并不高，会造成很多算力的“通货膨胀”。

目前，英伟达的股价正在走出另一波调整，马斯克的最新言论为其注入一针强心剂。截至当地时间22日美股收盘，英伟达上涨4.76%，特斯拉则上涨5.15%。

心智观察所研究员吕栋指出，AI既是“暴力美学”，也是工程比拼，需要算力、算法、数据的深度融合与经验积累。

一方面，随着计算量不断攀升，单卡算力角色弱化，大模型训练亟需一个超级工厂，即“大且通用”的加速计算平台，以缩短训练时间，实现模型能力的快速迭代。随着大模型参数量从千亿迈向万亿，模型能力更加泛化，大模型对底层算力的诉求进一步升级，万卡甚至超万卡集群已成为竞赛入场券。

另一方面，建设万卡或超万卡集群并非一万张GPU卡的简单堆叠，而是一项高度复杂的系统工程。算力集群不是一个计算GPU，怎么把它组织成算力网络，相互之间通讯效率怎么提高，怎么实现MFU（算力利用率）达到60%的最优目标，这些都要靠网络通讯、计算、存储一起来解决。只有软硬件结合，把整个集群算力发挥到最高，才能实现1+1>2的效果。

另外值得注意的是，在比拼算力和算法之外，如何将人工智能基础设施化，赋能全行业，中国正在做人工智能赋能实体经济的道路探索。

中国工程院院士、中国科学院计算技术研究所所长孙凝晖认为，算力基础设施的中国方案需要具备“两低一高”，即在供给侧，大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本，让广大中小企业都消费得起高品质的算力服务，有积极性开发算力网应用；在消费侧，大幅度降低广大用户的算力使用门槛，面向大众的公共服务必须做到易获取、易使用，像水电一样即开即用，像编写网页一样轻松定制算力服务，开发算力网应用。在服务效率侧，中国的算力服务要实现低熵高通量，其中高通量是指在实现高并发度服务的同时，端到端服务的响应时间可满足率高；低熵是指在高并发负载中出现资源无序竞争的情况下，保障系统通量不急剧下降。保障“算得多”对中国尤其重要。

当前，中国也正在掀起建设万卡集群的热潮，像华为、中国移动、摩尔线程等厂商都在布局万卡集群。