黄仁勋:推理拐点已至,2027年AI芯片将带来万亿美元收入
来源:观察者网
2026-03-17 18:00
当地时间3月17日,NVIDIA GTC 2026在美国圣何塞开幕,黄仁勋用一场信息密度极高的主题演讲,试图回答一个核心问题:当AI从“能生成内容”走向“能完成任务”,计算体系究竟要发生怎样的变化。他给出的答案是,AI产业正在进入一个以算力为核心资源、以系统工程为主导逻辑的新阶段,从芯片到数据中心、从软件框架到能源供给,整个技术底座都需要被重新组织。
在他看来,生成式AI只是序章,更大的变革正在展开:一方面,具备自主规划与执行能力的“代理式AI”正在加速落地,开始承担越来越复杂的工作流程;另一方面,能够感知、理解并作用于现实世界的“物理AI”正在打开机器人与智能制造的新空间。这意味着,AI不再局限于屏幕中的问答与创作,而是逐步进入真实经济体系之中。围绕这一趋势,英伟达正推动软硬一体的全栈布局,试图把自己从一家芯片公司,转变为支撑AI时代运转的关键基础设施提供者。
以下为黄仁勋接近2个半小时演讲的文字稿整理,小标题为译者所加,仅供读者参考。
黄仁勋:
·“结构化数据”与“生成式人工智能”融合,将是构建“可信AI”的基础
欢迎来到GTC。我想先提醒大家一句——这是一场技术大会。今天一大早就有这么多人排队入场,现在现场也座无虚席,很高兴见到大家。
在GTC,我们要聊的是技术。我们会谈平台。英伟达有三个平台,很多人以为我们主要讲其中一个——跟CUDA-X数据科学库相关的。但其实,我们的系统本身就是一个平台。现在,我们又有了一个全新的平台——“AI工厂(AI Factories)”。今天,这些我们都会讲到。而最重要的则是生态系统(ecosystem)。
在正式开始之前,我想先感谢刚才预热环节的几位嘉宾。他们做得非常出色。Conviction风投的Sarah Guo,红杉资本的林君叡(Alfred Lin),他也是英伟达最早的风险投资人之一;加文·贝克(Gavin Baker)——我们最早的重要机构投资者之一。这三位对技术的理解都非常深入,对整个技术生态的把握也非常广阔。当然,还有我亲自邀请来到现场的各位嘉宾。先从团队开始,我要感谢你们所有人。我也想感谢在场的所有公司。大家都知道,英伟达是一家平台型公司。我们有技术、有平台,还有非常丰富的生态体系。
今天来到这里的,可以说涵盖了整个产业的核心力量——代表了这个价值100万亿美元行业中几乎100%的关键参与者。本次大会有450家公司赞助,设有1000场技术会议,2000位演讲嘉宾。在此深表感谢。
这场大会将覆盖人工智能的“五层结构”——从土地、电力与机房等基础设施,到芯片、平台、模型,当然还有最重要的、真正推动整个产业起飞的各类应用。一切其实都始于这里。今年是CUDA诞生20周年。我们已经做CUDA整整20年了。这20年来,我们一直专注于这一架构——一个具有革命性的发明:SIMT(单指令多线程)。它的意义在于,你用类似标量(scalar)的方式写代码,就可以自然地扩展成多线程程序,其编程难度远低于此前的SIMD架构。
最近,我们还引入了“tiles”(分块)等新机制,帮助开发者更好地编程张量核心(Tensor Core),以及那些如今在人工智能中至关重要的运算结构。围绕CUDA,我们构建了数以千计的工具、编译器、框架和开源库。现在开源社区中已经有几十万个公开项目。可以说,CUDA已经深度集成到每一个技术生态系统之中。
黄仁勋展示的英伟达整体战略,装机基础——开发者——突破——生态系统的循环 视频截图
这张图,基本上概括了英伟达的整体战略——从一开始到现在,我一直在反复讲述这一逻辑。而在这一体系中,最难建立、也是最关键的一环,是最底层的“装机基础”(installed base)。我们用了整整20年的时间,在全球范围内部署了数以亿计的GPU和计算系统,使CUDA得以运行其上。如今,我们已经进入所有主流云平台、覆盖几乎所有计算机厂商,并服务于各行各业。
正是这一庞大的装机基础,驱动着整个体系的“飞轮效应”不断加速。装机基础吸引开发者,开发者推动新算法的产生,并不断带来技术突破——以深度学习为代表,这样的突破层出不穷。这些突破进一步催生全新的市场,吸引更多企业参与,形成更广泛的产业生态,从而反过来扩大装机基础。
这一飞轮已经进入加速阶段。英伟达软件库的下载量正以极高速度增长,规模空前,且仍在持续扩大。正是这一机制,使得这一计算平台能够持续承载大量应用与创新。
与此同时,这一生态也带来了一个关键结果——基础设施的使用寿命显著延长。原因在于,CUDA平台所支持的应用范围极其广泛。我们覆盖人工智能生命周期的每一个阶段,同时支持各类数据处理平台,并加速多种基于科学原理的计算方法。
正因如此,一旦部署英伟达GPU,其可持续利用价值就会非常高。这也是为什么,例如六年前推出的Ampere架构,在今天的云计算市场中,其价格反而呈现上升趋势。这一现象的根本原因在于装机基础的规模、飞轮的加速以及开发者生态的广度。当这些因素叠加,并伴随着软件的持续迭代优化,计算成本便会不断下降。
加速计算的价值不仅体现在初始性能提升,更体现在其“随时间递减的成本结构”。在系统部署之初,应用即可获得显著加速;而在整个生命周期内,随着软件持续优化,计算成本还会进一步下降。我们之所以能够持续投入并支持全球范围内的GPU,是因为这些系统在架构上保持兼容。每一次优化,都可以被大规模复用,直接惠及数以百万计的用户。
正是这种机制,使得英伟达的计算架构在不断扩大应用边界的同时,实现性能提升与成本下降的同步推进,并最终形成对新需求和新增长的持续激励。CUDA无疑处于这一体系的核心,但英伟达的技术旅程,其实早在25年前就已经开启。
这一切,要从GeForce说起。我知道你们当中有多少人和GeForce一起长大。可以说,这是英伟达历史上最成功的一次“市场教育”。我们从很早开始,就在培养未来的用户——在他们尚未具备付费能力之前。最初,是他们的父母为GeForce买单;而随着时间推移,这些用户逐渐成长为开发者、工程师,最终成为真正的客户与生态建设者。
某种意义上,这是GeForce所奠定的基础——也是整个体系得以建立的起点。
25年前,我们由此出发;20年前,CUDA诞生。再往前追溯,最关键的一步,是可编程着色器(programmable shader)的发明。这是一项在当时并不显而易见的创新——它首次让图形加速器具备可编程能力,诞生了世界上第一个可编程加速器:像素着色器(Pixel Shader)。
这一突破,引导我们不断深入探索计算与图形的边界。五年之后,我们推出CUDA。这是公司历史上投入最为巨大的项目之一——在当时,这一投入甚至超出了公司的承受能力,占据了绝大部分利润。但我们依然坚持推进。依托GeForce的普及能力,我们将CUDA带入每一台计算机。之所以做出这一选择,是因为我们对其潜力有着极为坚定的判断。
尽管早期困难重重,但我们持续投入、持续迭代,经历了13代架构、跨越20年时间。直到今天,CUDA已经成为无处不在的基础平台。在这一过程中,像素着色器推动了GeForce的崛起;而GeForce则将CUDA带向了全球。同时,也正是在这一平台上,研究者开始意识到GPU在深度学习中的潜力。以Alex Krizhevsky、Ilya Sutskever、Geoffrey Hinton以及Andrew Ng为代表的一批科学家,发现GPU能够极大加速神经网络训练——这直接引发了人工智能领域的“爆发式增长”。
大约在十年前,英伟达进一步做出关键判断:将人工智能与计算机图形深度融合。为此,我们引入了两项重要技术方向——一是硬件级光线追踪(ray tracing),这是一个技术难度极高的系统性工程;二是一个在当时颇具前瞻性的判断:人工智能将彻底改变计算机图形的生成方式。
如果说GeForce曾将人工智能带入主流计算平台,那么今天,人工智能正在反过来重塑整个图形学体系。基于这一判断,我们正在迈向下一代图形技术。这项技术,我们称之为“神经渲染扩散”(neural rendering diffusion),本质上是将传统3D图形与生成式人工智能进行深度融合。这一代技术的代表,即DLSS 5。其核心思想在于将两种截然不同的计算范式加以统一:一方面,是具备严格结构与可控性的3D图形系统,它提供虚拟世界的“真实结构数据”;另一方面,是基于概率模型的生成式人工智能,它能够生成高度逼真的内容。
前者强调确定性与可控性,后者强调表达能力与真实感。通过将“结构化数据的精确控制”与“生成式模型的表达能力”相结合,我们实现了一种新的内容生产方式——既可控,又高度真实。最终呈现的结果,是计算机生成内容在视觉表现与控制能力上的同步跃迁。
“结构化数据”与“生成式人工智能”的融合,将在一个又一个行业中不断重演。可以说,结构化数据是构建“可信AI”的基础。
接下来这张图,信息量会比较大——我接下来很长一段时间都会围绕这张示意图展开。这也是我最常用、也是团队反复劝我“不要再讲”的一页。但我仍然坚持使用它,因为理解这一点,是理解整个体系的关键。
首先,是结构化数据。大家都非常熟悉这一领域——SQL、Spark、Pandas、Velox,以及一系列重要的大型数据平台,例如Snowflake、Databricks、Amazon EMR、Microsoft Azure Fabric、Google BigQuery等。这些平台的核心工作对象是“数据框”(data frame)。可以将其理解为大规模的结构化表格,它们承载着企业运行的核心信息,是商业世界的“真实基础”,也是企业计算体系的“事实来源”。
过去,我们对结构化数据进行加速,是为了更快、更低成本、更高频率地完成数据处理,从而让企业运转更加高效、更加协同。但在未来,这些数据将直接成为人工智能的输入基础。AI系统以及未来的智能体(agent),都将大规模调用这些结构化数据库。而AI的运行速度远超人类,这就意味着,我们必须对这一体系进行更大幅度的加速。
与此同时,另一类数据——非结构化数据——规模更加庞大。向量数据库、非结构化文本、PDF文档、视频、语音……这些数据构成了世界信息的绝大多数。每年新增的数据中,大约90%都属于这一类别。然而,在过去,这些数据几乎无法被有效利用。我们只是将其存储下来,却难以进行查询、检索或系统化分析。其根本原因在于,非结构化数据缺乏清晰的索引方式——要使用它,必须先理解其语义与上下文。
而这,正是人工智能可以发挥作用的地方。
正如AI已经在多模态感知与理解方面取得突破,我们可以用同样的能力去“读取”一份PDF、理解其内容,并将这种语义信息嵌入到可检索的结构之中,从而实现查询与调用。围绕这一需求,英伟达构建了两大基础软件库:一是面向结构化数据的数据框加速库(QDF),二是面向语义与向量数据的库(cuVS),分别对应结构化数据与非结构化数据、语义数据与AI数据的处理需求。
这两大平台,将成为未来最重要的基础设施之一。我们非常期待它们在全球复杂的数据处理体系中被广泛采用。之所以如此,是因为数据处理这一领域历史悠久,生态极其复杂,涉及大量公司、平台与服务。英伟达也花费了相当长时间,才逐步实现对这一生态的深度整合。
在这一过程中,我们已经与多家合作伙伴展开落地实践。例如,IBM——SQL语言的发明者之一、企业计算领域最重要的技术推动者之一,正在基于英伟达GPU与QDF,加速其Watsonx.data平台的SQL引擎。
回顾历史:60年前,IBM推出System/360,开启了现代通用计算时代;随后,SQL作为声明式查询语言,使人们无需逐步编程即可访问数据;再到数据仓库体系的建立,这些都构成了现代企业计算的基础。而今天,IBM与英伟达正在共同推动数据处理体系进入AI时代。
在这一体系中,数据是AI的“真实基础”,为其提供语境与意义;而AI则需要以极高速度访问海量数据。但传统以CPU为核心的数据处理体系,已经难以满足这一需求。以雀巢为例,其供应链每天需要做出成千上万次决策。其数据平台汇集了来自全球185个国家的订单与交付信息。在传统CPU架构下,这一系统每天只能更新数次。而在基于英伟达GPU加速的Watsonx.data平台上,同样的工作负载可以实现5倍加速,同时成本降低83%。这标志着,新一代计算平台已经到来——面向AI时代的加速计算平台。除了云端,我们同样在本地数据处理(on-premise)领域进行加速。
例如,戴尔作为全球领先的计算与存储厂商,与英伟达合作构建了Dell AI Data Platform,将QDF与cuVS整合其中,为AI时代提供统一的数据平台。在与NTT Data的合作案例中,这一体系同样实现了显著性能提升。
在云计算领域,我们与Google Cloud保持长期合作。我们不仅加速其Vertex AI平台,也加速BigQuery这一关键数据分析平台。在与Snapchat的合作中,通过加速计算,其整体计算成本降低了接近80%。加速数据处理,带来的不仅是速度与规模的提升,更重要的是成本的下降。
在传统意义上,摩尔定律意味着性能每隔数年翻倍——在价格基本不变的前提下,相当于计算成本逐年下降。但如今,摩尔定律正在逐渐逼近极限,我们需要新的路径。
加速计算,正是这一新的路径。它能够带来“跨越式”的性能提升。更重要的是,随着算法的持续优化——英伟达本质上也是一家算法驱动的公司——以及依托庞大的装机基础,我们可以不断降低计算成本,同时提升规模与性能,并将这一红利持续传递给整个生态。
英伟达构建的是一个完整的加速计算平台,其上运行着大量软件库——例如RTX(图形)、QDF(结构化数据)、cuVS(语义与向量数据)等。这些库构成平台能力的核心。在此基础上,我们进一步与全球云服务提供商、OEM厂商以及其他平台深度整合,从而将这些能力扩展至全球。这种合作模式,会不断重复出现。例如,在与Google Cloud的合作中,我们加速Vertex AI、BigQuery,并在JAX/XLA、PyTorch等框架上实现深度优化。目前,英伟达是少数能够同时在PyTorch与JAX/XLA上实现高性能加速的计算平台。
围绕这些基础能力,众多开发者与企业构建应用——例如BaseTen、CrowdStrike、Puma、Salesforce等。它们未必是英伟达的直接客户,但都在使用英伟达技术构建应用,并最终部署在云平台之上。从本质上讲,英伟达与云服务商的关系,是“将客户带入云端”:我们通过软件库与系统优化,加速工作负载,再将这些应用部署到云上,从而为云厂商带来持续增长。
因此,大多数云服务商都非常乐于与我们合作,并不断希望我们将更多客户引入其平台。事实上,这样的客户还有很多。我们的目标,是加速整个产业,让更多应用落地到云端。在AWS方面,我们同样有长期合作。当前一个重要进展是,我们正在将OpenAI引入AWS,这将显著提升其云计算需求规模,并推动其计算资源的进一步扩展。与此同时,我们加速AWS的EMR、SageMaker与Bedrock等关键平台,已实现深度整合。
在Microsoft Azure方面,英伟达最早部署的一台A100超级计算机,就落地于Azure。这也促成了后来与OpenAI的重要合作。我们与Azure长期合作,加速其云平台、AI Foundry以及Bing搜索等关键系统,并共同推进全球算力基础设施建设。
在这一过程中,一个至关重要的能力,是“机密计算”(confidential computing)。这一能力确保,即使是系统运营方也无法访问用户数据或模型。英伟达GPU是最早支持这一能力的计算平台之一,使得包括OpenAI与Anthropic在内的重要模型,可以在全球范围内实现安全部署。这一能力,对于AI在全球范围内的扩展至关重要。
此外,我们还与众多企业展开合作。例如Synopsys,我们正在加速其EDA与计算工作流,并将其部署在Azure上。在Oracle方面,我们不仅是其合作伙伴,还是其首个AI客户之一。随后,我们将大量合作伙伴引入其平台。在新兴AI云领域,例如CoreWeave——这是全球首个“原生AI云”,专门为GPU与AI计算构建,发展迅速,客户增长显著。
在企业级平台方面,我们与Palantir和Dell合作,构建了新一代AI平台(包括Ontology系统),可以在任意国家、任意隔离环境中本地部署,实现真正的“全场景AI”。这些能力之所以成为可能,依赖于我们在机密计算、端到端系统构建以及从数据处理到AI模型的全栈能力。这正是英伟达与全球云服务商之间合作关系的本质。
最后,我想总结一点——这也是接下来你们会反复看到的主题:英伟达是一家“纵向整合、横向开放”的公司。之所以必须如此,原因很简单——加速计算,从来不仅仅是芯片问题,也不仅仅是系统问题。
·AI推理拐点已经到来,2027年将达一万亿美元需求
在“加速计算”这个概念中,还有一个更关键、但往往被忽略的要素。
我们不再仅仅泛泛地谈论“应用加速”了。如果我只是让计算机跑得更快,那叫CPU,但CPU的动力已经耗尽。未来,我们要想继续加速应用,实现巨大的速度提升和成本降低,唯一的途径就是应用特定或领域特定的加速。我在开场就提到了这个概念,因此,我们将其定义为“应用加速计算”(Application Accelerated Computing)。
这正是英伟达必须一个库接一个库、一个领域接一个领域、一个垂直行业接一个垂直行业去深耕的原因。我们是一家垂直整合的计算公司,别无他法。我们必须理解应用,理解领域,从根本上理解算法,并弄清楚如何将这些算法部署到任何它们所需的场景中——无论是数据中心、云端、本地部署,还是边缘端的机器人系统。这些计算系统各不相同。最终,在系统和芯片层面,我们实现了垂直整合。
这种模式之所以拥有惊人的力量,正是你们在刚才那些幻灯片中看到的原因:英伟达在水平方向上是开放的。我们将这项通用的技术整合到你们想要的任何平台中。我们提供软件,提供库,我们与你们的技术集成,从而将加速计算带给全世界的每一个人。本届GTC大会就是这一理念的绝佳展示。
通常,我会谈论这些垂直行业并举例说明。比如在汽车领域,顺便提一句,在金融服务领域——本届GTC参会者中占比最大的就是金融服务行业。我希望在座的是开发者,而不是交易员。(笑声)我想说的是,在座的各位代表了英伟达生态系统中供应链的上游和下游。我们时刻关注着供应链的上下游。
令人兴奋的是,去年我们整个上游供应链都取得了创纪录的成绩,无论你们是一家50年的老店,还是70年、甚至150年的百年企业,现在都成为了英伟达供应链的一部分,与我们在上游或下游紧密合作。去年是你们创纪录的一年,对吧?恭喜大家。我们正在成就一番大事业,这仅仅是个开始。
看看加速计算,我们已经确立了计算平台。但为了激活这些平台,我们需要领域特定的库,来解决我们所涉足的每个垂直行业中的关键问题。大家可以看到我们正在涉足每一个领域:
·自动驾驶汽车:我们的覆盖面、广度和影响力令人难以置信,我们为此设有专门的轨道。
·金融服务:我刚才提到,算法交易正从基于人类特征工程的经典机器学习(即量化分析),转向超级计算机自主研究海量数据、发现洞察和模式。它正在经历深度学习和Transformer的时刻。
·医疗健康:这个行业正在经历它们的“ChatGPT时刻”,这里有许多激动人心的工作。我们有一个精彩的医疗主题演讲环节,Kimberly Powell带来了精彩的分享。我们在谈论用于药物发现的AI物理或AI生物学,用于客户服务和诊断支持的AI代理,当然还有实体AI(Physical AI)和机器人系统。
·工业:我们正在彻底重塑并启动人类历史上最大规模的建设浪潮。全球大多数行业都在这里,建设AI工厂、芯片厂、计算机工厂。
·媒体与娱乐及游戏:当然,还有实时AI平台,用于翻译、广播支持、直播游戏和直播视频。其中绝大部分内容都将由AI增强。
·量子计算:我们有一个名为"HoloScan Quantum"的平台。这里有35家公司正与我们共同构建下一代量子-GPU混合系统。
·零售与消费品(CPG):利用英伟达优化供应链,创建生成式购物系统,以及用于客户支持的AI代理。这里有很多工作正在进行,这是一个价值35万亿美元的产业。
·机器人与制造:这是一个50万亿美元的产业。英伟达在此领域已耕耘十年,构建了打造机器人系统所需的三台基础计算机。我们与已知的所有机器人建造公司都进行了集成与合作。本次展会现场就有110台机器人。
·电信:其规模与全球IT产业相当,约为2万亿美元。我们看到基站无处不在,它是上一代计算的基础设施。而这个基础设施将被彻底重构。原因很简单:那个只做基站功能的设备,未来将成为一个AI基础设施平台。AI将在边缘运行。我们在那里的平台叫做"Aerial"或"AI RAN"。我们与诺基亚、T-Mobile等许多公司建立了重大的合作伙伴关系。
在我们业务的核心,除了我刚才提到的计算平台外,非常重要的是CUDA-X库。CUDA-X库是英伟达发明的算法。我们是一家算法公司,这就是我们的独特之处。正因为如此,我才能进入每一个行业,构想未来,并让世界上最优秀的计算机科学家来描述和解决问题,对其进行重构、重新表达,并将其转化为库。
我们有非常多的库。我想在本次大会上,我们将宣布约100个库,或者70个库,也许还有40个模型。这还只是本次大会发布的数量。我们一直在更新它们,持续不断地更新。这些库是我们公司的皇冠明珠。正是它们使得计算平台能够被激活,服务于解决问题,产生实际影响。
我们创建的最重要、最伟大的库之一就是cuDNN(CUDA深度神经网络库)。它彻底革命了人工智能,引发了现代AI的“大爆炸”。让我给大家播放一段关于CUDA-X的短视频。
(略)
你们看到的一切都是模拟出来的。有些是原理求解器、基础物理求解器,有些是AI代理模型、AI物理模型,还有些是实体AI机器人模型。一切都是模拟的,没有一个是动画,没有一个是预先编排的动作, everything was completely simulated(一切完全是模拟生成的)。
这从根本上定义了英伟达做什么。正是通过对算法的理解与我们计算平台的连接,我们才得以开启并解锁这些机遇。英伟达是一家垂直整合的计算公司,同时与世界进行水平整合。这就是CUDA-X。
刚才你们看到了很多公司,有沃尔玛、欧莱雅,还有摩根大通、罗氏等定义当今社会的杰出老牌企业,丰田也在这里。这些都是世界上最大的公司。但同样真实的是,还有一大批你们从未听说过的公司。我们称它们为“AI原生企业”(AI Natives),这是一大批小型公司,名单长得惊人。我无法决定是展示更多还是更少,所以我干脆让你们谁都看不见,这样也不会伤任何人的感情。(笑声)
然而,在这个名单中,有许多全新的公司。比如你们可能听说过OpenAI、Anthropic,但还有很多其他公司,它们服务于不同的垂直领域。过去两年,特别是去年,发生了一些变化。我们与AI原生企业合作已久,但去年这一领域呈爆发式增长。我来解释一下原因。
这个行业的投资规模达到了1500亿美元,流入初创企业的风险投资额创下人类历史之最。这也是历史上第一次,投资规模从数百万、数千万美元,跃升至数亿甚至数十亿美元。原因在于,这是历史上第一次,每一家这样的公司都需要算力,大量的算力;它们需要Token,海量的Token。它们要么创造和生成Token,要么对由Anthropic、OpenAI等公司创建的现有Token进行整合并增加价值。
3月10日,黄仁勋在博客撰文列出人工智能产业的五层架构,由上至下分别是:应用、模型、基础设施、芯片,以及能源。
因此,这个行业在许多方面都与众不同。但有一点非常明确:它们产生的影响、它们已经交付的巨大价值是切实可见的。这些都是AI原生企业。
正如PC革命期间诞生了一大批新公司,互联网革命期间诞生了一大批新公司,移动云时代也诞生了一大批新公司一样,我们也重塑了计算。理所当然地,将会涌现出一批全新的、对未来世界至关重要的公司。就像Google、Amazon、Meta作为上一代计算平台转移的产物成为举足轻重的公司一样,我们现在正处于新一代平台转移的开端。
那么,过去几年发生了什么?众所周知,我们一直在关注并致力于深度学习和AI,见证了现代AI的“大爆炸”。我们身处其中,并推动这一领域向前发展了很久。但为什么是过去两年?过去两年发生了什么?主要有三件事:
.ChatGPT:当然,它开启了生成式AI时代。它不仅能感知和理解,还能翻译和生成独特的内容。我曾向你们展示过生成式AI与计算机图形学的融合,这让计算机图形学焕发了生机。伙计们,全世界每个人都应该使用ChatGPT。我知道我每天早上都用,今天早上在飞机上还在用。ChatGPT代表了生成式AI时代的到来。顺便说一句,这是“生成式计算”与我们过去计算方式的区别。生成式AI不仅仅是软件的一种能力,它深刻地改变了计算的方式。过去的计算是基于检索的,现在是生成式的。请记住这一点,当我谈到某些事情时,你就会明白为什么我们要改变计算机的架构、供应方式和构建方式,以及“计算”本身的含义。
.推理型AI(Reasoning AI):2023年底到2024年初,随着o1模型的推出,AI学会了反思、自我思考、规划,并将它无法理解的大问题分解为它能理解的步骤或部分。它能够基于研究来确立事实依据。o1让生成式AI变得可信且基于真理。这导致ChatGPT的使用量激增,那是一个非常重要的时刻。虽然o1模型本身并没有大太多,但它为了上下文所需的输入Token和为了思考所需的输出Token大幅增加,从而极大地提升了计算量。
.Agent模型(如Claude Code):这是第一个代理模型。它能够读取文件、编写代码、编译、测试、评估,然后回溯迭代。Claude Code彻底革命了软件工程。众所周知,英伟达100%的软件工程师都在使用Claude Code、Codex和Cursor的组合,或者经常三者并用。在英伟达,没有哪一个软件工程师不是在一个或多个AI代理的辅助下编写代码。Claude Code带来了新的拐点。第一次,你不再问AI“什么、哪里、何时、如何”,而是命令它“创造、去做、去构建”。你让它使用工具,读取你的上下文和文件,它能够以代理的方式分解问题、进行推理、反思,解决问题并实际执行任务。
AI从能够感知,进化到能够生成,再到能够推理,现在终于进化到能够实际工作,完成富有成效的任务。
过去两年的计算量,在座的各位都知道,对英伟达GPU的需求已经爆表。现货价格飙升,你想买都买不到。与此同时,我们正在出货海量的GPU,而需求仍在不断攀升。原因就在于这个根本性的拐点:AI终于能够做富有成效的工作了。因此,推理的拐点(Inference Inflection)已经到来。
AI现在为了思考必须推理(inference);为了行动必须推理;为了阅读必须推理。AI的每一个部分——每一次思考、每一次推理、每一次行动、每一次生成Token——都需要推理。它早已超越了训练阶段,进入了推理的领域。
当Token数量和所需算力增加了约10,000倍时,推理的拐点也随之到来。如果我将这两个因素结合起来:过去两年,工作的计算需求增长了10,000倍,而使用量可能增长了100倍。你们可能听我说过,我相信过去两年计算需求增长了100万倍。这是我们所有人的感受,是每家初创企业的感受,是OpenAI的感受,也是Anthropic的感受。如果他们能获得更多的算力,就能生成更多的Token,收入就会增加,更多人就能使用它,AI也会变得更先进、更聪明。
我们现在处于一个积极的飞轮系统中。我们迎来了那个时刻,推理的拐点已经到来。
去年的这个时候我说,站在当时的时间点,我看到了通过2026年对Blackwell和Rubin架构高达5000亿美元的高置信度需求和采购订单。我去年就这么说过。现在我不知道大家是否感同身受,但5000亿美元是一笔巨款。没人感到惊讶?我知道你们为什么不惊讶,因为你们大家都度过了创纪录的一年。
但我今天要告诉你们,就在GTC DC结束几个月后,距离去年GTC一年后的今天,站在这里,我看到直到2027年,至少有1万亿美元的市场。这合理吗?接下来的时间我将专门讨论这个问题。事实上,时间可能还不够。我确信计算需求将远高于此,原因如下:
首先,去年我们做了大量工作。如你们所知,2025年是“推理之年”。我们要确保不仅在训练和后训练方面表现出色,而且在AI的每一个阶段都极其出色。这样,投入到我们基础设施中的投资就能尽可能长久地扩展使用。英伟达基础设施的使用寿命将很长,因此成本将极低。使用时间越长,成本越低。毫无疑问,英伟达的系统是世界上成本最低的AI基础设施。
去年的一切都围绕着“AI用于推理”,这推动了这个拐点的到来。同时,我们非常高兴地看到Anthropic选择了英伟达,MSL、Meta SL也选择了英伟达。作为一个整体,这代表了全球三分之一的AI算力。开源模型已经达到了接近前沿的水平,并且无处不在。
如你们今日所知,英伟达是世界上唯一一个能运行AI所有领域的平台。无论是语言、生物学、计算机图形学、计算机视觉、语音、蛋白质、化学物质、机器人还是其他领域,无论是边缘还是云端,任何语言,英伟达的架构都能通用,并且表现卓越。这使我们成为成本最低、置信度最高的平台。
当你在构建这些系统时——正如我提到的,1万亿美元的基础设施投入巨大——你必须完全有信心,这万亿美元的投资会被充分利用,性能卓越,极具成本效益,并且拥有尽可能长的使用寿命。在英伟达平台上进行基础设施投资,你可以拥有完全的自信。我们已经证明,这是世界上唯一可以让你在任何地方、以任何方式构建并充满信心的基础设施。你想把它放在任何云上,我们很高兴;你想本地部署,我们很乐意;你想放在任何国家、任何地方,我们都全力支持。
我们现在是一个能运行所有AI的计算平台。我们的业务已经开始显现这一点:60%的业务来自超大规模云厂商(前五大)。然而,即使在这前五大超大规模云厂商中,有一部分是内部AI消费。内部AI消费是非常重要的工作,比如推荐系统正从基于表格的协同过滤和内容过滤,转向深度学习和大语言模型;搜索也在转向深度学习和大语言模型。几乎所有这些超大规模的工作负载都在向英伟达GPU极其擅长的工作负载转变。
除此之外,因为我们与每一个AI实验室合作,加速每一个AI模型,并且拥有一个庞大的AI原生企业生态系统,我们可以将它们带到云端。无论投资规模多大、速度多快,这些算力都会被消耗掉。这构成了我们60%的业务。
剩下的40%则无处不在:区域云、主权云、企业工业、机器人、边缘、大型系统、超级计算机系统、小型服务器、企业服务器……系统数量惊人。AI的多样性即是其韧性,AI的覆盖范围即是其韧性。毫无疑问,这不是一项单一应用技术,这是基础性的,这绝对是一次新的计算平台转移。
我们的工作是继续推进技术。我去年提到的最重要的一点就是我们的“推理之年”。我们倾尽所有,冒了巨大的风险进行重塑。当Hopper架构正处于巅峰、运转良好时,我们决定必须将Hopper架构和NVLink 8提升到下一个水平。我们完全重新设计了系统,将整个计算系统解耦,创造了NVLink 72。它的构建方式、制造方式和编程方式都发生了彻底的变化。Grace Blackwell搭配NVLink 72是一个巨大的赌注,对任何人来说都不容易。我要感谢在座的许多合作伙伴,感谢你们的辛勤工作。
NVLink 72引入了NVFP4,不仅仅是FP4精度。FP4是一种完全不同的张量核心和计算单元。我们现在已经证明,我们可以进行无损精度的NVFP4推理,同时获得巨大的性能和能效提升。我们也能够将NVFP4用于训练。
伴随着NVLink 72和NVFP4,我们还发明了Dynamo Tensor、RTLLM等一系列新算法。我们甚至构建了一台超级计算机来帮助我们优化内核和优化整个软件栈,我们称之为DGX Cloud。我们投入了数十亿美元的超级计算能力,来创造使推理成为可能的内核和软件。
结果汇聚在一起。人们曾经告诉我:“Jensen,推理很简单。”不,推理是终极的困难(Inference is ultimate hard)。但它也是终极的重要,因为它驱动着你的收入。
这就是成果。数据来自SemiAnalysis,这是迄今为止对AI推理进行的规模最大、最全面的扫描。你们看到左边这边,每瓦特Token数(Tokens per Watt)非常重要,因为每个数据中心、每个工厂本质上都是受电力限制的。一个1吉瓦(GW)的工厂永远不可能变成2吉瓦,这是物理定律、原子定律的限制。因此,对于一个1吉瓦的数据中心,你想要驱动最大数量的Token,也就是该工厂的产出。所以,你希望在这条曲线上处于越高越好的位置。
X轴代表的是交互性,也就是推理的速度。推理速度越快,响应自然就越快。但更重要的是,推理速度越快,你就能运行更大的模型,处理更多的上下文,思考更多的Token。这根轴同时也代表了AI的智能程度。
而这根纵轴,代表的是AI的吞吐量。请注意:AI越聪明(模型越大、思考越深),你的吞吐量往往就越低。这合乎逻辑吗?当然,因为你在进行更长时间的思考。所以,横轴是速度,纵轴是吞吐量,而斜向的维度则是智能。
·英伟达有世界级Token成本,未来每家公司都要思考Token工厂效率
我要再次强调这一点,这非常重要。虽然接下来我要讲的内容可能会让大家觉得有些“折磨”,但它太关键了。从今天起,全世界的CEO们都会按照我即将描述的方式来审视自己的业务。因为这就是你的Token工厂,这就是你的AI工厂,这就是你的收入来源。对此,毫无疑问。
在这个坐标系中,横轴是吞吐量,纵轴是智能度(或者说在给定数据中心功率下的每瓦特证明能力)。吞吐量越高,你生产的Token就越多。而在这张图的另一侧,是成本。
请注意,英伟达拥有世界上最高的性能。这一点没人会感到惊讶。令人惊讶的是,仅仅在一代产品的时间内——按照摩尔定律,晶体管数量的增长本该带来50%的性能提升;即便是两倍摩尔定律,或许也只能带来1.5倍的预期性能提升(相对于Hopper H100而言)。然而,没人预料到我们会实现35倍的提升。
去年此时,我曾说过,英伟达的Grace Blackwell搭配NVLink 72系统,其每瓦特性能提升了35倍。当时没人相信我。随后,SemiAnalysis发布了报告,Dylan Patel引用了一句话,他“指责”我在压低调门(sandbagging)。他说:“Jensen在留一手,实际上应该是50倍。”他说得没错。
因此,我们的每Token成本是世界上最低的,无人能及。我以前说过:如果你的架构错了,哪怕它是免费的,那也不够便宜。原因在于,无论发生什么,你都必须建造一个吉瓦(GW)级的数据中心。你必须建设这样一个吉瓦级的工厂。而在未来15年里,摊销在这个吉瓦工厂上的成本大约是400亿美元。即便你还没放入任何设备,这400亿美元就已经投入了。所以,你最好确保在这个庞然大物上部署最好的计算机系统,从而获得最低的Token成本。
英伟达的Token成本是世界级的,目前基本上不可触及。之所以能做到这一点,归功于极致协同设计(Extreme Co-design)。我很高兴他也点名提到了我们,称我们为“Token之王”。过去有“美猴王”(Monkey King),现在是“Token之王”。
正如我之前所说,我们采取“垂直整合,水平开放”的策略。我们将所有的软件和技术进行垂直整合,然后以各种打包形式,水平开放地集成到全球的推理服务提供商中。这些公司增长迅猛,简直像烟花一样爆发。Fireworks AI的林君叡也来到了现场。它们在过去一年里增长了100倍。它们就是Token工厂。对于它们而言,工厂的效率、性能以及Token的生产成本能力,就是一切。
看看发生了什么:我们更新了它们的软件,硬件系统保持不变。请注意它们的Token速度变化——从更新前的平均每秒约700个Token,跃升至近5000个Token,提升了7倍。
这就是我之前提到的“极致协同设计”的惊人力量。这也凸显了“工厂”的重要性——你的数据中心。它过去是存储文件的中心,现在则是生成Token的工厂。无论怎样,你的工厂都是受限的。每个人都在寻找土地、电力和厂房外壳。一旦建成,你就受到了电力的限制。在这种受电力限制的基础设施中,你必须确保你的推理效率达到极致。因为你要知道,推理是你的工作负载,Token是你的新大宗商品,而计算就是你的收入。你必须确保架构在未来尽可能优化。
每一家云服务提供商(CSP)、每一家计算机公司、每一家云公司、每一家AI公司,乃至每一家公司,都在思考他们Token工厂的效率。这就是你未来的工厂。我之所以如此确信,是因为在座的每一位都由智能驱动。而在未来,这种智能将由Token来增强。
让我展示一下我们是如何走到今天的:
2016年4月6日(十年前):我们推出了DGX-1,世界上第一台专为深度学习设计的计算机。它由8块Pascal GPU通过第一代NVLink连接而成,单台算力达170 TFLOPS,专为AI研究人员打造。
Volta架构:我们引入了NVLink Switch,将16块GPU以全互联带宽连接,作为一块巨大的GPU运行,这是巨大的一步。
2020年:随着Mellanox加入英伟达,模型规模持续增长,数据中心需要成为一个单一的计算单元。DGX A100 SuperPOD成为第一台结合了Scale-up(纵向扩展)和Scale-out(横向扩展)架构的GPU超级计算机。NVLink 3负责Scale-up,ConnectX-6和Quantum InfiniBand负责Scale-out。
Hopper架构:首款配备FP8 Transformer引擎的GPU,开启了生成式AI时代。配合NVLink 4、ConnectX-7、BlueField-3 DPU和第二代Quantum InfiniBand,彻底变革了计算。
Blackwell架构:重新定义了AI超级计算机的系统架构。通过NVLink Switch连接72块GPU,提供130 TB/s的全互联带宽。计算托盘集成了Blackwell GPU、Grace CPU、ConnectX-8和BlueField-3 DPU。Blackwell在以太网之上运行,全力推动三大扩展定律:预训练、后训练和推理。
Vera Rubin架构(现在):专为Agent AI(代理智能)的每一个阶段而设计,推进包括CPU、存储、网络和安全性在内的所有计算支柱。
Vera Rubin平台拥有NVLink 72,提供3.6倍于前代的FLOPS算力,以及260 TB/s的全互联NVLink带宽。它是加速Agent AI时代的引擎。
Vera CPU机架:专为编排和Agent工作流设计。
STX机架:AI原生存储,基于BlueField-4构建,通过Spectrum-X和共封装光学(CPO)技术进行Scale-out,提高了能效和弹性。
groq LPX机架(令人瞩目的新成员):与Vera Rubin紧密连接。groq LPU拥有巨大的片上SRAM,作为一个Token加速器,为已经极快的Vera Rubin进一步提速。
它们共同实现了每兆瓦吞吐量提升35倍。
全新的Vera Rubin平台:7颗芯片,5个机架级计算机,组成一台革命性的Agent AI超级计算机。在短短10年内,算力提升了4000万倍。
在过去的好日子里,当我提到Hopper时,我只需举起一块芯片。那很可爱。但这是Vera Rubin。当我们想到Vera Rubin时,我们想到的是整个系统——完全垂直整合,软件端到端延伸,作为一个巨大的系统进行优化。
它之所以专为Agent系统设计,原因很明确:Agent最重要的工作负载就是思考。大语言模型正变得越来越大,生成Token的速度越来越快,思考也越来越快。但同时,它必须访问内存。它会猛烈地冲击内存——KV Cache、结构化数据(如CUDA DF)、非结构化数据(如CUDA VS)。它也会猛烈地冲击存储系统,这就是我们要重构存储系统的原因。
此外,Agent还要使用工具。与人类能容忍较慢的电脑不同,AI希望工具尽可能快。这些工具包括网页浏览器,未来还可能是云端的虚拟PC。这些PC和计算机必须尽可能快。
为此,我们创造了一种全新的CPU,专为极高的单线程性能、极高的数据输出、卓越的数据处理能力以及极致的能效而设计。它是世界上唯一使用LPDDR5的数据中心CPU,其单线程性能和每瓦特性能无与伦比。我们构建它,就是为了配合这些机架进行Agent处理。
这就是Grace Blackwell……哦不,是Vera Rubin,它在哪儿?在这儿。这就是Vera Rubin系统。请注意,与上次相比,它实现了100%液冷,所有线缆都消失了。过去需要两天安装的系统,现在只需两小时。制造周期时间将大幅缩短。
这也是一台由热水(45摄氏度)冷却的超级计算机。这减轻了数据中心的压力,将原本用于制冷的成本和能源释放出来,供系统本身使用。这是我们的“秘密酱料”。我们是世界上唯一构建了第六代Scale-up交换系统的公司。这不是以太网,也不是InfiniBand,这是NVLink,第六代NVLink。这做起来极其困难,真的非常难。我为NVLink团队感到无比自豪。
这是全新的groq系统,我会多展示一些。这个系统包含8颗芯片,这是LP30。世界从未见过这样的东西。以前见过的都是V1版本,这是第三代,而且我们已经量产。稍后我会展示更多。
这是世界上第一款CPO(共封装光学)Spectrum-X交换机,也已全面量产。光学组件直接封装在芯片上,直接与硅接口,电子转换为光子,直接连接到芯片。我们与台积电(TSMC)共同发明了这项工艺技术。目前唯一量产的产品名为Coupe,它具有彻底的革命性。英伟达的Spectrum-X已全面量产。
这是Vera系统,其每瓦特性能是当今任何CPU的两倍。它也已在量产中。你知道,我们从未想过会单独出售CPU。但现在我们正在大量单独销售CPU。这肯定将成为我们数十亿美元的业务。我对我们的CPU架构师感到非常满意。我们设计了一款革命性的CPU。
这是由Vera CPU驱动的CX9,以及搭载BlueField-4的STX,这是我们新的存储平台。
这四个就是机架,它们相互连接。每一个机架,比如这个NVLink机架,我之前给大家看过。它非常重,而且似乎每年都在变重,我想是因为里面的线缆越来越多。这就是NVLink机架。由于这种布线系统在创建数据中心时效率极高,我们决定将其技术也应用于以太网。所以这是以太网机架,一个机架内有256个液冷节点,同样通过这些惊人的连接器相连。
大家想看看Rubin Ultra吗?
这就是Rubin Ultra计算节点。与水平滑入的Rubin不同,Rubin Ultra进入了一个全新的机架,称为Kyber。这使得我们能在一个NVLink域中连接144块GPU。
这就是Kyber机架。我肯定能把它举起来,但我不会(笑)。它相当重。
这是一个计算节点,垂直滑入Kyber机架。这是它连接的地方——中板(Mid-plane)。顶部的四个NVLink连接器滑入并连接到这里,使其成为一个节点。每一个插槽(Swag/Slot)都是一个不同的计算节点。
最神奇的部分在这里:这是中板。在中板的背面,不再是传统的线缆系统(铜缆在传输距离上有限制),我们现在拥有这个系统来连接144块GPU。
这是新的NVLink,它也垂直放置,连接到背面的中板上。前面是计算,背面是NVLink交换机。这就构成了一台巨大的计算机。
这就是Rubin Ultra。刚才那个小插曲……当你不练习时就会发生这种事。好吧,慢慢来,别受伤。
·数据中心已是Token工厂,每瓦特Token数将直接转化为收入
你们看到了这张幻灯片。只有在英伟达的主题演讲中,你才会看到去年的幻灯片再次出现。我这么做是因为我想再次强调,去年告诉过你们的一件非常重要的事。
这可能是关乎AI工厂未来最重要的一张图表。全世界的每一位CEO都将追踪并深入研究它。实际情况比这复杂得多,它是多维度的,但你们将研究AI工厂的吞吐量和Token速度。这是在同等功率(ISO Power)下的吞吐量和Token速度,因为你的电力就是那么多。对于你的工厂而言,永远都要关注这两个指标。这项分析将直接转化为你的收入。你今年所做的努力,将在明年精确地体现为你的收入。这张图表就是核心所在。
纵轴是吞吐量,横轴是Token速率。今天展示它,是因为我们现在能够提高Token速度,同时模型规模也在增大。Token长度(上下文长度)根据不同的应用用例等级,正从可能的10万Token输入长度增长到数百万。输入Token长度在增长,输出Token长度也在增长。所有这些因素最终都将影响未来Token的市场营销和定价。
Token是新的大宗商品。像所有大宗商品一样,一旦达到拐点,一旦成熟或正在成熟,它就会细分为不同的层级:
高吞吐量、低速度的层级可用于免费层(Free Tier)。
下一层级可能是中等层级,模型更大,速度更快,输入上下文更长,对应不同的价格点。
你可以看到各种不同的服务:这个是免费的;第一层可能是每百万Token 4美元;下一年可能是6美元。
你希望能够不断推高这个边界。因为模型越大、越聪明,输入Token上下文越长,相关性越高;速度越快,思考迭代的时间越长,AI模型就越聪明。当你拥有更聪明的AI模型时,每一次点击(升级)都允许你提高价格。所以这里是45美元。也许有一天会有一个高级模型,提供高级服务,允许你生成极高的Token速度,因为你在关键路径上,或者你在进行非常长期的研究。那时,每百万Token 150美元也不算什么。
让我们换算一下:假设你作为一名研究人员,每天使用5000万Token,价格为每百万Token 150美元。事实证明,对于一个研究团队来说,这甚至不算什么大数目。所以我们相信这就是未来。这就是AI想要去的地方,也是它今天所在的位置。它必须从这里开始,建立价值,证明用途,并变得越来越好。
在未来,你会看到大多数服务涵盖所有这些层级。
这是Hopper的起点(移动图表)。这是50,这是100。Hopper看起来是这样。你可能会预期下一代产品会更高,但没人预料到会高出这么多。
这是Grace Blackwell。Grace Blackwell所做的是:在你的免费层级,极大地提高了吞吐量;而在你主要通过服务变现的层级,吞吐量提高了35倍。这与任何公司生产的任何产品并无二致:层级越高,质量越高,性能越强,但容量越低。这与世界上任何其他业务都一样。因此,我们能够将这一层级提升35倍,并引入了一个全新的层级。这就是Grace Blackwell带来的巨大飞跃。
现在,这是Vera Rubin。想想刚刚发生了什么:在每一个层级,我们都提高了吞吐量。而在你平均售价(ASP)最高、最有价值的细分层级,我们将其提高了10倍。这非常难做到,真的是极其困难。这是NVLink 72的优势,是超低延迟的优势,是我们通过极致协同设计将整个区域向上推移的成果。
那么,从客户角度来看,这意味着什么?
假设我将所有这些都乘以一个系数。假设我将电力的25%用于免费层,25%用于中等层,25%用于高层,25%用于高级层。我的数据中心只有1吉瓦。我可以决定如何分配这些层级:免费层吸引更多客户,高级层服务最有价值的客户。这种组合的乘积基本上就是你的收入。在这个简化的例子中,Blackwell能产生的收入是前代的5倍。而Vera Rubin,也能产生5倍于Blackwell的收入。所以,你应该尽快升级到Vera Rubin。原因是你的Token成本下降了,吞吐量上升了。
但我们想要更多。
回到这张图。正如我所说,这种吞吐量需要大量的FLOPS,而这种低延迟、高交互性需要巨大的带宽。计算机不喜欢极端的FLOPS和极端的带宽,因为任何系统的芯片表面积都是有限的。因此,优化高吞吐量和优化低延迟实际上是相互矛盾的。
这就是我们与groq结合后发生的情况。
我们收购了一支研发groq芯片的团队并授权了该技术,一直致力于系统集成。这就是结果:在最有价值的层级,我们现在将性能提高了35倍。
这张简单的图表揭示了英伟达迄今为止在绝大多数工作负载中如此强大的原因:在这个区域(高吞吐量区),吞吐量至关重要。NVLink 72具有颠覆性,它是完全正确的架构,甚至在你加入groq后也难以被超越。
然而,如果你将这张图表向右延伸,说你想要的服务不是每秒400个Token,而是每秒1000个Token。突然间,NVLink 72就显得力不从心了,无法达到那个速度。我们没有足够的带宽。
这就是groq发挥作用的地方。当我们推展到这个极限时,它甚至超越了NVLink 72的能力范围。
如果将此转化为相对于Blackwell的收入:Vera Rubin是5倍。如果你的大部分工作负载是高吞吐量,我会坚持使用100%的Vera Rubin。如果你的很多工作负载是代码生成和非常高价值的工程Token生成,我会添加groq。我会在总数据中心的25%中添加groq,其余75%全部使用Vera Rubin。这让你了解如何将groq添加到Vera Rubin中,进一步扩展其性能和价值。
这就是对比。groq之所以如此吸引我,是因为它的计算系统是一个确定性数据流处理器(Deterministic Data Flow Processor)。它是静态编译的,由编译器调度。这意味着编译器预先计算出何时进行计算,确保数据和计算在同一时间到达。所有这些都是提前静态完成,并通过软件完全调度,没有动态调度。
该架构设计了海量的片上SRAM,专为推理这一种工作负载而生。事实证明,这正是AI工厂的工作负载。随着世界继续增加高速Token的生成量,特别是那些超智能Token,这种集成的价值将变得更高。
这是两种极端的处理器:
一颗groq芯片:500 MB SRAM。
一颗Vera Rubin芯片:288 GB HBM显存。
要让groq芯片容纳Rubin的参数规模以及所有必须伴随的KV Cache,需要大量的groq芯片。这限制了groq真正走向主流、真正腾飞的能力,直到我们有了一个绝妙的主意。
我们通过一款名为Dynamo的软件,彻底重构了推理方式,实现了推理的解耦(Disaggregated Inference)。我们重新设计了推理流水线,将最适合Vera Rubin的工作放在上面,而将解码生成(Decode Generation)——即低延迟、受带宽限制的那部分工作负载——卸载给groq。
于是,我们统一了两个差异极大的处理器:一个用于高吞吐量,一个用于低延迟。
但这并没有改变我们需要大量内存的事实。所以,对于groq,我们只需添加大量的groq芯片来扩展其内存容量。
想象一下,对于一个万亿参数模型,我们必须将所有参数存储在groq芯片中。然而,它旁边坐着NVIDIA Vera Rubin,我们可以用它来持有处理所有这些Agent AI系统所需的海量KV Cache。
这基于解耦推理的理念:我们做预填充(Prefill,这部分较容易),同时也紧密集成解码(Decode)。
解码中的注意力机制(Attention)部分在NVIDIA Vera Rubin上完成,这需要大量的运算。
解码中的前馈网络(Feed Forward Network)部分,即Token生成部分,在groq芯片上完成。
两者通过今天的以太网紧密耦合,使用一种特殊模式将延迟降低约一半。这种能力使我们能够集成这两个系统。我们在其上运行Dynamo——这款用于AI工厂的不可思议的操作系统。结果是性能提升了35倍,更不用说带来了世界前所未见的Token生成推理性能的新层级。
这就是包含groq的Vera Rubin系统。
我要感谢三星(Samsung),他们为我们制造了groq LP30芯片,并且正在全力以赴地生产。我非常感激你们。groq芯片已投入生产,我们将在下半年,大约在第三季度发货。
你们可能觉得,很难再想象还有更多的客户了。但真正令人振奋的是:Grace Blackwell的早期采样因为 NVLink 72 的复杂整合而颇具挑战,但 Vera Rubin 的采样进展却异常顺利。事实上,Satya(纳德拉)已经发短信告诉我,第一台Vera Rubin机架已经在 Microsoft Azure上运行起来了。我为他们感到超级兴奋。
我们将开足马力生产这些系统。我们的供应链现在已经具备每周制造数千台此类系统的能力——这意味着在我们的供应链内部,每月就能建成多个吉瓦(GW)级的AI工厂。所以,我们在全力生产GB300机架的同时,也将源源不断地输出Vera Rubin机架。
各种CPU的表现也极其成功。原因在于,AI需要使用工具,而工具的使用离不开CPU。Vera CPU正是为这一“甜蜜点”完美设计的。它是下一代数据处理的理想之选。Vera CPU加上BlueField-4 DPU,再连接到CX9,构成了完整的BlueField-4栈。全球100%的存储行业 都加入了这一系统。原因很简单:他们都看到了同样的未来——存储系统将遭受前所未有的冲击。过去是人类通过 SQL 使用存储系统,未来将是 AI 直接使用存储系统。这将包括 cuDF 加速存储、cuVS 加速存储,以及至关重要的 KV Cache(键值缓存)。
这就是Vera Rubin系统。
令人惊叹的是,仅仅两年时间,在一个吉瓦的工厂里,利用我之前展示的数学逻辑——按照摩尔定律,我们本应只是在晶体管数量、FLOPS算力或带宽上实现几倍的线性增长。但凭借这一架构,我们将Token生成速度从每秒200万提升到了7亿,实现了350倍的增长!
这就是极致协同设计(Extreme Co-design)的力量。这就是我所说的:我们在垂直方向上进行整合与优化,然后在水平方向上开放,让每个人都能受益。
这是我们的路线图,快速过一下:
Blackwell已经在这里。Oberon系统:在Rubin时代,我们保留了Oberon系统。我们始终保持向后兼容,如果你不想做任何改变,可以直接沿用新架构。标准的铜缆Scale-up机架系统Oberon依然可用。通过Oberon,我们也可以使用光互联进行Scale-up,扩展至 NVLink 576。
关于“英伟达是用铜缆 Scale-up 还是光纤 Scale-up?”的讨论很多。答案是:两者都做。我们将通过Kyber机架实现NVLink 144的铜缆互联;同时通过Oberon上的光互联技术,将NVLink 72扩展至NVLink 576。
下一代 Rubin Ultra:Rubin Ultra芯片即将问世。我们还有一款全新芯片LP35,它将首次Incorporate英伟达的NVFP4计算结构,再带来数倍的速度提升。
Oberon NVLink 72光互联Scale-up:它使用了Spectrum-6,这是世界上第一款共封装光学(CPO)交换机,且已全部量产。
再下一代:Feynman。Feynman拥有全新的GPU,当然也有全新的LPU——LP40。这是英伟达与Groq 团队联合打造的巨大飞跃,结合了双方的规模与技术,简直不可思议。
还有一款全新的CPU,代号Rosa(取自 Rosalind Franklin,同时也呼应 BlueField 系列),搭配下一代SuperNIC CX10 和 BlueField-5。我们将拥有Kyber(铜缆 Scale-up)以及Kyber CPO(共封装光学 Scale-up)。这是历史上第一次,我们将同时利用铜缆和共封装光学进行Scale-up。
很多人问我:“Jensen,铜缆还重要吗?”答案是:重要。“你会用光纤Scale-up吗?” 会。“你会用光纤Scale-out吗?” 也会。
对于生态系统的每一位伙伴,我们需要巨大的产能——无论是铜缆、光纤还是 CPO。这就是我们与大家共同奠定基础的原因,以支撑这种级别的增长。Feynman 将包含所有这些。
每年,全新的架构。
很快,英伟达就从一家芯片公司转变为一家AI工厂公司、AI基础设施公司、AI计算公司。这些系统不仅仅是硬件,我们现在是在构建整个AI工厂。在这些工厂中,有太多的电力被浪费了。我们要确保这些AI工厂以最佳方式设计和构建。
过去,大多数组件从未相遇。作为技术供应商,我们彼此互不相识,直到在数据中心现场才碰面。这种情况不能再发生了。我们正在构建极其复杂的系统,必须在虚拟空间中提前相遇。
因此,我们创建了Omniverse和Omniverse DSX World平台。在这里,我们所有人都可以在虚拟系统中相遇,共同设计这些吉瓦级的AI工厂。我们拥有针对机架的机械、热、电和网络仿真系统。这些仿真系统与生态系统中令人惊叹的工具公司集成。我们还连接到电网,以便相互交互、交换信息,从而相应地调整电网功率和数据中心功率,节约能源。
在数据中心内部,利用Max-Q技术,我们可以动态调整系统,协调电力、冷却以及各种技术,确保不浪费每一瓦电力,以最优速率运行,交付巨大的Token吞吐量。
毫无疑问,这里存在2倍的优化空间。而在我们谈论的规模下,这2倍是巨大的。我们称之为NVIDIA DSX平台。就像我们所有的平台一样,它包含硬件层、库层和生态系统层。
历史上最伟大的基础设施建设正在进行中。世界正在竞相建设芯片系统和AI工厂,每延迟一个月,就意味着数十亿美元的收入损失。AI工厂的收入等于每瓦特Token数。在电力受限的情况下,每一瓦未使用的电力都是流失的收入。
NVIDIA DSX是一个Omniverse数字孪生蓝图,用于设计和运营AI工厂,以实现最大的Token吞吐量、弹性和能源效率。
开发者通过多个API连接:DSX-M用于物理、电气、热和网络仿真;DSX Exchange用于AI工厂运营数据;DSX Flex用于电网与数据中心之间的安全动态电力管理;DSX Max-Q用于动态最大化Token吞吐量。
流程始于由NVIDIA和设备制造商提供的“仿真就绪”资产,由PTC Windchill PLM管理。
然后在 Dassault Systèmes 3DEXPERIENCE 中进行基于模型的系统工程。Jacobs 将数据导入其定制的 Omniverse 应用程序以完成设计。
使用领先的仿真工具进行测试:Siemens Star-CCM+ 用于外部热仿真,Cadence Reality 用于内部热仿真,Ansys 用于电气仿真,以及 NVIDIA Network Simulator。
通过 Procore 进行虚拟调试,以确保加速施工时间。
当站点上线时,数字孪生体成为操作员。AI 代理 与 DSX Max-Q 协同工作,动态编排基础设施。Phadrous 代理(注:此处可能是特定命名,意为“光/亮”相关)监控冷却和电气系统,向 Max-Q 发送信号,持续优化计算吞吐量和能效。Emerald 代理 解读实时电网需求和压力信号,并通过 DSX 动态调整电力。
NVIDIA 与合作伙伴生态系统正在全球范围内竞相建设 AI 基础设施,确保极致的弹性、效率和吞吐量。
这太不可思议了,对吧?Omniverse旨在容纳世界的数字孪生,从地球开始,到各种规模的数字孪生。我们拥有如此棒的合作伙伴生态系统。
我要感谢你们所有人。这些公司在几年前对我们来说大多是陌生的,但现在我们紧密合作,共同构建世界上见过的最大的计算机,并且是以行星规模来构建。NVIDIA DSX 就是我们新的AI工厂平台。
接下来我只花很少的时间,但我们要走向太空。我们其实已经在太空了。Thor芯片已获得辐射认证,并应用于卫星成像。未来,我们将在太空中建设数据中心。当然,这在太空中非常复杂。我们正在与合作伙伴开发一款名为Vera Rubin Space-1的新计算机,它将进入太空并启动太空数据中心。太空中没有传导,没有对流,只有辐射。我们必须想出如何在太空中冷却这些系统,但我们有很多优秀的工程师正在攻克这一难题。
·每家公司都将需要OpenClaw策略,未来软件公司将是代理即服务
让我谈谈一些新事物。
Peter Steinberg就在这里,他写了一个软件叫OpenClaw。我不知道他是否意识到这有多么成功,但其重要性是深远的。OpenClaw现在是人类历史上最受欢迎的开源项目,而且仅用了几周时间就达到了这一成就。它超越了Linux花了30年时间的历程。它就是这么重要。
我们现在宣布对它提供支持。让我简单地介绍一遍,向你们展示一点东西。你只需要这样做:在控制台输入命令,它就会找到 OpenClaw,下载并为你构建一个AI代理,然后你可以告诉它做任何你需要做的事。
刚刚展示的内容令人难以置信,让大家都能理解。但让我们想想发生了什么。OpenClaw是什么? 它是一个代理系统(Agentic System)。它调用并连接大语言模型。它管理资源:可以访问工具、文件系统、大语言模型。它能进行调度,执行Cron任务。它能将你给出的提示词(Prompt)分解为一步步的操作,并派生子代理。它拥有 I/O(输入/输出):你可以用任何模态与它交流(说话、手势等),它也能通过短信、邮件等方式给你发消息。
基于此,你可以说:事实上,它是一个操作系统。我刚才用来描述它的语法,就是描述操作系统的术语。OpenClaw本质上开源了代理计算机的操作系统。这就好比 Windows 让我们能够创建个人电脑,现在 OpenClaw让我们能够创建个人代理(Personal Agents)。其影响是不可估量的。
首先是采用率,这本身就说明了一切。但最重要的是:每一家公司,每一家软件公司,每一家科技公司,CEO们现在都要问自己:“你的OpenClaw策略是什么?”
就像我们需要Linux策略,需要 HTTP/HTML 策略(开启了互联网),需要Kubernetes策略(开启了移动云)一样,今天世界上的每一家公司都需要一个OpenClaw策略和代理系统策略。这是新的计算机。
激动人心的部分来了。
在OpenClaw之前,企业IT是这样的:之所以叫“数据中心”,是因为这些大房间、大楼里存放着数据、文件和企业的结构化数据。我们运行软件,提供工具和记录系统,将工作流编码其中,供人类或数字员工使用。这是旧的IT行业:软件公司创造工具,保存文件,GSI等咨询公司帮助企业整合这些工具。这些工具在治理、安全、隐私和合规方面依然极具价值,这一点不会变。
但在OpenClaw之后,在代理时代,情况将变成这样:
每一家IT公司,每一家公司,每一家SaaS公司,都将变成一家AgaaS 公司(Agentic-as-a-Service,代理即服务公司)。毫无疑问。令人惊叹的是,OpenClaw在恰到好处的时间给了行业恰好需要的东西。就像Linux、Kubernetes和HTML一样,它让整个行业能够抓住这个开源栈并以此大展身手。
但有一个问题:企业网络中的代理系统可以访问敏感信息,可以执行代码,还可以与外部通信。大声说出来,想想看吧:访问员工信息、供应链、财务敏感数据,并将其发送到外部。这显然是不能被允许的。
因此,我们与Peter合作,集结了世界上最顶尖的安全和计算专家,使OpenClaw变得企业级安全和私有化。我们称之为NVIDIA NemoClaw Reference OpenClaw(参考架构),它包含了所有代理AI工具包。
首先是一项称为OpenShell的技术,现已集成到OpenClaw中,使其具备企业就绪能力。这个参考栈我们称为NemoClaw。你可以下载、试用,并将其连接到全球所有SaaS公司的策略引擎(Policy Engine)。
你的策略引擎至关重要。NemoClaw(配合OpenShell)能够执行这些策略引擎。它拥有策略控制、网络护栏(Network Guardrail)和隐私路由器。因此,我们可以保护企业,防止代理在公司内部不安全地执行操作。我们还为代理系统添加了几项功能。最重要的是,你可以拥有自己的定制代理和定制模型。
这就是NVIDIA开放模型计划(Open Model Initiative)。我们在每一个AI模型领域都处于前沿:
Nemotron:用于语言、视觉理解、RAG 安全和语音。
Cosmos:用于实体 AI(Physical AI)、世界生成和理解的前沿模型。
AlpaMayo:全球首个具备思考和推理能力的自动驾驶 AI 组基础模型。
General Purpose Robots:通用人形机器人模型。
BioNemo:用于生物学、化学和分子设计的开放模型。
Earth-2:基于AI物理的天气和气候预测模型。
我们的模型不仅因为在排行榜上名列前茅、世界级优秀而向大家开放,更重要的是,我们绝不会停止工作。我们将每天持续改进。Nemotron-3之后将是 Nemotron-4;Cosmos-1之后是Cosmos-2;每一代都在进步。通过垂直整合和水平开放,我们让每个人都能加入AI革命。
我们在研究、语音、世界模型、通用人形机器人、自动驾驶和推理等多个领域的排行榜上均居首位。
当然,最重要的是这个:Nemotron-3在OpenClaw中的表现。看看前三名的排行,那是世界上最好的三个模型。我们处于最前沿。同样,我们也希望创建基础模型,让你们能够对其进行微调和后训练,将其转化为你们确切需要的智能。
这是Nemotron-3 Ultra。它将成为世界上有史以来最好的基础模型。这将帮助我们协助每一个国家构建其主权 AI(Sovereign AI)。我们正与众多公司合作,而今天我最激动人心的宣布之一就是:Nemotron联盟(Nemotron Coalition)。
我们对此全力以赴。我们已投入数十亿美元的 AI 基础设施,不仅为了开发推理库等所需的核心 AI 引擎,更为了创建能激活全球每一个行业的 AI 模型。大语言模型固然重要——人类智能怎么可能不重要?但在全球不同的行业、不同的国家,你需要有能力定制自己的模型。模型的领域截然不同:从生物学、物理学到自动驾驶汽车、通用人形机器人,当然还有人类语言。我们有能力与每一个地区合作,创建其领域特定的、属于他们自己的主权 AI。
今天,我们宣布成立一个联盟,与我们携手让Nemotron-4更加惊艳。这个联盟汇聚了一些非凡的公司:
Black Forest Labs:著名的图像生成公司。
Cursor:著名的编程公司,我们自己也在大量使用。
LangChain:拥有数十亿次下载量,用于创建定制代理。
Mistral AI:Arthur(注:指 Mistral CEO Arthur Mensch)提到的,我想他也在现场。这是一家不可思议的公司。
Perplexity:Perplexity 的计算机,绝对好用,每个人都该用,它太棒了。
Reflection:多模态代理系统。
Sarvam AI:来自印度的思考机器。
Mirror:Merari 实验室。
感谢这些不可思议的公司加入我们要。我说过,全球每一家企业、每一家软件公司都需要代理系统,需要代理策略,需要OpenClaw策略。他们都认同这一点,并正与我们合作,集成Nemo、Nemo Hands参考设计、NVIDIA代理AI工具包,当然还有我们所有的开放模型。一家接一家,数量众多,我们与在座的每一位合作。对此我深表感激。这是我们的时刻。
这是一次重塑,是企业的文艺复兴。这个行业将从现在的2万亿美元,成长为数万亿美元的产业。它提供的不再仅仅是供人使用的工具,而是那些在你专业领域中高度专业化的、可供租赁的代理(Agents)。
我完全可以想象,未来我们公司的每一位工程师都将拥有一个年度Token预算。他们的基本年薪可能是几十万美元,而我可能会在此基础上再给他们一半额度的Token,以便让他们的工作效率提升10倍。当然我们会这么做。这如今已成为硅谷的招聘利器之一:“这份工作附带多少Token?”原因很清楚:任何能访问Token的工程师都将更具生产力。而这些Token,将由我们与大家合作共建的AI工厂生产出来。
如今,每一家企业都建立在文件系统和数据中心之上;而未来的每一家软件公司都将是代理化(Agentic)的,它们将是Token的制造商。它们既是工程师的Token用户,也是所有客户的Token制造商。
OpenClaw事件的重要性怎么强调都不为过。它与HTML同等重要,与Linux同等重要。我们现在拥有了一个世界级的开源代理框架,所有人都可用来构建自己的OpenClaw策略。我们还创建了一个名为Nemo Hands的参考设计,供各位使用,它经过优化,性能卓越且安全可信。
说到代理,众所周知,它们能感知、推理和行动。我刚才谈到的大多数代理都是数字代理:它们在数字世界中行动、推理、编写软件。但我们也长期致力于实体化代理(Physically Embodied Agents)的研究,我们称之为机器人。它们所需的AI是实体AI(Physical AI)。
这里有一些重大发布。我简单过一下:现场有110台机器人,几乎全球每一家制造机器人的公司都在与英伟达合作,我想不出有哪一家不是。我们拥有三台计算机:训练计算机、合成数据生成与仿真计算机,以及位于机器人内部的机器人计算机。我们拥有所需的所有软件栈和AI模型。这一切都整合进了全球的生态系统中,我们的合作伙伴从西门子到Cadence,遍布各地,令人惊叹。
今天,我们宣布了一大批新合作伙伴:
自动驾驶:正如大家所知,我们在此领域耕耘已久。自动驾驶的“ChatGPT 时刻”已经到来。我们现在知道可以成功实现自动驾驶汽车。今天,我们宣布了NVIDIA Robo-Taxi Ready平台 的四家新合作伙伴:比亚迪(BYD)、现代(Hyundai)、日产(Nissan)、吉利(Geely)。加上之前的合作伙伴梅赛德斯、丰田、通用,每年将有1800万辆 汽车加入这一行列。未来,具备Robo-Taxi能力的汽车数量将令人难以置信。我们还宣布与Uber建立重大合作伙伴关系,将在多个城市部署并将这些车辆接入其网络。
工业机器人:ABB、Universal Robots、KUKA等众多机器人公司齐聚于此。我们正与他们合作,将我们的实体AI模型集成到仿真系统中,以便将这些机器人部署到全球各地的生产线上。
其他领域:卡特彼勒(Caterpillar)也在这里。甚至T-Mobile也在这里。原因在于,未来的无线电塔将不再是单纯的信号塔,而将成为NVIDIA Aerial AI RAN。这将是一座机器人无线电塔:它能对流量进行推理,调整波束成形,以尽可能节约能源并提高保真度。
现场有这么多的人形机器人,但我最喜欢的之一是迪士尼(Disney) 的机器人。不如让我给大家看几段视频。
(后续播放视频及现场机器人互动环节略)
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。