速看！黄仁勋CES 2026演讲万字实录：甩出“物理AI”王牌

作者 | 小小

出品 | 网易科技

CES 2026最具热度的演讲，无疑属于英伟达首创人兼CEO黄仁勋。这位被业界称为“黄衣教主”的业界首脑，定于美国时间1月5日下昼1点开讲，却让慕名而来的听众早早体验了“未来热度”——网易科技上午11点抵达时，场外排队步队已蜿蜒近500米。有前来参会的中国KOL叹息：“我们等的不但是黄仁勋，更是在等一个谜底：未来十年，人与机械将怎样重新分工。而有些谜底，似乎只在现场才华闻声。”

黄仁勋比预准时间晚了约十分钟登上舞台。他抛出焦点判断：“物理AI的‘ChatGPT时刻’，即将到来。”

黄仁勋指出，盘算机行业正履历十年一遇的“平台重置”：我们正从“编程软件”时代跨入“训练软件”时代，盘算的基础手艺栈（所谓的“五层蛋糕”），每一层都在被重新发明。

2025年被黄仁勋界说为“智能系一切”普及的元年。AI不再仅仅是预先录制的程序，而是具备推理、妄想、甚至在实时运行中举行“思索”的智能体。他特殊致敬了中国开源模子DeepSeek R1的突破，以为开源实力正让AI变得无处不在，使智能不再抛下任何人。

黄仁勋演讲的重头戏在于“物理AI”。英伟达正致力于让AI明确重力、惯性、因果关系等物理定律。为此，黄仁勋宣布了天下首个会思索、会推理的自动驾驶AI——Alpamayo。它不但能开车，还能像人类一样诠释“为什么这么开”。这标记着AI正式从屏幕后的对话框，走向现实天下的自动驾驶汽车与人形机械人。

面临AI盘算量每年10倍的暴增，黄仁勋祭出了新一代架构Rubin。这不但是一颗芯片，而是包括Vera CPU、Rubin GPU、NVLink-6等六大焦点组件的全栈革命。

黄仁勋强调，英伟达的角色已从芯片供应商转变为“全栈AI系统”的构建者。通过开源模子、数据及NeMo开发库，英伟达正通过“三台盘算机”（训练、推理、模拟）的架构，为全球提供构建物理AI的底座。这场竞赛不但关乎速率，更关乎谁能以更低的本钱、更高的能效，将人类文明带入万物皆有智能的新时代。

以下为黄仁勋2026 CES演讲实录（经编辑略有修改，小问题为后加）：

一、时代定调：两大“平台转移”与AI的重塑之力

拉斯维加斯，新年快乐！接待来到CES。

约莫每十到十五年，盘算机行业就会履历一次重置。平台会爆发一次根天性的转变，从大型机到小我私家电脑，再到互联网、云盘算、移动装备。每一次，应用生态都会瞄准一个新的平台，这就是所谓的“平台转移”。每次，你都要为新的盘算平台编写新的应用程序。但这一次，事实上，有两个平台转移在同时爆发。

当我们迈向人工智能时代时，应用程序将构建在AI之上。早先，人们以为AI自己就是应用，事实也确实云云。但未来，你将要在AI之上构建应用程序。除此之外，软件的运行方法和开发方法也爆发了根天性改变。

盘算机工业的整个基础手艺栈正在被重新发明。你不再“编程”软件，而是“训练”软件；你不再在CPU上运行它，而是在GPU上运行它。已往的应用程序是预先录制、预先编译并在你的装备上运行的，而现在的应用程序能够明确上下文，每一次、每一个像素、每一个token都是从零最先天生的。由于加速盘算，由于人工智能，盘算已经被彻底重塑。谁人“五层蛋糕”（指手艺栈）的每一层现在都在被重新发明。

这意味着，已往十年积累的价值约十万亿美元的盘算机基础设施，现在正被现代化刷新，以顺应这种新的盘算方法。每年有数千亿甚至上万亿美元的危害投资正在涌入，用于现代化刷新和发明这个新天下。

这也意味着，一个百万亿美元规模的工业，其研发预算中有几个百分点正在转向人工智能。人们问钱从那里来？这就是泉源。从古板AI到现代AI的现代化刷新，研发预算从经典要领转向现在的人工智能要领，海量投资正涌入这个行业，这诠释了为什么我们云云忙碌。

已往这一年也不破例。2025年是难以想象的一年�？雌鹄此坪跛惺虑槎荚谕骋皇奔浔�，事实上可能也确实云云。第一件事虽然是扩展定律（Scaling Laws）。2015年，我以为第一个真正会爆发影响的模子BERT泛起了，它确实带来了重大影响。

2017年，Transformer架构问世。直到五年后的2022年，“ChatGPT时刻”才爆发，它叫醒了天下对人工智能可能性的熟悉。那之后一年爆发了一件很是主要的事。ChatGPT的第一个推理模子o1面世，“测试时缩放”这个看法也随之爆发。

我们不但预训练让模子学习，还在后训练阶段通过强化学习让它学习新的手艺。现在我们尚有了测试时缩放，这实质上是“思索”的另一种说法，包括实时举行思索。人工智能的每一个阶段都需要重大的盘算量，而盘算定律仍在一连扩展，大语言模子一连变得更好。

二、开源革命：前沿模子与智能体普及

与此同时，另一个突破爆发了，这个突破爆发在2024年：智能系一切最先泛起。到2025年，它最先普及，扩散到险些每个角落。具备推理能力、能查找信息、举行研究、使用工具、妄想未来、模拟效果的智能体模子，突然最先解决很是主要的问题。我最喜欢的智能体模子之一叫做Cursor，它彻底改变了英伟达内部的软件开发方法。智能系一切将真正从这里腾飞。

虽然，尚有其他类型的AI。我们知道大语言模子并不是唯一的信息类型。宇宙中凡有信息之处、凡有结构之处，我们都能教一种语言模子去明确那种信息，明确其表征，并将其转化为一种AI。其中最主要的一种是物理AI，即能够明确自然定律的AI。虽然，物理AI也涉及AI与天下交互。但天下自己蕴含着被编码的信息，这就是“AI物理”。在物理AI的语境下，你有与物理天下交互的AI，也有明确物理定律物理AI。

最后，去年爆发的最主要事情之一是开源模子的前进。我们现在可以知道，当开源、当开放立异、当全天下每个行业、每家公司的立异同时被激活时，AI将无处不在。与此同时，开源模子在2025年真正腾飞了。

事实上，去年我们看到了DeepSeek R1的前进，这是第一个开源推理系统。它让天下大吃一惊，现在天下各地有州差别类型的开源模子系统�？茨Ｗ右丫执锪饲把厮�，虽然仍落伍前沿模子约莫六个月，但每六个月就有新模子泛起，并且这些模子越来越智慧。

正由于云云，你可以看到开源模子的下载量泛起爆炸式增添，由于首创公司、至公司、研究员、学生，险些每个国家都想加入AI革命。

智能——数字形式的智能——怎么可能抛下任何人呢？因此，开源模子去年真的彻底改变了人工智能，整个行业将因此被重塑。

着实我们对此早有预感。你可能听说过，几年前，我们最先制作和运营自己的AI超等盘算机——DGX Cloud。许多人问，你们要进军云盘算营业吗？谜底是否定的。我们制作这些DGX超等盘算机是供自己使用的。效果是，我们有数十亿美元的超算在运行，以便开发我们的开源模子。

它最先吸引全球各行各业的关注，由于我们在众多差别领域举行着前沿的AI模子事情：我们在卵白质、数字生物学（La Proteina）方面的事情，用于合成和天生卵白质；OpenFold 3，用于明确卵白质结构；EVO 2，用于明确和天生多种卵白质；以及开源的细胞表征模子的起源。

Earth-2 AI，明确物理定律的AI；我们在ForecastNet方面的事情；我们在Cordiff方面的事情，真的彻底改变了人们举行天气预告的方法。Nemotron，我们现在正在那里举行开创性的事情。第一个混淆Transformer SSM模子，速率快得惊人，因此可以举行长时间思索，或者快速思索（不那么长时间）并爆发很是很是智能的谜底。你们可以期待，我们在不久的未来宣布Nemotron?3的其他版本。

Cosmos，一个前沿的开放天下基础模子，明确天下怎样运作。Groot，一小我私家形机械人系统，涉及枢纽控制、移动性、运动。这些模子，这些手艺现在正在被集成，并且在每一种情形下，都对天下开源。今天，我们也将谈谈Alpamayo，我们在自动驾驶汽车方面所做的事情。

我们不但开源模子，还开源用于训练这些模子的数据，由于只有这样，你才华真正信任模子的爆发历程。我们开源所有模子，我们资助你基于它们举行衍生开发。我们有一整套库，称为NeMo库：物理NeMo库、Clara NeMo库、BioNeMo库。每一个都是AI的生命周期治理系统，让你能够处置惩罚数据、天生数据、训练模子、建设模子、评估模子、为模子设置防护栏，一直到安排模子。每一个库都极其重大，并且所有开源。

因此，在这个平台之上，英伟达也是一个前沿AI模子构建者，我们以一种很是特殊的方法构建：我们完全以开放的方法构建，以便让每家公司、每个行业、每个国家都能成为这场AI革命的一部分。

这些模子不但具备前沿能力、是开源的，它们还在种种排行榜上压倒一切。我们有明确多模态文档（即PDF）的主要模子。天下上最有价值的内容都存储在PDF中，但需要人工智能来发明内里有什么、解读内容并资助你阅读。

因此，我们的PDF检索器、PDF剖析器是天下级的。我们的语音识别模子绝对是天下级的。我们的检索模子，实质上是现代AI时代的搜索、语义搜索、AI搜索、数据库引擎，也是天下一流的。以是我们经常占有榜首。

所有这些都是为了效劳于你构建AI智能体的能力。这真是一个开创性的生长领域。当ChatGPT刚泛起时，人们以为其爆发的效果很有趣，但幻觉也很严重。爆发幻觉的缘故原由在于，它可以记着已往的一切，但无法记着未来和目今的一切。以是它需要基于研究来“接地气”。

在回覆问题之前，它必需举行基础研究。能够推理是否需要研究、是否需要使用工具、怎样将问题剖析成更多办法。ChatGPT能够将这些办法组合成一个序列，来完成它从未做过、从未被训练过的事情。这就是推理的魔力所在。我们可以遇到从未见过的情形，并将其剖析成我们已往履历过、知道如那里置的情形、知识或规则。

因此，AI模子现在具备的推理能力极其强盛。智能体的推理能力为所有这些差别的应用翻开了大门。我们不再需要在第一天就训练AI模子知道一切，就像我们不需要在第一天就知道一切一样。我们应该能够在任何情形下，推理出怎样解决某个问题。大语言模子现在已经实现了根天性的奔腾。

使用强化学习、头脑链、搜索、妄想等差别手艺和强化学习的能力，使我们具备了这种基本能力，并且现在也完全开源了。

但真正了不起的是，另一个突破爆发了，我第一次看到它是在Perplexity（AI搜索公司）那里。我第一次意识到他们同时使用多个模子。我以为这完全是天才之举。AI在推理链的任何环节，能挪用天下上所有优异的AI来解决它想解决的问题。这就是为什么AI实质上是多模态的，它们明确语音、图像、文本、视频、3D图形、卵白质。

它也是“多模子”的，意味着它们应该能够使用最适合使命的任何模子。因此，它实质上是“多云”的，由于这些AI模子位于所有这些差别的地方。它照旧“混淆云”的，由于若是你是一家企业公司，或者你构建了一个机械人或任何装备，有时它在边沿，有时在无线基站，有时在企业内部，或者是在医院等需要实时处置惩罚数据的地方�；谎灾�，由于未来的应用构建在AI之上，这就是未来应用的基本框架。

这个基本框架，这种能够完成我所形貌的、具备多模子能力的智能体AI的基本结构，现在已经极大地推动了种种AI首创公司的生长。

通过我们开源的模子和工具，现在你也可以轻松定制自己的AI，教它那些唯一无二的手艺。这正是我们开发Nemotron、NeMo等开源模子的目的。你只需要在AI前面加一个智能路由治理器，它会凭证你的指令，自动选择最合适的模子来解决问题。

这样的架构带来什么？你获得的AI既能完全按你的需求定制，可以教它公司特有的手艺，这些可能正是你的焦点优势，并且你也有对应的数据和专业知识去逊；同时，它又能始终坚持手艺领先，随时用上最新的能力。

简朴来说，你的AI既能高度个性化，又能即开即用，始终坚持在前沿。

为此，我们做了一个最简朴的示例框架，叫“AI Route Blueprint”，已经集成到全球多家企业的SaaS平台中，效果很不错。

这是不是很难以想象？使用语言模子。使用预先训练好的、专有的、前沿的语言模子，与定制的语言模子连系到一个智能体框架、一个推理框架中，允许你会见工具和文件，甚至可能毗连到其他智能体。这基本上就是AI应用或现代应用的基本架构，而我们建设这些应用的能力非�？�。

注重，纵然你给它从未见过的应用程序信息，或者以一种并非完全如你所想的结构泛起，它仍然能举行推理，并尽最大起劲通过数据和信息去实验明确怎样解决问题。这就是人工智能。

这个基本框架现在正在被整合，而我适才形貌的一切，我们有幸与一些天下领先的企业平台公司相助。例如Palantir，他们整个AI和数据处置惩罚平台正在集成，并由英伟达加速�Ｉ杏刑煜铝煜鹊目突Ю秃驮惫ばЮ推教⊿erviceNow、全球顶级的云端数据平台Snowflake。CodeRabbit，我们在英伟达内部普遍使用。CrowdStrike，正在建设AI来检测和发明AI威胁。NetApp，他们的数据平台现在上面有英伟达的语义AI，以及智能系一切，用于客户效劳。

但主要的是：这不但是你现在开发应用的方法，它还将成为你平台的用户界面。以是，无论是Palantir、ServiceNow照旧Snowflake，以及我们正在相助的许多其他公司，智能系一切就是界面。它不再是在方格里输入信息的Excel，也许也不再仅仅是下令行。现在，所有这些多模态信息交互都成为可能。你与平台交互的方法变得越发简朴，就像你在与人交互一样。因此，企业AI正在被智能系一切彻底改变。

三、物理AI突围：教会机械明确与交互真实天下

下一件事是物理AI。这是你们听我谈论了好几年的领域。事实上，我们已经为此事情了八年。问题是：怎样将盘算机内通过屏幕和扬声器与你交互的智能体，酿成能与天下交互的智能体？这意味着它能明确天下运作的知识：物体恒存性（我移开视线再回来，物体还在那里）、因果关系（我推它，它会倒下）。

它明确摩擦力、重力以及惯性，知道一辆重型卡车在路上行驶需要更多时间才华停下，一个球会继续转动。这些想法对小孩来说都是知识，但对AI来说完全是未知的。因此，我们必需建设一个系统，让AI能够学习物理天下的知识、学习其纪律，虽然也能从数据中学习。而数据相当稀缺。并且需要能够评估AI是否有用，这意味着它必需在情形中举行模拟。若是AI没有能力模拟物理天下对其行动的反响，它怎么知道自己执行的行动是否切合预期？

这个基本系统需要三台盘算机：一台是我们熟知的、英伟达制造的用于训练AI模子的盘算机；第二台是用于推理模子的盘算机。推理模子实质上是在汽车、机械人、工厂或任何边沿地方运行的机械人盘算机；但必需有另一台为模拟设计的盘算机，由于模拟是英伟达险些所有事情的焦点，这是我们最驾轻就熟的地方。模拟确实是我们所做的一切物理AI事情的基础。

以是我们有三台盘算机，以及运行在这些盘算机上、让它们变得有用的多个手艺栈和库。Omniverse是我们的数字孪生、基于物理的模拟天下。Cosmos是我们的基础模子，不是语言基础模子，而是天下基础模子，并且也与语言对齐。你可以问“球怎么样了？”，它会告诉你球正在街上转动。虽然，尚有机械人模子，我们有两个：一个叫Groot，另一个叫Alpamayo。

关于物理AI，我们必需做的最主要的事情之一就是建设数据来训练AI。这些数据从何而来？不像语言那样，由于我们创立了一堆被以为是“真真相形”的文本，AI可以从中学习。我们怎样教会AI物理天下的“真真相形”？只管有大宗的视频，但远远缺乏以捕获我们需要的交互的多样性和类型。

因此，一些伟大的头脑群集在一起，将原本用于盘算的资源转化为数据。现在，使用以物理定律为基础和条件、以真真相形为基础和条件的合成数据天外行艺，我们可以有选择地、巧妙地天生数据，然后用来训练AI。例如，我们可以使用Cosmos基础模子，天生基于物理、物理上合理的围绕视频，AI现在可以从中学习。

我知道这很难以想象。Cosmos是天下领先的基础模子、天下基础模子。它已被下载数百万次，在天下各地使用，让天下为这个物理AI的新时代做好准备。我们自己也在使用它，用它来建设我们的自动驾驶汽车系统，用于场景天生和评估。通过盘算机模拟，我们能够有用地行驶数十亿、数万亿公里。

今天，我们宣布推出Alpamayo，天下上首个会思索、会推理的自动驾驶汽车AI。Alpamayo是端到端训练的，从摄像头输入到驱动输出。训练数据包括它自己行驶的大宗里程、人类驾驶树模，以及由Cosmos天生的大宗里程。除此之外，尚有数十万个很是仔细标记的例子，以便我们教汽车怎样驾驶。

Alpamayo奇异之处在于。它不但吸收传感器输入并驱动偏向盘、刹车和加速器，还会推理它即将接纳什么行动。它会告诉你它将接纳什么行动，接纳该行动的缘故原由，虽然尚有轨迹。所有这些都直接耦合，并通过人类训练数据和Cosmos天生数据的重大组合举行专门训练。效果很是难以想象。

不但汽车能像你期望的那样驾驶，并且驾驶得很是自然，由于它直接从人类树模中学习。但在每一个场景中，当它遇到某个场景时，它会举行推理，告诉你它将做什么，并推理它为什么要做。这之以是云云主要，是由于驾驶的“长尾”问题。

我们不可能简朴地网络天下上每个国家、每种情形、所有生齿可能遇到的所有可能的场景。然而，每个场景若是被剖析成一系列更小的场景，很可能都是相当常见的、你能明确的。因此，这些长尾场景将被剖析成汽车知道如那里置的相当常见的情形，它只需要举行推理。

我们八年前就最先研发自动驾驶汽车了。缘故原由在于我们很早就熟悉到，深度学习和人工智能将彻底重塑整个盘算手艺栈。若是我们想要明确怎样引领自己、怎样指引行业走向这个新未来，就必需醒目构建整个手艺栈。

四、盘算跃进：Rubin平台与全栈芯片的最终重构

正如我之条件到的，AI是一个“五层蛋糕”。最底层是土地、电力和外壳。在机械人领域，最底层就是汽车自己。往上一层是芯片：GPU、网络芯片、CPU等等。再往上是基础设施层。在物理AI这个详细案例中，基础设施就是Omniverse和Cosmos。然后在上层是模子层。我适才展示的模子就属于这一层，这个模子叫做Alpamayo。今天，Alpamayo正式开源了。

我们设想有一天，蹊径上的十亿辆汽车都将实现自动驾驶。你可以选择租用别人运营的自动驾驶出租车，也可以拥有自己的车让它为你驾驶，或者选择自己驾驶。但每一辆车都将具备自动驾驶能力。每一辆车都将由AI驱动。以是在这个案例中，模子层是Alpamayo，而应用层之上就是梅赛德斯-疾驰汽车。

总而言之，这个手艺栈是英伟达首次实验构建的完整手艺栈。我们一直为此起劲，很是兴奋英伟达的首款自动驾驶汽车将于第一季度在美国上路，然后欧洲是第二季度，亚洲或许是第三、第四序度。强盛之处在于，我们将一直用Alpamayo的后续版本举行更新。

毫无疑问，在我看来，这将成为最大的机械人工业之一。它教会了我们大宗关于怎样资助天下其他地区构建机械人系统的深刻明确。通过自己构建整个基础设施，我们知道了机械人系统需要什么样的芯片。

在这个详细案例中，是下一代双Thor处置惩罚器。这些处置惩罚器专为机械人系统设计，具备最高级别的清静能力。梅赛德斯-疾驰CLA刚刚被NCAP评为天下上最清静的汽车。

据我所知，这是唯逐一个每一行代码、芯片、系统都经由清静认证的系统。整个模子系统基于此，传感器是多样且冗余的，自动驾驶汽车手艺栈也是云云。Alpamayo手艺栈是端到端训练的，拥有惊人的手艺。然而，除非无限期地驾驶，不然没人知道它是否绝对清静。

因此，我们通过另一个软件手艺栈、一个完整的自动驾驶手艺栈来为其设置防护栏。谁人完整的手艺栈被构建为完全可追溯的。我们花了约莫五年（现实上是六七年）来构建谁人第二手艺栈。这两个软件手艺栈相互映照。

然后我们使用Alpamayo举行战略和清静评估。若是是一个我不太自信的情形，清静战略评估器决议我们将退回到一个更简朴、更清静的防护栏系统，那么就回到经典的自动驾驶手艺栈。这是天下上唯一同时运行这两个自动驾驶手艺栈的汽车。所有清静系统都应该具备多样性和冗余性。

我们的愿景是，有朝一日每一辆汽车、每一辆卡车都将是自动驾驶的。我们一直在朝着谁人未来起劲。这整个手艺栈是笔直集成的。虽然，在梅赛德斯-疾驰的案例中，我们一起构建了整个手艺栈，我们将安排汽车、运营手艺栈，只要我们还保存，就会维护这个手艺栈。

然而，就像我们公司所做的其他一切一样，我们构建整个手艺栈，但整个手艺栈对生态系统开放。与我们相助构建L4级和自动驾驶出租车的生态系统正在扩展，无处不在。我完全相信，这已经是我们的一项重大营业，由于客户用它来训练、处置惩罚训练数据，以及逊们的模子。在某些案例中，一些公司用它来天生合成数据。有些公司基本上只制造汽车内部的盘算机和芯片，有些公司与我们举行全栈相助，有些则相助部分环节。

整个系统现在是开放的。这将成为第一个大规模、主流的AI物理AI市场。从非自动驾驶汽车到自动驾驶汽车的转折点，很可能就在此时最先，并在未来十年内爆发。我相当确信，天下上很大比例的汽车将是自动驾驶或高度自动驾驶的。

可是，我适才形貌的这个基本手艺（使用三台盘算机、使用合成数据天生和模拟），适用于所有形式的机械人系统�？赡苤皇且桓鍪嗯Α⒁桓龌当�，可能是移念头械人，也可能是完整的人形机械人。以是，下一个旅程将是机械人。这些机械人将会有州差别的尺寸。

这些机械人身上有微型Jetson盘算机，它们是在Omniverse内里训练出来的�；等四Ｄ馄鹘蠭saac Sim和Isaac Lab。我们有许多制作机械人的朋侪，包括New Robot、AG Bot、LG、卡特彼勒（他们有史上最大的机械人）、Serve Robot、Agility、波士顿动力、Franka以及Universal Robots等。

举例来说，Cadence将CUDA-X集成到他们所有的模拟器和求解器中。他们将使用英伟达的物理AI来举行差别的物理装置和工厂模拟。AI物理正被集成到这些系统中。以是，无论是电子设计自动化照旧系统设计自动化，以及未来的机械人系统，我们将拥有基本上与创立你们相同的手艺，现在将彻底刷新这些设计手艺栈。

在芯片设计领域，Synopsys和Cadence是完全不可或缺的。Synopsys在逻辑设计和IP领域领先，而Cadence在物理设计、结构布线、仿真和验证方面领先。Cadence在仿真和验证方面做得很是精彩。他们两家都正在进入系统设计和系统仿真的领域。以是未来，我们将在Cadence和Synopsys内部设计芯片，并在这些工具内部模拟一切。

西门子也在做同样的事情。我们将把CUDA-X物理AI、智能体AI、NeMo、Nemotron深度集成到西门子的天下中。缘故原由如下：首先，我们设计芯片，未来这一切都将由英伟达加速。我们将有智能体芯片设计师和系统设计师与我们相助，他们资助我们举行设计，就像我们今天有智能体软件工程师资助我们的软件工程师编码一样。

然后我们必需能够制造机械人。我们必需制作生产它们的工厂、设计组装它们的生产线。而这些制造工厂实质上将是巨型机械人。以是，机械人将在盘算机中被设计，在盘算机中被制造，在盘算机中被测试和评估。我们现在创立的手艺已经抵达了足够成熟和强盛的水平，可以反过来资助他们彻底刷新它们所在的行业。

放眼全球的模子名堂，毫无疑问，OpenAI是当今领先的token天生器。今天，OpenAI天生的token数目远超其他任何模子。第二大群体，可能就是开源模子了。我猜随着时间的推移，由于有云云多的公司、云云多的研究职员、云云多差别类型的领域和模态，开源模子将成为规模最大的群体。

在此历程中，离不开Rubin构架。这个平台的降生，是为了应对我们面临的一个根天性挑战：AI所需的盘算量正在飙升，对英伟达GPU的需求也在飙升。这种飙升是由于模子每年都在以10倍、一个数目级的规模增添。更不必说，o1模子的引入是AI的一个转折点。推理不再是一次性给出谜底，现在是一个思索历程。为了教会AI怎样思索，强化学习和极其大宗的盘算被引入了后训练阶段。它不再是监视式微调（也称为模拟学习或监视训练），现在有了强化学习，实质上是盘算机通过自我实验差别迭代来学习怎样执行使命。效果，用于预训练、后训练、测试时缩放的盘算量爆炸式增添。

现在，我们举行的每一次推理，都可能天生2个token而不是1个，你可以看到AI在“思索”。它思索得越久，通常能给出更好的谜底。因此，测试时缩放导致天生的token数目每年增添5倍。

与此同时，AI的竞赛正在强烈举行。每小我私家都在试图抵达下一个水平，登上新的前沿。而每当他们抵达新的前沿，上一代AI天生token的本钱就最先下降，降幅约莫是10倍。每年下降10倍这件事现实上说明晰差别的情形：它批注竞赛云云强烈，每小我私家都在起劲抵达下一个水平，并且确实有人正在抵达谁人水平。

因此，所有这一切实质上都是一个盘算问题。你盘算得越快，就能越早抵达下一个水平和前沿。所有这些事情都在同时爆发，以是我们决议，必需每年都推进盘算手艺的水平，一年都不可落伍。

我们一年半前出货GB200。现在，我们正在举行GB300的大规模生产。若是Rubin想要在今年实时推出，它现在就必需已经投产。以是今天，我可以告诉你们：Rubin已进入周全生产阶段。

我们还推出了基于Rubin架构的新一代盘算集群DGX SuperPOD，包括1152个GPU，漫衍在16个机架中，每个机架有72个Rubin GPU。

我们设计了六种差别的芯片。首先，我们公司内部有一个原则：每一代新平台不应该有凌驾一两个芯片爆发变换。但问题来了：我们知道摩尔定律已经基本放缓，因此我们每年能获得的晶体管数目，不可能跟上模子每年10倍的增添速率，不可能跟上每年天生的token数目5倍的增添，也不可能跟上令牌本钱云云激进的下降速率。

若是行业要继续前进，要想跟上这样的速率是不可能的。除非我们接纳激进的极致协同设计，基本上就是在所有芯片、整个手艺栈上同时举行立异。为此，我们决议，在这一代平台上重新设计每一个芯片。

首先是Vera CPU。在一个受功率约束的天下里，它的性能是上一代的两倍，每瓦性能是天下上其他最先进CPU的两倍。它的数据速率是猖獗的，专为处置惩罚超等盘算机而设计。Grace曾是一款精彩的CPU，而Vera则将单线程性能、内存容量和所有方面都显著提升了。这是一次重大的奔腾。

Vera CPU毗连到Rubin GPU！这是一个重大的芯片，有88个CPU焦点，这些焦点设计为支持多线程。但Vera的多线程特征设计得让176个线程中的每一个都能获得其完整的性能，以是实质上就像有176个焦点，但只有88个物理焦点。这些焦点接纳了一种叫做空间多线程的手艺设计，性能惊人。

其次是Rubin GPU。它的浮点性能是Blackwell的5倍，但晶体管数目只有Blackwell的1.6倍。这几多说明晰当今半导体物理的水平。若是我们不举行协同设计，不在整个系统的每一个芯片层面举行极致的协同设计，我们怎么可能实现这种性能水平？

第三，我们做的一件伟大的发明叫做NVFP4 Tensor Core。我们芯片中的Transformer引擎不但仅是我们放入数据通路的某种4位浮点数，它是一个完整的处置惩罚器单位，明确怎样动态、自顺应地调解其精度和结构，以处置惩罚Transformer的差别条理，从而在可以损失精度的地方实现更高的吞吐量，在需要的时间恢复到最高的可能精度。这种动态调解能力无法通过软件实现，由于它运行得太快了。以是必需在处置惩罚器内部自顺应地完成。这就是NVFP4的意义。

我们已经揭晓了关于NVFP4的论文。它所抵达的吞吐量和精度坚持水平是完全难以想象的。这是开创性的事情。未来行业希望我们将这种名堂和结构定为行业标准，我一点也不会感应意外。这完全是革命性的。这就是为什么我们能够在晶体管数目仅增添1.6倍的情形下，实现云云重大的性能奔腾。

第四，我们刷新了整个HGX机箱。这个节点以前有43条电缆，现在0条；6根水管，现在0根。以前组装这个需要两小时，现在则只要五分钟，并且100%液冷。

第五，将这些毗连到顶层机架交流机、处置惩罚工具向流量的，叫做Spectrum-X网卡。这是天下上毫无疑问最好的网卡。Mellanox的算法、芯片设计、所有互连、其上运行的所有软件栈、RDMA，绝对是无与伦比的天下最佳。现在它还具有可编程的RDMA和数据路径加速器功效，让我们的相助同伴（如AI实验室）可以建设自己的算法来决议怎样在系统中移动数据。

第六，ConnectX-9和Vera CPU是协同设计的。众所周知，ConnectX-8和Spectrum-X彻底改变了用于人工智能的以太网手艺。AI的以太网流量要麋集得多，要求更低的延迟，流量的瞬时激增是古板以太网从未见过的。以是我们建设了Spectrum-X，即AI以太网。两年前我们宣布了Spectrum-X。今天，英伟达已成为全球有史以来最大的网络公司。

它很是乐成，在种种设施中普遍使用，正在席卷整个AI领域。其性能令人难以置信，尤其是当你拥有一个200兆瓦的数据中心，或者一个千兆瓦的数据中心（价值数百亿美元，一个千兆瓦数据中心约莫500亿美元）时。若是网络性能能让你特殊获得10%的收益——以Spectrum-X为例，实现25%更高的吞吐量并不有数——仅仅是10%的提升，就价值50亿美元。即是网络本钱完全免费了。这就是为什么每小我私家都在使用Spectrum-X的缘故原由。

第七，现在，我们发明了一种新型的数据处置惩罚方法，它的处置惩罚器叫做BlueField-4，允许我们治理一个很是重大的数据中心，隔离其差别部分，以便差别用户可以使用差别部分，确保所有资源在需要时都可以被虚拟化。这样，你就能卸载许多虚拟化软件、清静软件以及南北向流量的网络软件。以是，BlueField-4是每个盘算节点的标准设置。

第八是NVLink-6交流机。每个机架交流机内里有四个芯片，每颗芯片都有历史上最快的SerDes。天下才刚刚抵达200Gb/s，而这是每秒400Gb/s的交流机。这之以是云云主要，是由于它能让每个GPU都能同时与其他所有GPU举行通讯。这个位于机架背板上的交流机，使我们能够以相当于全球互联网数据总量两倍的速率移动数据。全球互联网的横截面带宽约莫是每秒100太字节，而这个是每秒240太字节，让每个GPU都能同时与其他所有GPU协同事情。

后面是NVLink脊柱，基本上是两英里长的铜缆。铜是我们所知的最佳导体。这些都是屏障铜缆、结构铜缆，是盘算系统中有史以来使用最多的。我们的SerDes以每秒400Gb的速率驱动这些铜缆从机架顶部一直到机架底部。这内里总共有长3200米、5000根铜缆，这使NVLink脊柱成为可能。这项刷新真正开启了我们的HGX系统，我们决议建设一个行业标准系统，让整个生态系统、我们所有的供应链都能基于这些组件举行标准化。组成这些HGX系统的组件约莫有8万个。

若是我们每年都改变它，那将是重大的铺张。从富士康到广达、纬创，再到惠普、戴尔、遐想，所有主要的盘算机制造商都知道怎样构建这些系统。以是，只管性能高得多，并且很是主要的一点是，功耗是前代的两倍，Vera Rubin的功耗是Grace Blackwell的两倍——但我们仍然能将Vera Rubin塞进这个框架里，这自己就是一个事业。

进入系统的空气流量大致相同。更主要的是，进入的水温相同，45摄氏度。在45摄氏度下，数据中心不需要冷水机。我们基本上是用热水来冷却这台超等盘算机，效率高得令人难以置信。

以是，这是新的机架：晶体管数目是1.7倍，但峰值推理性能是5倍，峰值训练性能是3.5倍。它们通过顶部的Spectrum-X毗连起来。

这是天下上第一款接纳台积电新工艺制造的芯片，这个新工艺是我们配合立异的，叫做CoWoS，是一种硅光子集成工艺手艺。这使我们能够将硅光子直接集成到芯片上。这里有512个端口，每个端口200Gb/s。这就是新的以太网AI交流机——Spectrum-X以太网交流机。

几年前我们推出了Spectrum-X，以便彻底改变网络毗连的方法。以太网确实易于治理，每小我私家都有以太网手艺栈，天下上每个数据中心都知道如那里置以太网。而其时我们使用的另一种手艺叫做InfiniBand，用于超等盘算机。InfiniBand延迟很是低，但它的软件栈和整个可治理性对使用以太网的人来说很是生疏。以是我们决议首次进入以太网交流机市场。Spectrum-X一经推出就大获乐成，使我们成为天下上最大的网络公司。

五、生态闭环：从基础设施到行业渗透的全栈结构

但就像我之前说的，AI已经重塑了整个盘算手艺栈的每一层。同理可证，当AI最先在天下各地的企业安排时，它也必将重塑存储的方法。AI不使用SQL，AI使用语义信息。当AI被使用时，它会建设一种暂时的知识、暂时的影象，叫做KV缓存（键值缓存）。但实质上，KV缓存就是AI的事情内存。AI的事情内存存储在HBM内存中。

关于天生的每一个token，GPU都会读入整个模子、整个事情内存，爆发一个token，然后将这个token存回KV缓存。下一次它再做同样的事情时，它会再次读入整个内存，流经GPU，天生另一个token。它就这样重复举行。显然，若是你长时间与AI对话，这个内存——这个上下文内存——将会急剧增添。更不必说模子自己在增添，我们与AI交互的轮次在增添。我们甚至希望这个AI能陪同我们一生，记着我们与它举行过的每一次对话，对吧？我要求它研究的每一个链接……虽然，共享超等盘算机的用户数目也会一连增添。

因此，这个最初能放进HBM的上下文内存，现在已经不敷大了。去年，我们建设了Grace Blackwell的快速上下文内存，这就是为什么我们将Grace直接毗连到Hopper，直接毗连到Blackwell，以扩展上下文内存。但纵然那样也不敷。以是，下一个解决计划虽然是走网络。可是，若是有大宗AI同时在运行，谁人网络将不再足够快。

以是谜底很明确：需要一种差别的要领。因此，我们引入了BlueField-4，以便我们能够在机架内拥有一个非�？焖俚腒V缓存上下文内存存储。这是一种全新的存储系统种别。业界对此很是兴奋，由于这是险些所有今天举行大宗token天生的人的痛点。AI实验室、云效劳提供商，他们真的受困于KV缓存移动所导致的网络流量。

因此，我们建设一个新平台、一个新处置惩罚器来运行整个Dynamo KV缓存/上下文内存治理系统，并将其放在非�？拷芷渌糠值牡胤�，这完全是革命性的。

每个这样的机架后面有四个BlueField-4。每个BlueField-4后面有150太字节的上下文内存。分摊到每个GPU上，每个GPU将获得特另外16太字节内存。现在，在这个节点内部，每个GPU原本约莫有1太字节内存。现在有了这个位于统一工具向流量上、数据速率完全相同（每秒200Gb）的支持存储，横跨整个盘算节点的网络结构，你将获得特另外16太字节内存。

Vera Rubin有几个方面真的很是难以想象。第一点我适才提到过：整个系统的能效是前代的两倍。虽然功耗是前代的两倍，能耗也是两倍，但盘算能力是数倍于此。进入系统的液体温度仍然是45摄氏度。这使我们能节约全球数据中心约莫6%的电力，这是件大事。

第二件大事：整个系统现在支持神秘盘算，意味着所有数据在传输中、静态时和盘算历程中都是加密的，每个总线现在都是加密的——每个PCIe、每个NVLink、每个HBM……CPU与内存、CPU与GPU之间、GPU与GPU之间，一切现在都是加密的。以是它是神秘盘算清静的。这让公司可以定心，纵然他们的模子由别人安排，也永远不会被任何人看到。

这个特定系统不但能效极高，尚有另一个难以想象之处。由于AI事情负载的特征，它会在瞬间激增。这个叫做“全归约”的盘算层所使用的电流量、能量同时飙升，常�；嵬蝗患ぴ�25%。现在，我们在整个系统中实现了功率平滑，这样你就不需要太过设置25%的容量，或者若是你太过设置了，你也不必让那25%的能源被铺张或闲置。现在，你可以用满整个功率预算，而不需要太过设置。

最后，虽然是性能。让我们看看它的性能。这些都是构建AI超等盘算机的人会喜欢的图表。这需要……需要这里的每一个芯片、每一个系统的完全重新设计，并重写整个软件栈，才使其成为可能。

我们做的事情着实围绕三个焦点环节：

第一是逊з度。训练AI模子越快，就能越早把下一代前沿模子推向天下。这直接决议手艺领先性、上市时间和定价权。好比绿色部分代表一个10万亿参数模子（我们称之为DeepSeek++），需要基于100万亿token举行训练。在同样的训练周期（好比一个月）里，用Rubin平台只需四分之一的系统数目就能完成——在同样的时间里，你能训练更大、更先进的模子。

第二是数据中心效率。数据中心是AI的“工厂”，投资重大。一个千兆瓦级数据中心可能需要500亿美元投入，而电力是硬性约束。若是你的盘算架构每瓦性能更高，同样的电力就能爆发更多算力，直接转化为数据中心的产出和收益。布莱克韦尔平台相比前代实现了约10倍的能效提升，而鲁宾将在此基础上再次提升近10倍。

第三是推理本钱。也就是现实天生每个token的本钱。Rubin平台将这一本钱降低到原来的约十分之一。

这就是我们推动整个行业走向下一个前沿的方法——让训练更快、能效更高、推理更经济，从而支持AI一连向更大规模、更高水一生长。

如各人所见，今天的英伟达早已不但是芯片公司。我们构建的是完整的全栈AI系统——从芯片、系统、基础设施，到模子和应用。我们的使命是打造完整的手艺栈，让在座的每一位都能在此基础上，为天下创立令人赞叹的AI应用。

谢谢各人加入，祝各人在CES收获满满！

《95视频。》，《Q8X2R7L1T4J5M9B6W3》

在线亚洲国产丝袜秘书网站

“AⅴCom”

久久久Av乱

……

01月08日

“雅妃被C”勇士不敌掘金惨遭五连败