万字全文!英伟达投资交流会:机器人的ChatGPT时刻指日可待,Blackwell不只是芯片还是系统
英伟达“AI核弹”Blackwell在GTC开发者大会上“炸翻全场”,创始人黄仁勋在稍后的投资交流会上继续“大杀四方”。
黄仁勋指出,Blackwell不仅仅是一块芯片,还是一个计算机系统。Blackwell极大地提升了行业标准,即便是ASIC也难以匹敌。英伟达构建了一台完整的超级计算机,提供从芯片到系统,到互连、NVLinks、网络、软件的全套解决方案。
英伟达表示Blackwell将在今年晚些时候发货,但没有给出更具体的时间表。英伟达方面称,已与客户讨论设计需求,但上市初期可能存在供应限制。
黄仁勋预测,机器人的ChatGPT时刻指日可待,英伟达已经为机器人构建了一个全新的“操作系统”。
黄仁勋还强调,英伟达软件业务长期可能与芯片业务同样重要,旨在解决AI优化问题以及实时、超级计算问题,企业软件领域有巨大潜力。
以下是黄仁勋的精彩观点集合:
Blackwell不仅仅是系统核心的芯片,还是一个计算机系统。英伟达所做的不是制造芯片,还构建了一台完整的超级计算机,提供从芯片到系统,到互连、NVLinks、网络、软件的全套解决方案。
Blackwell极大地提升了行业标准,即便是ASIC也难以匹敌。
如果不转向加速计算,数据处理费用就会不断上升。因此,对于许多认识到这一点的公司,如阿斯利康、Visa、美国运通、万事达卡等等,我们与之合作的如此多的公司,他们已经将数据处理成本减少了95%,基本上是20倍的减少。
我们如此迅速地发展加速算法,以至于过去十年计算的边际成本已经大幅下降,使得基于生成式AI的新软件开发方式成为可能。
世界上价值数万亿美元的数据中心最终都将被加速。
如果AI能够将词语和说话方式标记化,为什么它就不能模仿我们并像ChatGPT那样进行泛化推广呢?因此,机器人的ChatGPT时刻似乎指日可待。
Omniverse不单是一个工具,也不仅是一个引擎,它是一系列的技术API,旨在为他人的工具提供强大的支持。
英伟达是一个市场制造者,而不是份额争夺者。我们所做的一切,当我们开始做一项技术的时候,它并不存在。甚至在我们开始研究3D电脑游戏时,它们并不存在。
英伟达的独特之处在于,我们相信我们是唯一一个能够创造自己市场的芯片公司,看看我们正在创造的所有市场,我们通过软件驱动需求,反过来促进芯片的发展。这种模式让英伟达不仅成为了技术的创新者,更成为了市场的引领者。
如果你的软件被加速了,我非常确定,它运行在英伟达上。如果你有加速的软件,我非常确定它运行在英伟达上。之所以这样,是因为它可能是首先在英伟达上运行的。
英伟达的软件栈关注两件事,其中一个是帮助计算机运行得更好的算法,TensorRT-LLM,另外一个是, 我们开发的软件涉及到实时方式的算法发现。
所以我们将以非常大的规模生产NIMs,我猜,这将是一个非常大的业务,这是工业革命的一部分。
记住,我们卖的是数据中心,只是把它分解了。但最终,我们卖出的是整个数据中心。
今天,全球数据中心的市场规模是1万亿美元......每年有2500亿美元的市场......我们在每年2500亿美元市场中所占的百分比可能会比过去高得多。
至于NIMs的问题,我们提供了两条路径帮助企业级客户接入AI。一条是通过我们的网站和广泛的解决方案提供商网络,使得NIMs能够被转换成适用的应用程序......另一个更为激动人心的方向是,向企业提供工具加上协作工具的解决方案,我认为这里会发生重大变革。
在未来五到八年内,我们将开始看到自家基础设施的更新周期。尽管如此,我认为目前的 更新不是最佳的资本利用方式。
Omniverse就是在物理世界中应用这一概念(物理模拟反馈)的平台,通过模拟与物理世界中各种互动的过程,来训练AI。简而言之,我们是在利用一套相同的原理和概念,推动AI技术在不同场景下的广泛应用。
特别值得一提的是Isaac Sim,它是基于Omniverse平台之上的机器人培训与模拟系统,对于任何业内人士来说都非常成功。我们已经为机器人构建了一个全新的“操作系统”。
英伟达GTC投资交流会全文翻译
黄仁勋:
早上好。很高兴见到大家。我们的活动要怎么进行?
Colette Kress:
好的。我们今天有满满的一屋子人,感谢大家参加我们长久以来首次举办的线下活动。Jensen和我在这里是为了回答你们昨天的问题。
我们将与在座的观众进行一系列的互动,你们只需举手,我们便会把麦克风递过去,Jensen和我会在这里回答你们昨天的问题。
我们认为这对你们来说是一个更好的计划。我知道你们已经提了很多问题,无论是昨晚还是今天早上,我们今天只进行一个问答环节,而非一个正式的演讲。这听起来像一个好计划。
我会让Jensen看看他是否想加一些开场白,因为我们有一个简短的介绍。好的。
黄仁勋:
是的。谢谢。首先,很高兴见到大家。昨天有很多事情我想说的是——可能我已经说过了——我想更好地说出来,但我得告诉你们,我以前从未在一个摇滚音乐会上演讲过。我不知道你们怎么样,但我从未在一个摇滚音乐会上演讲过。我模拟过它会是什么样子,但当我走上舞台时,它仍然让我窒息。无论如何,我尽力了。
接下来,在巡回演讲之后,我会做得更好,我确信。我只是需要更多的练习。但有几件事情我想告诉你们,这就是空间计算。顺便说一下,如果你有机会看到Omniverse Vision Pro,那是令人疯狂的。完全无法理解它有多真实。
好的。所以我们昨天谈到了五件事,我认为第一件确实值得一些解释。我认为第一件当然是这场新的工业革命,两个转变正在发生。
第一个是从通用计算转向加速计算。如果你只看通用计算的非凡趋势,它在过去几年中已经大幅放缓。
事实上,我们知道它已经放缓大约十年了,人们只是不想处理它十年,但你真的必须现在处理它。你可以看到人们因此延长了他们的数据中心的折旧周期。你可以购买一整套新的通用服务器,它不会显著提高你整个数据中心的吞吐量。
所以你不妨将现有设备的使用再延长一段时间。这种趋势永远不会逆转。通用计算已经到达了尽头。我们将继续需要它,还有很多软件在它上面运行,但很明显我们应该加速我们能加速的一切。
有许多不同行业的工作负载已经被加速,有些是我们非常希望进一步加速的大型工作负载。但加速计算的好处是非常非常清晰的。
数据处理是我昨天没有花时间讨论的领域之一,但我真的想讨论数据处理。英伟达有一套库,在公司做任何事情之前,你必须处理数据。当然,你必须摄取数据,数据量是非凡的,全世界的zettabytes数据量每几年就翻倍,但计算能力并不能。
所以很多公司已经处于数据处理的曲线的错误一侧,如果不转向加速计算,数据处理费用就会不断上升。因此,对于许多认识到这一点的公司,如阿斯利康、Visa、美国运通、万事达卡等等,我们与之合作的如此多的公司,他们已经将数据处理成本减少了95%,基本上是20倍的减少。
凭借自家的RAPIDS软件库套件,英伟达现在的加速能力大的惊人。(Apache )Spark的发明者(Ion Stoica),他创办了一个伟大的公司叫做Databricks,他们是云大规模数据处理公司。这些公司宣布将采用Databricks的光子引擎,这是他们公司的“皇冠上的明珠”,他们将使用英伟达 GPU对其进行加速。
所以加速的好处,当然可以为客户节省成本,但非常重要的是,这样你可以可持续地进行计算。否则,你就在曲线的错误一侧,永远不会在曲线的正确一侧。
必须发展加速计算,问题是今天还是明天?
我们如此迅速地发展加速算法,以至于过去十年计算的边际成本已经大幅下降,使得基于生成式AI的新软件开发方式成为可能。
正如你所知,生成式AI需要大量的浮点运算,大量的计算。这不是正常的计算量,而是非常大量的计算,然而,现在可以有效地完成。消费者可以使用这种令人难以置信的服务,比如ChatGPT。所以,值得注意的是,加速计算已经下降,推动了计算的边际成本如此之远,以至于使得另一种做事方式成为可能。
这种新方式是计算机用一种叫做数据的原材料编写的软件。你向它施加能量。有一种工具叫做GPU超级计算机。出来的是我们享受的标记。当你与ChatGPT交互时,你得到的全是——token。
现在,那个数据中心不是一个普通的数据中心。它不是你过去所知道的数据中心。原因是,它不是由很多人共享的。它不做很多不同的事情。它是一个全天运行的应用程序,不仅仅是为了节省钱,它的工作是为了赚钱,它是一个工厂。
这与上一次工业革命的交流发电机没有什么不同。没有什么不同,原材料进来的是水。他们向它施加能量,它变成了电。现在的原材料是数据,通过处理进行精炼,然后成为生成式AI模型。
输出的是有价值的token。这我们应用这种基本方法——一些人称之为推理,但实际是token生成——去制作软件。这就是生产软件、生产数据、与你互动,ChatGPT与你互动的方法,这就是与你合作,与你协作的方法。
你可以尽可能地扩展这个想法,从Copilots到人工智能代理,你可以尽可能地扩展这个想法,但基本上是同样的想法。它生成软件,生成token,它来自我们称之为GPU超级计算机的AI生成器。这有道理吗?
所以这两个想法,一个是我们今天使用的传统的数据中心应该被加速,它们正在被加速。它们正在被现代化,越来越多的行业一个接一个地进行。所以世界上价值数万亿美元的数据中心最终都将被加速。
问题是,这需要多少年才能完成?但因为第二种动态,它在人工智能中的好处是难以置信的,它将进一步加速这一趋势。这有道理吗?
然而,第二种数据中心,我称之为交流发电机或,AI生成器或AI工厂,这是一种全新的东西。这是一种全新的软件,生成一种全新的宝贵资源,它将由公司、行业、国家等创造,等等。这是一种新的行业。
我也谈到了我们的新平台。人们对Blackwell有很多猜测。Blackwell不仅仅是系统核心的芯片,还是一个计算机系统。英伟达所做的不是制造芯片,还构建了一台完整的超级计算机,提供从芯片到系统,到互连、NVLinks、网络、软件的全套解决方案。
你能想象有多少电子产品被带入你的家里,你将如何编程它?如果没有多年来创建的所有库,以使其有效,你就带了价值几亿美元的资产进入你的公司。
而且只要它没有被利用,你的钱都会被浪费。而且费用是难以置信的。所以我们不仅仅卖芯片,而是帮助客户启动系统并投入使用,然后与他们一直合作,使它——更好地、更好地、更好地使用,这真的很重要。
好的。这就是英伟达所做的。我们称之为Blackwell的平台有所有这些组件与之相关联,在演示的最后向你们展示了这些,让你们了解我们所构建的规模。所有这些,我们然后将其拆解。这是我们所做的非常非常困难的部分。
我们构建了这个垂直整合的东西,但我们以一种可以稍后拆解的方式构建它,让你可以购买它的部分组件,因为也许你想将它连接到x86。也许你想将它连接到PCI-Express总线接口。
也许你想将它连接到一堆光学元件,也许你想要非常大的NVLink域,也许你想要更小的NVLink域,也许你想使用Arm,等等。这能行得通吗?也许你想使用以太网,以太网对AI来说并不好。不管任何人怎么说,事实就是如此。
事实就是事实。以太网对AI来说并不友好,这是有道理的。但未来可以让以太网对AI变得友好。这就是Ultra Ethernet(超以太网)。大约三四年内,Ultra Ethernet将会到来,它对AI会更友好。但在那之前,它对AI来说并不好。它是一个好网络,但对AI来说并不好。所以我们扩展了以太网,我们给它增加了一些东西,就是Spectrum-X,它基本上做了自适应路由、拥塞控制以及噪声隔离。
记住,当你有个健谈的邻居时,它会占用网络流量。而AI,AI并不关心平均吞吐量。AI并不关心网络的平均吞吐量,这就是以太网的设计目的,最大平均吞吐量。AI只关心最后一个学生什么时候交上他们的部分作业?它关注的是最后一个人。这是一个根本不同的设计点。如果你剔除最优秀和最差的学生,你会得出不同的架构。这有道理吗?
好的。因为AI有所有的聚集,只要在算法中查找,变换器算法,专家混合算法,你会看到所有的信息。所有这些GPU都必须相互通信,最后一个GPU提交答案会拖累所有人。这就是它的工作原理。所以这就是为什么网络有如此大的影响。
网络能覆盖所有东西吗?能,但这会不会损失10%、甚至20%的利用率?是的。如果计算机是1万美元,10%到20%的利用率算不了什么。但如果计算机是20亿美元呢?这是整个网络的费用,这就是超级计算机的建造成本。
所以无论如何,我展示了所有这些不同组件的例子,我们的公司创建了一个平台和所有相关的软件,所有必要的电子产品,然后我们与公司和客户合作,将它们整合到他们的数据中心,因为他们的安全可能不同,也许他们的热管理不同,也许他们的管理平面不同,也许他们只想用它来做一件事,AI,也许他们想租出去让很多人用它来做不同的AI。
用例如此广泛。也许他们想建立一个本地平台,他们想在它上面运行VMware。也许有人只想运行Kubernetes,有人想运行Slurm。好吧,我可以列出所有不同种类的环境,这完全是令人震惊的。
我们考虑了所有这些因素,在相当长的一段时间里,我们现在知道如何为每一个人服务。结果,我们可以规模化地构建超级计算机。但基本上英伟达所做的是构建数据中心。好的。我们将其分解成小部分,作为组件出售。人们因此认为,我们是一家芯片公司。我们做的第三件事是NIMs,一个创新软件。
大型语言模型是一个奇迹,ChatGPT是一个奇迹,它不仅在其能力方面是一个奇迹,能够以非常高的响应率进行互动,它背后的团队也是一个奇迹。这是一个世界级的计算机科学组织,而非一个普通的计算机科学组织。
OpenAI团队正在从事这项工作,他们是世界级的,是世界上最好的团队之一。好吧,为了每个公司都能够构建自己的AI模型,运营自己的AI,部署自己的AI,跨多个云运行它,必须有人为他们去做计算机科学。所以,我们决定为每个单一模型,每个单一公司,每个单一配置做这件事,我们决定创建工具、工具包和运营平台,我们将第一次打包大型语言模型。
你可以购买它,来我们网站,下载它,就可以运行它。所有这些模型都是免费的,但有运行成本,当你在企业中部署它时,运行成本是每个GPU每年4500美元。
好的。所以每次使用的成本非常低,非常非常便宜,但好处是非常大的。我们称之为NIMs(英伟达推理微服务)。NIMs有很多种,比如支持视觉识别、语音识别、文本识别和面部识别。你将拥有机器人关节,你将拥有各种不同类型的NIMs。
使用这些NIMs的方式是,从我们的网站下载它,根据自身需要微调。给它举例即可。
你说“那个问题的回答不是完全正确的,在另一家公司可能是对的,但在我们这里是不对的。所以我会给你一些例子。”正是我们希望它变成的样子。你向它展示你的工作产品。这就是好的答案。
我们的系统帮助你策划这个过程,标记所有与AI处理相关的数据,所有与数据处理相关的,微调,评估,设置边界,这将使你的AI模型更加有效、更加具有针对性。
这所以让它更具针对性,是因为,如果你是一家零售公司,你希望你的AI不要随便谈论一些随机的东西。所以无论问题是什么,它都会回到正题。设置边界的系统是另一个AI。所以,我们有所有这些不同的AI帮助你定制我们的NIMs,你可以创建各种不同的NIMs。
我们为其中许多提供了框架,其中一个非常重要的是理解专有数据,因为每个公司都有专有数据。我们创建了一个叫做检索器的微服务,它是最先进的,它帮助你把你的数据库,无论是结构化的还是非结构化的图像,或图表或图表或无论是什么,我们都帮助你嵌入。
我们帮助你从这些数据中提取意义。然后我们拿到——它叫做语义,那个语义被嵌入到一个向量中,那个向量现在被索引到一个新的数据库中,叫做向量数据库,好吗。然后那个向量数据库,之后你可以和它交谈。你说:“嘿,我有多少哺乳动物,例如”。它进去说:“嘿,看那个。你有一只猫,你有一只狗,你有一只长颈鹿,这就是你库存里的东西,诸如此类”。
所有这些都叫做NeMo,我们把一个标准的英伟达基础设施DGX Cloud上传到所有的云中,比如,AWS中有DGX Cloud, Azure中有DGX Cloud, GCP和OCI也有。
所以我们与世界上的公司合作,特别是企业IT公司,我们与他们一起创造了这些伟大的AI,但当他们完成时,他们可以在DGX Cloud中运行,这意味着我们有效地把客户带到了世界上的云中。
像我们这样的平台公司,将客户带给系统制造商和服务提供商,就像我们把客户带给惠普和戴尔和IBM和联想等等,Supermicro和CoreWeave等等。
如果你是一家平台公司,你就会为生态系统中的每个人创造机会。所以,DGX Cloud使我们将所有这些企业应用程序带给服务提供商。我们与戴尔有很好的合作伙伴关系,我们昨天宣布,惠普和其他公司可以在他们的系统中使用这些NIMs。
然后我谈到了AI的下一波,这实际上是关于工业AI。以美元计,世界上最大的行业是重工业,重工业从未真正从IT中受益。他们没有从芯片设计和数字化中受益。
AI芯片行业已经完全数字化,我们的技术进步是惊人的。我们称之为芯片设计,而不是芯片发现。为什么他们称之为药物发现,就像明天可能与昨天不同?生物学如此复杂,变化如此之多,而且纵向影响如此之大,因为,正如你所知,生命以与晶体管不同的速度进化。所以因果关系更难监控,因为它发生在大规模的系统和大规模的时间上。这些都是非常复杂的问题。
工业物理学非常相似。所以我们终于有能力使用大型语言模型,同样的技术。如果我们可以将蛋白质标记化(Tokenize),如果我们可以将单词标记化,将语音标记化,将图像标记化,这与语音没有什么不同,对吧?
我们可以将所有这些不同的东西标记化。我们可以将物理标记化,然后我们可以理解它的意义,就像我们理解单词的意义一样。
如果我们能理解它的意义,并且我们可以将它与其他模态连接起来,那么我们就可以发展生成式AI。所以我很快就解释了,12年前,我们的公司在ImageNet上看到了这一点。真正的突破实际上是12年前。
但我们实际上在看什么?ChatGPT每个人都应该觉得有趣,但我们在看什么?我们看到的是一款能模仿人类的计算机软件。它通过分析我们的语言来模仿我们语言的产出。
那么问题来了,如果AI能够将词语和说话方式标记化,为什么它就不能模仿我们并像ChatGPT那样进行泛化推广呢?因此,机器人的ChatGPT时刻似乎指日可待。我们希望每个人都能拥抱这一点。
正因如此,我们开发了一种操作系统,促使AI能在一个基于物理规律的世界里进行练习,这就是我们所称的“Omniverse”。但要记住,Omniverse不单是一个工具,也不仅是一个引擎,它是一系列的技术API,旨在为他人的工具提供强大的支持。关于这一点,我对与达索的合作感到十分激动。他们正在将自己的3DEXCITE产品通过Omniverse API进行升级。同时,微软也将其Power BI产品与之连接。
Rockwell已经将Omniverse连接到他们的工具,用于工业自动化,西门子也已经连接。所以这是一堆基于物理的API,它产生图像或关节动作,并连接了一堆不同的环境。所以这些API旨在增强第三方工具。我非常高兴地看到它的普及,特别是在工业自动化方面。
所以,这就是我们做的五件事。
对不起,我超时了,但让我非常快地进行下一步。看这个图表,它基本上传达了几件事情。顶端是开发者。英伟达是一个市场制造者,而不是份额争夺者。我们所做的一切,当我们开始做一项技术的时候,它并不存在。甚至在我们开始研究3D电脑游戏时,它们并不存在。
所以我们必须去创造必要的算法,实时光线追踪技术直到我们创造它之前都不存在。所以所有这些不同的能力在我们创造它之前都不存在。一旦我们创造了它,就没有可以应用的程序。所以我们必须去培养开发者,与开发者合作,将我们刚刚创造的技术整合进去,以便应用程序可以从中受益。
我们从零开始创造了Omniverse,没有从任何人那里夺走市场份额。而现在,我们需要像达索、Ansys、Cadence、Rockwell、西门子这样的开发者共同推进,使其发挥更大的作用。非常自豪地说,
Omniverse的云API形式,使得其更为易用,无论是通过SDK还是API,我们都为开发者提供了便利。我们将Omniverse托管在了Azure云上,这不仅为客户创造了价值,也为Azure带来了机会。
所以Azure是基础,即系统提供商。回到过去,系统提供商曾经是OEMs,他们现在仍然是,但系统提供商在底部,开发者在顶部。我们在中间发明技术。我们发明的技术恰好是芯片最后的,软件优先的。没有开发者,就没有芯片需求
英伟达首先是一家算法公司,我们创建这些SDK,它们被称为“特定领域的库”。SQL(结构化查询语言)就是一个SDK,而英伟达的cuDNN(深度学习GPU加速库)可能是继SQL之后世界上最成功的特定领域库。
没有深度神经网络(DNN),其他人都无法使用CUDA。因此,DNN(深度神经网络)被发明了。
我们有数百个特定领域的库,Omniverse也是一个例子。这些特定领域的库与软件开发者相结合,当应用程序被创建并且有需求时,就会为底层基础设施创造机会。
所以这个经验是,没有软件的创新,就不可能有新的市场诞生。这一理念从未改变。你可以制造芯片使软件运行得更好,但你不能在没有软件的情况下创造一个新市场。英伟达的独特之处在于,我们相信我们是唯一一个能够创造自己市场的芯片公司,看看我们正在创造的所有市场,我们通过软件驱动需求,反过来促进芯片的发展。这种模式让英伟达不仅成为了技术的创新者,更成为了市场的引领者。
这就是为什么我们总是谈论未来。这些是我们正在努力的事情。没有什么比与整个行业合作创造计算机辅助药物设计行业更让我高兴的了,不是药物发现行业,而是药物设计行业。我们必须像进行芯片设计那样进行药物设计。
所以开发者在顶部,我们的基础设施在底部。开发者想要的是简单的东西,他们想确保你的技术性能良好,但他们必须解决他们无法以其他方式解决的问题。
但对开发者来说最重要的是安装基础,因为他们不卖硬件,如果没有人有硬件来运行它,他们的软件就不会被使用。
所以开发者想要的是安装基础,这一道理从刚开始就没有改变,现在也没有改变。如果你开发人工智能软件,你想部署它,让人们可以使用它,你需要安装基础。
第二,系统公司想要“杀手级应用”。这就是“杀手级应用”这个词存在的原因,因为哪里有杀手级应用,哪里就有客户需求,哪里有客户需求,你就可以销售硬件。
所以,事实证明这个循环非常难以启动。你真的能构建多少加速计算平台?英伟达能为生成式AI构建一个加速计算平台,以及在工业机器人,量子,6G,天气预报等领域推动这些技术的发展。
英伟达构建了通用加速计算平台,涵盖流体、粒子、生物学、机器人学、A1、SOL等不同应用领域,已成功驱动绝大多数加速软件。
你需要一个足够通用的加速计算平台来运行不同种类的软件,英伟达花了很长时间,但基本上运行了一切。如果你的软件被加速了,我非常确定,它运行在英伟达上。如果你有加速的软件,我非常确定它运行在英伟达上。之所以这样,是因为它可能是首先在英伟达上运行的。
这就是英伟达的架构。每当我做主题演讲时,我倾向于覆盖所有领域,有些新的东西,例如Blackwell。我谈到了有很多好东西,你真的必须去看看我们的1000 tox。6G将如何发生?当然是AI。
为什么MIMO神经接收机如此预装,为什么算法在站点之前。我们应该有特定于站点的MIMO,就像机器人MIMO一样。所以,强化学习和与环境的交易,所以6G当然将是软件定义的,当然是AI。
当然,我们还是量子计算行业的优秀合作伙伴。如何运行一个量子计算机?如何构建世界上最快的计算机?如何激励量子计算机?如何模拟量子计算机?量子计算机的编程模型是什么?
编程一个量子计算机远远不够,需要在经典计算的基础上构建。所以量子将成为某种量子加速器。
所以,谁应该去做那件事,我们已经做了,所以我们与整个行业在这方面合作。所以从整体上看,一些非常非常伟大的事情。我希望我能讲全,我们可以有一个完整的主题演讲,只关于所有这些事情,但覆盖了整个领域,那是昨天的事情。
问答环节
Colette Kress:
好的。我们让工作人员四处走动,看看我们是否能得到几个有价值的问题。
黄仁勋,那是我确定的第一个问题。如果你能在10分钟内做主题演讲,为什么昨天不花10分钟?好问题。
Ben Reitzes:
我是来自Melius Research的Ben Reitzes,很高兴见到你。
黄仁勋:
谢谢你,Ben。
Ben Reitzes:
这对我们所有人来说都是一个巨大的刺激。所以我想更多地了解你对软件的愿景。你正在创造一个行业,你有全面的解决方案。很明显,英伟达的软件使英伟达的芯片运行得更好。
你认为从长远来看,英伟达的软件业务能否像芯片业务一样大?如果我们展望10年,会是什么样子,考虑到英伟达在软件和AI芯片行业的势头?似乎会变得更多一些。
黄仁勋:
谢谢你,Ben。首先,感谢你们所有人的到来。这是一个非常不同类型的活动,你知道。大多数演讲都是关于软件的,他们都是计算机科学家,他们在谈论算法。英伟达的软件栈关注两件事,其中一个帮助计算机运行得更好的算法,TensorRT-LLM。
这是一个极其复杂的算法,它以大多数编译器从未需要的方式探索计算空间。TensorRT-LLM甚至不能在没有超级计算机的情况下构建。很可能未来的TensorRT,未来的TensorRT-LLM,实际上必须一直在超级计算机上运行,以便为每个人的计算机优化AI,所以这个优化问题非常非常复杂。
另外一个是, 我们开发的软件涉及到实时方式的算法发现。例如,Navier-Stokes,然而——薛定谔方程,然而,也许在超级计算或加速计算或实时光线追踪的方式中表达它是一个很好的例子。实时光线追踪从未被发现。这有道理吗?好的。所以,正如你所知,Navier-Stokes(纳维-斯托克斯方程)是一个极其复杂的算法。
能够以实时方式重构它也是非常复杂的,需要大量的发明,我们公司的一些计算机科学家获得了奥斯卡奖,他们在如此大的规模上解决了这些问题,然后电影公司用它来拍电影。他们的发明,他们的算法,他们的数据结构是计算机科学本身。好的。所以我们将致力于这两层。
然后,当你打包它——在旧时代,这对娱乐,媒体娱乐,科学等等是有用的。但今天,因为AI已经将这项技术带到了应用的边缘,模拟分子曾经是你在大学里研究的事情。现在你可以在工作中做到这一点。
所以当我们现在为企业提供所有这些算法时,它变成了企业软件。前所未有的企业软件。我们将它们放在NIMs中,这些包。我们将大量生产这些东西,并将支持它们,维护它们,保持它们的性能,以便支持客户使用它。
所以我们将以非常大的规模生产NIMs,我猜,这将是一个非常大的业务,这是工业革命的一部分。如果你看到了,今天的IT行业是这样的,SAP和伟大的公司,ServiceNow和Adobe和Autodesk和Canes,那一层,那是今天的IT行业。那不是我们要玩的地方。
我们要玩的是上面的一层。上面的那一层是一堆AI和这些算法,真的,我们是正确的公司去建造它们。所以我们会和他们一起建造一些,我们会自己建造一些,但我们会打包它们,并以企业规模部署它们。好的。所以我很感激你提出这个问题。
Vivek Arya:
我叫Vivek Arya,来自美银证券。谢谢你,Jensen。谢谢你的演讲,Colette。
所以Jensen,我的问题可能是更接近中短期的,那就是可寻市场的规模,因为你的收入增长得如此之快。大型客户占英伟达总收入的占比是30%,40%,50%,有时甚至更多,但当我看到你们从生成式AI中产生多少收入时,它们不到他们销售额的10%。所以这种差距可以持续多久?
更重要的是,我们是否已经到了他们可以花多少钱在你们的产品上的中点?所以我认为你过去给我们提供了一个万亿美元的市场,将达到2万亿美元。你能否预测市场有多大?以及我们在这个采用曲线上的位置,基于它在近中期可以变现多少?
黄仁勋:
好的。我先给你一个非常简洁的答案,然后我会继续详细解释。这取决于市场的大小和我们卖的产品。记住,我们卖的是数据中心,只是把它分解了。但最终,我们卖出的是整个数据中心。注意你在主题演讲中看到的最后一张图片,它提醒我们实际上卖的是什么。我们展示了一堆芯片。
但记住,我们并不真的卖那些芯片。芯片本身不能工作,需要构建成一个系统才能运行。最重要的是,系统软件和生态系统架构非常复杂。因此,英伟达为AI构建了整个数据中心,我们只是将其分解成各个部分。这些部分适合你的公司。所以,这是第一点。我们卖的是什么?机会在哪里?
今天,全球数据中心的市场规模是1万亿美元。对,它是1万亿美元的基础设施,每年有2500亿美元的市场。我们是按部分出售整个数据中心的。因此,我们在每年2500亿美元市场中所占的百分比可能比单纯卖芯片的公司要高得多。它可能是GPU芯片、CPU芯片或网络芯片。那个机会以前并没有改变。但英伟达制造的是数据中心规模的加速计算平台。好的。所以我们在每年2500亿美元市场中所占的百分比可能会比过去高得多。
第二个问题,它的可持续性如何?有两个答案。你选择英伟达的一个原因是AI。如果你只是制造TPUs,如果你的GPU只用于一个应用程序,那么你必须完全依赖于AI。今天你可以从AI中变现多少?
然而,如果你的价值主张是AI代币生成,但那是基于AI训练模型,非常重要的是降低计算成本,加速计算,可持续计算,节能计算,这是英伟达的核心业务。这只是我们做得非常好的地方,以至于创造了生成式AI。
现在人们忘记了,这有点像我们的第一个应用程序是计算机图形学。第一个应用程序是游戏。我们做得如此出色,如此充满激情,人们忘记了我们是加速计算公司。
他们认为,嘿,你是一个游戏公司,一代年轻人长大了。一旦他们学会了,他们使用RIVA 128,他们带着GeForce上了大学,然后当他们最终成为成年人时,他们认为你是一个游戏公司。我们在加速计算、AI方面做得如此之好,以至于人们认为那就是我们所做的一切。
但加速计算是一万亿美元——每年2500亿美元——的市场。不管有没有AI,都应该有2500亿美元用于加速计算,只是为了可持续计算,只是为了处理SQL,正如你们所知,SQL是世界上最大的计算消耗之一。
然后在那之上是生成式AI。我认为生成式AI会有多可持续?你知道我对这个问题的看法。我认为我们将生成单词、图像、视频、蛋白质、化学品、动力学行动、操纵。我们将生成预测、账单、材料清单,等等等等。
Stacy Rasgon:
嗨,Jensen,Colette。谢谢。我是伯恩斯坦研究的Stacy Rasgon。我想询问有关CPU和GPU之间互动的问题。你昨天展示的大多数基准测试,都是关于Grace Blackwell系统的,它有两颗GPU和一颗CPU,相对于Grace Hopper,每颗GPU的CPU比例翻了一番。
你没有谈论太多与独立GPU相关的基准测试。这是一个转变吗?你们是不是在寻找未来AI服务器中更多的CPU内容?然后我如何看待你正在开发的ARM CPU与x86之间的互动,似乎你们未来对x86方面的重视程度有所降低。
黄仁勋
是的,Stacy。感谢你的问题。实际上,它们两者都没有任何问题。我认为x86和ARM对于数据中心来说都是完全可以接受的。Grace之所以建成这样,有其原因,ARM的好处是我们可以围绕CPU塑造英伟达系统架构。这样我们就可以在GPU和CPU之间创建这种东西,称为芯片到芯片的NVLink,连接GPU和CPU。我们可以使两侧保持一致,这意味着,当CPU触摸一个寄存器时,它会使GPU侧的相同寄存器失效。
因此,两侧可以协同工作一个变量。今天你不能在x86和外围设备之间做到这一点,所以我们解决了一些我们无法解决的问题。因此,Grace Hopper非常适合CAE应用程序,这是多物理的。有些在CPU上运行,有些在GPU上运行。它非常适合CPU和GPU的不同组合。
所以我们可以为每个GPU或两个GPU关联非常大的内存。因此,例如,在Grace Hopper上进行数据处理非常非常适合。好的。所以这并不是因为CPU本身,而是因为我们无法采用系统。其次,为什么我展示了一张图表,在那张图表中,我展示了Hopper与Blackwell在x86系统B100、B200上的对比,还有GB200,即Grace Blackwell。
在那种情况下,Blackwell的好处并不是因为CPU更好。而是因为在Grace Blackwell的支持下,我们能够创建一个更大的NVLink域。这个更大的NVLink域对于下一代AI来说真的非常重要。未来三年,未来三到五年,就目前我们所能看到的范围而言。如果你真的想要一个好的推理性能,你将需要NVLink。那是我试图传达的信息。我们将更多地谈论这个问题。
现在非常清楚,这些大型语言模型,它们永远不会适合一个GPU。好的。无论如何,这都不是重点。为了让你足够响应并且吞吐量高以保持成本下降,你需要比你甚至适合的GPU多得多。为了让你有很多GPU协同工作而没有开销,你需要NVLink。NVLinks的好处是推理,总有人认为NVLinks的好处在于训练。
NVLinks的好处和推理是图表之外的。那是5倍和30倍之间的差异,那是另外6倍,都是NVLink。新的Tensor Core中的NVLinks。是的,好的。所以Grace让我们能够构建一个系统,就像我们需要的那样,而且用x86更难做到。这就是全部。但我们支持两者。我们将有两个版本的两者。
而在B100的情况下,它只是滑入H100和H200所在的位置。所以从Hopper过渡到Blackwell的过渡是即时的。一旦它可用,你只需滑入它,然后你可以弄清楚下一个数据中心要做什么。好的。所以我们得到了架构极限的极高性能的好处,以及轻松过渡的好处。
Matt Ramsay:
大家好。我是TD Cowen的Matt Ramsay。
Jensen,Colette。谢谢你们,早上好,感谢你们的参与。我想请Jensen评论一下我最近一直在思考的几个话题。其中一个是你们昨天讨论过的NIMs,我觉得它是一个针对特定垂直领域的加速器,能帮助客户更快投入到AI生态中。能否简要介绍一下贵公司如何在广泛的企业级市场采取行动,以及客户怎样加入到AI中?
第二个问题是关于电力。近期我们团队对此投入了不少精力。我在思考是否需要加大在这方面的投入。昨天提到的一些系统耗能高达100千瓦或以上,这种计算规模的实现离不开你们的整合工作。同时,我们也关注宏观层面的电力生成和高密度下的电力输送问题。我想听听贵公司是如何与行业合作,供应这些系统所需电力的。
黄仁勋:
好的,我先从第二个问题开始回答。电力供应,显然,100千瓦对于计算机系统来说是相当大的电量,但电力本身是一种商品,你们都知道这一点,对吧。世界需要的电力远不止120千瓦。
因此,电力的绝对量不是问题,电力的传输也不是问题,电力传输的物理特性也不是问题,冷却120千瓦的热量也不是问题。我们都能同意这一点,对吧。
所以,这些都不是物理问题,也不需要发明什么,所有这些都需要供应链规划。那么,供应链规划有多重要呢?非常重要。我的意思是,我们非常认真地考虑供应链规划,并且一直在这样做,我们与之有很好的合作伙伴关系。我们非常重视并深入参与其中,与Vertiv等合作伙伴联手解决冷却问题,也与西门子、罗克韦尔、施耐德等建立了深入的合作关系。
通过这些合作,我们优化了自己的供应链管理,而我们自建数据中心的经验也为我们提供了宝贵的实践知识。我们从2016年的第一台超级计算机DGX-1起,每年都在建设新的超级计算机,今年我们还要建造几台,这些经验帮助我们更好地理解和选择合作伙伴。
至于NIMs的问题,我们提供了两条路径帮助企业级客户接入AI。一条是通过我们的网站和广泛的解决方案提供商网络,使得NIMs能够被转换成适用的应用程序。这样的市场推广包括大型GSIs和规模较小、专业化程度较高的GSIs等等,我们在这一领域拥有很多合作伙伴。
另一个更为激动人心的方向是,向企业提供工具加上协作工具的解决方案,我认为这里会发生重大变革。比如,世界上最普遍的工具微软Office现在有了协作工具。Synopsys、Cadence、Ansys,所有这些未来都会有协作工具。
我们也在为自己和合作伙伴的工具开发智能协同助手,例如我们为英伟达工具开发的ChipNeMo。
ChipNeMo非常智能,能够了解英伟达的行话,关于英伟达芯片的对话,并且知道如何编程英伟达的程序。因此,我们聘请的每一位工程师,我们要给向他们介绍的第一件事就是ChipNeMo,然后才是洗手间、餐厅……
这些协同助手理解特定的语言和程序,能够极大提高工程师的工作效率。
我们正在为所有工具构建协作工具,大多数公司可能做不到这一点。我们可以教GSIs这样做,但在Cadence等这些工具领域,他们将自己构建自己的协作工具。他们会把它们当作工程师出租。我认为他们坐拥金矿。
未来,不仅是英伟达,其他企业如SAP也将开发自己的专业化协同助手。在SAP的案例中,ABAP是一种只有SAP爱好者才会喜欢的语言,正如你们所知,ABAP对世界的ERP系统来说是非常重要的语言。每家公司都在使用ABAP。因此,现在他们必须创建一个Chat ABAP,就像我们为Omniverse创造的ChatUSD一样,西门子、罗克韦尔等也会这样做。
并且,我认为,这是进入企业的另一种方式,就像ServiceNow一样,他们正在构建很多协作工具。我认为,这将是他们发掘潜在价值、开辟AI劳动力行业新天地的重要手段。对此,我感到异常兴奋。
每次我见到他们,我都会告诉他们,无论你坐在哪里,你都坐在一个金矿上,你坐在一个金矿上。我的意思是我为他们感到非常兴奋。
Tim Arcuri:
Jensen,你好。我是瑞银的Tim Arcuri。我也有一个关于TAM的问题,它更多地涉及到新兴市场和成熟市场之间的比较,因为之前,H100基本都是针对新市场的。我们并没有看到有人拿掉A100换上H100的情况。但对于B100,是否有可能首次看到在成熟市场中进行升级,即用B100替换掉A100?
如果总市场从1万亿美元扩大到2万亿美元,我们将面临一个四年的更换周期。这意味着约有5000亿美元的增长将来自于对现有基础设施的升级。不知您能否就此发表看法。
黄仁勋:
这是个很好的问题。目前,我们主要是在升级数据中心中最慢的计算机,即CPU。这是一个很自然的过程。接下来,我们会逐步转向更新Amperes,然后是Hoppers。
我相信,在未来五到八年内,我们将开始看到自家基础设施的更新周期。尽管如此,我认为目前的 更新不是最佳的资本利用方式。毕竟,您也知道Amperes的效率非常高。
Brett Simpson:
我是Arete Research的Brett Simpson,非常感谢您在过去几天举办了这一精彩的活动。我想就推理进行提问。B100在推理性能方面与H100相比表现出色。
您认为新平台在拥有成本方面会给客户带来怎样的信息?您觉得相比ASIC或市场上的其他推理平台,B100将会如何表现?谢谢。
黄仁勋:
我认为,大型语言模型有了新的变压器引擎和NVLink,因此很难、很难、很难被超越。这一点得益于问题的高维度。我之前提到的TensorRT-LLM优化编译器及其底层可编程的Tensor Core架构,以及NVLink技术,使得多个GPU能以极低的额外成本联合工作。借此,64个GPU的效能就像一个单独的GPU一样,这是非常惊人的。
因此,在不涉及NVLink额外成本的情况下,通过网络(如以太网)连接64个GPU是行不通的,这实质上是一种资源浪费。NVLink的引入允许所有GPU无缝协作,一次性生成一个token,这是一个复杂的并行计算挑战。Blackwell极大地提升了行业标准,即便是ASIC也难以匹敌。
C.J. Muse
您好,Jensen和Colette,我是Cantor的C.J. Muse。感谢您的邀请,很高兴见到你们。我对您的定价策略很好奇。历史上,您提到“购买越多,节省越多”的策略。
但现在看来,Blackwell的定价相比其提供的效率似乎有一定的优惠。我想问的是,在考虑到可能采取的“剃刀和剃刀片”销售模式(销售软件和整套系统)情况下,您如何调整定价策略?我们应该如何看待这种情况下的正常化利润率?
黄仁勋:
我们的定价始终是基于总体拥有成本(TCO)。感谢C.J.的提问。我们的出发点始终是TCO。然而,我们还希望让大多数主要用户能够承受得起。如果客户群特定于某个领域,如分子动力学,并且只针对一个应用,我们会相应调整TCO。比如,对于医学影像系统,TCO可能会非常高,但市场规模较小。
随着市场的扩大,我们希望让更多市场能够承受得起Blackwell。这实际上是一个自我平衡的问题。随着我们为更大的市场解决TCO问题,一些客户可能会从中获得更高价值,但这是可接受的。我们力求简化业务,提供一个基本产品支撑广大市场。如果市场日后发生分化,我们可以进行市场细分,但目前尚未到那个阶段。因此,我们有机会为大众提供非常高的价值,为所有人提供极佳的价值,这是我们的目标。
Joseph Moore:
大家好,我是来自摩根士丹利的Joseph Moore。我注意到你们介绍的GB200系列产品规格非常引人注目,您提到这得益于更大的NVLink域。
能否详细对比下GB200系列与GH200系列的不同之处?以及为何您认为GB200会成为一款市场表现更加突出的产品?
黄仁勋:
非常好的问题。简单来说,GH200系列(包括100、200、Grace Hopper版本)在大规模普及之前,更高级的Grace Blackwell系列就已经发布。
而且,Grace Hopper系列相较于Hopper系列有额外的负担。Hopper系列紧接着Ampere系列之后发展,从A100转到H100,再到B100,依此类推。
因此,这一产品线已经相当成熟,而且我们将继续沿这个方向发展。针对这些产品,我们已经开发了适配的软件,大家也已经熟悉它的操作方式等。
Grace Hopper系列有些不同,解决了我们之前没有很好覆盖的新应用场景,比如需要CPU和GPU紧密合作处理的多物理问题,处理大型数据集等挑战。Grace Hopper系列在这些方面表现出色。我们开始开发针对这一系列的软件。
我现在建议大多数客户直接着眼于Grace Blackwell系列。因此,无论他们现在如何使用Grace Hopper系列,都将与Grace Blackwell系列完全兼容。这是非常棒的一点。即便他们现在选择了Grace Hopper系列,那也是非常好的选择,但我建议他们投入更多精力到Grace Blackwell系列中,因为它的性能更优。
未知分析师:
Jensen,Collete,感谢你们今天的分享。我的问题关于机器人技术。似乎每次我们参加GTC时,你们总在最后揭露一些惊喜。几年后,我们惊讶地发现你们已经在这个话题上讨论了很长时间。
我了解到,你们提到机器人技术可能正在接近其ChatGPT式的重要时刻。您能否解释这意味着什么,以及您是如何看到机器人技术正在逐渐融入我们的日常生活?
黄仁勋:
首先,感谢你的提问。两年前,我展示了Earth-2项目。两年后,我们研发出一个新算法,能够实现3公里分辨率的区域天气预测,所需的超级计算机是当前用于天气模拟的25000倍。这样的分辨率可以让我们更精确地预测天气。
而且,天气预测需要考虑大量变量,因为我们需要模拟不同参数的分布以预测天气模式。但由于所需的计算资源非常庞大,常规方法很难实现多次模拟。我们通过训练AI理解物理法则来解决这个问题,从而能够在全世界范围内帮助人们进行区域性天气预测。借助AI,我们基本上进行了10000次天气模拟。
两年前我展示了这个AI模型,今天我们连接到了世界上最值得信赖的天气数据来源,即天气公司。因此,我们将帮助世界各地的人们进行区域天气预测。对航运公司、保险公司或者那些经常面临台风和飓风威胁的地区而言,这项技术能够带来很大的帮助。好吧,实际上我们在几年前就迎来了ChatGPT时刻。
退一步来说,ChatGPT真的很不可思议。它通过学习大量人类示例并能够理解和生成符合上下文的内容,它现在可以生成原始的token,通过所谓的标记化学习特定动作的含义,理解和模拟动作。
ChatGPT的伟大之处在于通过增强学习和人类反馈来不断完。它会尝试去做一些事情。你说这不如这个好。它会尝试去做别的事情。你说:不,这不如这个好。人类反馈,增强学习,它就会接受那种增强并提高自身。
那么Omniverse的用途是什么呢?Omniverse就是在物理世界中应用这一概念(物理模拟反馈)的平台,通过模拟与物理世界中各种互动的过程,来训练AI。你们跟上我的思路了吗,简而言之,我们是在利用一套相同的原理和概念,推动AI技术在不同场景下的广泛应用。
特别值得一提的是Isaac Sim,它是基于Omniverse平台之上的机器人培训与模拟系统,对于任何业内人士来说都非常成功。我们已经为机器人构建了一个全新的“操作系统”。
Atif Malik:
您好,我是花旗集团的Atif Malik。我想问一下,您提到Blackwell平台今年晚些时候将会正式发货,您能否具体说明是今年哪个季度?一季度还是三季度?
另外,就新产品的供应链准备情况,特别是B200 CoWoS-L的包装,您们是如何安排的?
Colette Kress:
先回答第二个问题。关于供应链准备的问题,我们已经为这些新产品的上市做了一年多的准备工作。我们非常荣幸能与我们的合作伙伴共同开发供应链,不断提高其韧性和抗风险能力。您是对的,我们正在探索CoWoS、新的存储技术以及我们所制造的大量复杂组件。这项工作正在稳步推进,会在产品投放市场时准备妥当。
此外,我们也与合作伙伴合作,确保液态冷却系统和数据中心的构建准备就绪。这对于我们计划和整合所有Blackwell配置至关重要。至于产品上市时间,我们希望在今年晚些时候能看到产品上市。
我们已与多家客户进行了交流,讨论了设计和规格,他们的需求反馈也对我们的供应链准备和生产计划大有帮助。尽管一开始可能会有一些供应限制,但我们将致力于满足市场需求。
黄仁勋:确实如此。Hopper和Blackwell被设计用于支持当前的运营需求,Hoppers的需求非常旺盛,很多客户对Blackwell已经有所了解。我们尽早让客户了解这些信息,以助他们规划数据中心。此外,Hopper的需求因为实际运营需要而保持强劲。
Pierre Ferragu:
我是新街研究所的Pierre Ferragu。我想询问一下关于Blackwell的技术问题,特别是两个芯片间10TB的数据传输是如何实现的?这背后的技术和制造挑战是什么?
展望未来,您认为我们会看到越来越多的芯片整合成单一的封装吗?另外,考虑到AI模型的进步,您怎么看未来的GPU架构方向?
黄仁勋:
我将从第二个问题开始。在我们作为所有AI研究工作的基础平台的角色中,我们有幸能够提前获悉即将到来的所有研究进展。当然,所有下一代模型的目标都是将当前世代系统的限制推至极致。因此,例如,巨大的上下文窗口,比如说,极其庞大的上下文窗口,状态空间向量,合成数据的生成,本质上是模型自我对话,强化学习,本质上是大型语言模型的AlphaGo,树搜索。这些模型将需要学会如何进行推理和进行多路径规划。
因此,而不仅仅是单次尝试,这有点像我们在思考时需要仔细规划我们的行动。那个规划系统,那种多步骤的推理系统,可能非常抽象,而且计划的路径可能非常长,就像下围棋一样。但是,这样的约束条件要远远复杂得多。因此,这整个研究领域异常激动人心。
在接下来的几年里,我们将目睹的系统类型,与今天相比,可以说是难以想象的,原因就如我描述的那样。尽管有人担忧训练这些模型可用的互联网数据量,但这实际上并不是问题。
10万亿token已经足够好了,但别忘了,合成数据的生成,模型相互对话,强化学习,你将会生成的数据量,将需要两台计算机相互训练。今天我们有一台计算机在数据上进行训练,明天将会是两台计算机,对,记住。
AlphaGo是多个系统相互竞争的,因此我们也可以尽可能快地做到这一点。因此,我们即将见证一些真正令人兴奋的突破性工作。我们确信,由于这些原因,我们希望我们的GPU在规模上更大。我们公司的SerDes是绝对世界一流的。数据传输速率和每比特的能量消耗无与伦比。这就是我们能够实现NVLink的原因。
记住,NVLink之所以问世,是因为我们无法制作足够大的芯片,我们将芯片连接起来。这是在2016年。NVLink已经发展到第五代。世界其他地方甚至还没有达到NVLink第一代。借助我们自主研发的第五代NVLink技术,我们已经实现了高达576个芯片之间的无缝连接,这样的联接不仅大幅提升了数据通信的效率,也为构建超大规模计算体系提供了可能
就我个人而言,数据中心如此之大,它们是否需要这么紧密地连接在一起?完全不必。因此,将它们分割成576个部分也没问题,且SerDes的能耗本来就很低。现在,我们可以制作更紧密的芯片。我们希望这样做是因为,那样的话软件就无法感知差异了。
当分割芯片时,算法应该是构建光刻技术所能实现的最大芯片,然后将多个芯片以任何可行的技术连接起来。但一开始必须先打造历史上最大的芯片。否则,为什么我们过去不做多芯片组合?我们就是一直在推进单片技术。原因在于,芯片内的数据传输速率和能耗使得编程模型尽可能地统一,不会遇到所谓的NUMA(非一致性存储器访问)现象。
因此不会出现NUMA行为,不会有奇怪的缓存行为,不会有内存局部性行为,这些都可能导致程序根据所运行的不同节点而工作不同。我们希望我们的软件无论在哪里运行都能保持相同的表现。
因此,你首先需要的是制造出光刻技术所能允许的最大芯片。那就是第一个Blackwell芯片。我们把两块芯片连在了一起。每秒10TB的技术是疯狂的。在此之前,没人见过每秒10TB的链接。而这显然消耗的电力非常少,否则它就只是一个链接而已。因此需要首先解决的就是这个问题。
接下来必须解决的问题是刚才提到的CoWoS封装技术。我们采用了目前全球容量最大的CoWoS封装技术,这不仅显著提升了产品的性能,更确保了在面向市场的大规模生产过程中供应链的稳定性和可靠性。
上次的需求激增相当突然,但这次我们有了足够的预见性。因此,Colette完全正确。我们与供应链密切合作,与台积电紧密合作。我们已经为激动人心的增长做好了准备。
Aaron Rakers: 多谢,我是来自富国银行的Aaron Rakers。非常感谢您如此详细的分享。我想接着您之前提到的以太网以及借助Ultra Ethernet进行的讨论继续提问。
黄仁勋:
我非常看好以太网技术。
Aaron Rakers:
是的。我有兴趣了解,NVLink如何通过576个GPU实现互连。这种布局架构的概念,在以太网的演变、你们的Spectrum-4产品、向800 Gbps的发展方面起着怎样的作用?换句话说,NVLink是否会在某些情景下与以太网形成竞争?
黄仁勋:
不会。首先,构建大规模集成电路的算法实际上非常简单,即尽可能构建最大的芯片。我们生产的芯片已达到极限大小。其次,尽可能地将两个芯片连接起来。当两个芯片的连接成为可能时,我们就开始面临诸如NUMA效应和局部性效应等挑战。这时,NVLink就显得尤为关键。
拥有NVLink,我们就能以成本和功耗为前提,构建尽可能大的链接网络。我们坚持使用铜而非光纤连接多达576个GPU芯片(这相当于一个巨型芯片),是为了有效节能和降低成本,从而实现可扩展性。然而,仅靠576个GPU是远远不够的,我们需要更多的相互连接。
在这个层面上,InfiniBand是最优选择,其次是集成了加速计算层的以太网,即Spectrum X。这样,我们可以有效管理系统内部的数据流,避免数据滞后,优化整体计算速度。其实,每一种技术都有其应用场景,我们对光学技术的需求依然非常大,因此,不必担心对光学技术的需求。
Will Stein:
关于阿联酋主权AI项目,能否具体说明英伟达打算如何操作?我想知道,我们该如何向老一辈,比如我91岁的母亲,解释什么是加速计算?
黄仁勋:
对于第二问题,在解释加速计算时,可以用"使用合适的工具完成相应的工作"来比喻。传统的通用计算就像是用同一个螺丝刀来完成所有工作,比如从起床刷牙到睡觉都在用螺丝刀,随着时间的发展和人类智慧的积累,我们使通用工具更加多功能——螺丝刀上加了刷子、绒毛等。
CPU在顺序任务处理上表现得很好,但是并不擅长并行处理。然而在大多数应用中,如Excel和大部分个人电脑应用,CPU的性能已经足够。但对于电脑图形学和视频游戏这样的新应用领域来说,有1%的代码决定了99%的运行时间。因此我们创造了一种擅长处理这个1%的代码的硬件,即使它在剩下的99%的代码上表现不佳。
这就是我们开发出针对分子动力学、医学成像、地震处理、人工智能等领域的加速计算。加速计算可以大幅度提升处理速度,这也是为什么加速计算、数据处理等领域可以获得巨大性能提升的原因。
每个国家都有自己的天然资源,那就是他们的知识产权,体现在自己的语言、历史、文化中,这些通常保存在国家档案馆,并已数字化,但并非公布在互联网上。我们认为这些国家应该利用这些数据资源创建自己的主权AI。
无论是印度、瑞典、日本还是其他国家,他们都意识到这些数据资源不应该免费流向外部,然后通过支付费用以AI形式再输入。因此,他们现在认识到应该保留自己的数据,推广和输出自己的AI,这是一个非常大的市场。我们关注遵守出口管制,并在某些国家可能提供些规格较低的产品,以确保能够支持全世界各国构建和应用AI。
黄仁勋:
感谢大家。我们很感激各位的支持和关注。我们正处在一个特殊的时刻,见证了技术史上的一个重大转折点——计算方式的变革和软件新纪元的来临。未来十年对我们所有人来说都将是重要的,我们期待与您一同迎接挑战,共创美好未来。