加入我们

英伟达黄仁勋:GPU是一台时光机,让人们看到未来;下一个十年AI将在某些领域超越人类的同时赋能人

已发布

2025年03月03日

分享

295aaeb02a11149e5d83194d3dd34bfa.jpeg

图片来源: Cleo Abram


  • 无论我们追求什么,首先必须有核心信念,必须从最基本的原则出发进行推理,无论基于什么,都要从第一性原理出发进行思考。

  • 过去10年主要是关于AI的科学研究,而接下来的10年,除了继续进行AI的基础科学研究外,更重要的是AI的应用科学。

  • 第一个核心信念是我们最初关于加速计算的讨论,即并行计算与通用计算的区别;第二个核心信念是意识到这些深度学习网络(DNN)。

  • 归根结底, 一切都取决于在有限的能源下你能完成多少计算工作,这就是物理限制。因此,提高能源效率成为了首要任务。

在过去几年中,NVIDIA已迅速发展成为全球最有价值的公司之一。这是因为从90年代开始,CEO黄仁勋与他的公司引领了计算机工作方式的根本性转变,现在释放了技术潜力的爆炸式增长,最具未来感的技术中的大部分都依赖于NVIDIA设计的新芯片和软件。本文为主持人Cleo Abram的《Huge If True》节目访谈实录,本次采访于2025年1月7日在拉斯维加斯的CES上录制。

回望来路:今天的NVIDIA因何诞生

Cleo Abram:我已经为这次采访准备了好几个月,期间与您的许多团队成员进行了深入交流。但我并不是一名工程师,我的目标是帮助观众看到您所描绘的未来。

所以我将询问三个方面。第一个是,我们是如何走到这里的?是什么关键的洞察导致了我们现在所处的这个计算领域的根本性变化?第二个是现在到底发生了什么?已有的洞察是如何引导我们进入这个充满变动、似乎一切都在同时发生的世界的?第三个是,您对未来的愿景是什么?

为了讨论我们目前所处的这个AI时代,我认为我们需要回顾一下90年代的视频游戏。当时,我知道游戏开发者希望创造更逼真的图像,但硬件无法跟上所需的数学运算能力,NVIDIA提出了一个解决方案,这不仅改变了游戏,也改变了计算本身。你能带我们回到那个时期,解释当时发生了什么,以及是什么洞察促使你和NVIDIA团队创造了第一个现代GPU吗?

Jensen Huang:在90年代初,当我们开发第一个现代GPU时,我们观察到在一个软件程序中,里面只有几行代码。也许10%的代码完成了99%的处理,而那99%的处理是可以并行执行的,然而剩下的90%的代码必须按顺序执行。结果证明,完美的计算机是能够同时进行顺序处理和并行处理的,而不仅仅是其中一种,这是一个很重要的观察。于是我们开始建立一家公司,来解决普通计算机无法解决的计算问题,这实际上就是NVIDIA的起点。

43e2ccbda23c336fd490fc69693f9142.png

图片来源:Cleo Abram


Cleo Abram:我最喜欢的一个能展示为什么CPU和GPU如此重要的视频是NVIDIA YouTube频道15年前的,在视频中,Mythbusters使用一个小机器人一颗颗地发射彩弹,来展示CPU上的顺序处理,也就是一次解决一个问题。但接着他们推出了一个巨大的机器人,一次性射出所有彩弹,同时解决多个问题,展示了GPU上的并行处理,NVIDIA为视频游戏提供了所有这些新功能。为什么首先选择了游戏?

Jensen Huang:视频游戏需要并行处理处理3D图形。我们选择视频游戏,首先是因为我们喜欢这个应用,谁不想去虚拟世界呢?我们根据观察得出的结论是视频游戏有潜力成为有史以来最大的娱乐市场,结果证明这个观察是对的。市场体量大很重要,基于技术的复杂性,如果有一个很大的市场,我们的研发预算就会很多,由此推动新技术的创造,正是技术与市场之间的良性循环,推动NVIDIA成为全球最重要的科技公司之一。

Cleo Abram:我听你说过GPU是一台时光机。能详细解释一下吗?

Jensen Huang:GPU就像一台时光机,因为它能让你更早地看到未来。一位量子化学科学家对我说过最让我感动的一句话,他说:“Jensen,得益于NVIDIA的成果,我可以在我的有生之年完成我一生的研究。” 这就是时间旅行,他能够在自己的有生之年完成原本超越他一生范围的工作,是因为GPU让应用程序运行得更快了。GPU也能让人看到未来。例如,当你在进行天气预报时,你其实是看到未来;当你在模拟虚拟城市,模拟虚拟交通,模拟我们的自动驾驶汽车在那个虚拟城市中行驶时,我们就是在进行时间旅行。

Cleo Abram:并行处理首先在游戏领域取得了突破。它让我们能够在计算机中创造出以前无法实现的世界。游戏中运用并行处理解锁出的强大计算能力,是GPU第一个令人惊叹的应用场景。此后,人们开始在许多不同的行业中使用这种计算能力,比如那个量子化学研究员的案例。你提到他在运行分子模拟时,使用NVIDIA的GPU进行并行处理,速度比他之前使用的基于CPU的超级计算机要快得多,这真的在革新其他各个行业。

据我了解,在2000年代初,你意识到这一点,发现实现这一目标其实有点困难,因为那位研究员必须“欺骗”GPU,让它以为这是一个图形处理问题。你们做了一些研究,所以你们创造了一种让这一切变得更简单的方法——一个叫做CUDA的平台。它允许程序员使用他们已经熟悉的编程语言(比如C语言)来告诉GPU该做什么,这非常重要,因为它让更多人更容易地使用强大的计算能力。你能解释一下是什么样的愿景促使你们创造CUDA的吗?

67f507ec564fdded2662f43c0d41ab3c.png

图片来源:Cleo Abram


Jensen Huang:部分是因为研究人员的发现,部分是来自内部的灵感,还有部分是为了解决一个问题。很多有趣的想法就是在这样的“混合体”中诞生的,其中一些是基于愿景和灵感,另一些则可能是出于迫切的需求。

最初在外部出现将GPU用于并行处理的想法,是来自医学成像领域的一些研究。麻省总医院的几位研究人员在使用我们的GPU进行CT重建,利用了我们的图形处理器来完成这项任务,这给了我们启发。

我们公司内部也在试图解决一个问题:当你想要为视频游戏创造虚拟世界时,你希望这个世界既美观又充满动态效果,水应该像水一样流动,爆炸应该像真实的爆炸一样,所以你需要处理粒子物理、流体动力学,如果只能处理计算机图形,这将非常困难。因此,我们有充分的理由去推动这项技术。同时,研究人员也在尝试使用我们的GPU进行通用加速计算。因此,多个因素在这个“混合体”中汇聚。当时机成熟时,我们决定正式推进这个想法,于是创造了CUDA。从根本上讲,我之所以坚信CUDA会成功,并且让整个公司全力支持它,是因为我们的GPU将成为全球出货量最大的并行处理器,毕竟视频游戏市场非常庞大,这种架构有很大的机会被广泛应用于不同领域。

Cleo Abram:在我看来,创造CUDA是一件极具乐观主义色彩的事情。你们当时的想法是:如果创造出一种方式,让更多人可以使用更强大的计算能力,由此或许人们能够创造出不可思议的东西,而这确实成真了。2012年,三位研究人员提交了一项参赛作品,参加一个著名的竞赛,目标是创建能够识别图像并为其分类的计算机系统。他们的作品在比赛中大获全胜,错误率远低于其他参赛者,令人难以置信,震惊了所有人。这个系统叫做AlexNet,它是一种被称为神经网络的人工智能技术。

e185300ab4729e0fc0c6b1c7ed75706a.png

b8f4132f7c847cf133f97a5d81cc116a.png

图片来源:Cleo Abram


据我了解,它之所以表现如此出色,部分原因在于他们使用了大量的数据来训练并在NVIDIA的GPU上完成了这一切。突然之间,GPU不仅仅是让计算机变得更快、更高效的工具,它们成为全新计算方式的引擎。我们从一步步指令计算机的方式,转向通过展示大量示例来训练计算机自主学习。2012年的这个时刻真正开启了一场深刻的变革,也就是我们现在所看到的人工智能革命。你能从你的角度描述一下那个时刻是什么样的吗?你当时预见到这对人们的未来意味着什么?

Jensen Huang:当你创造像CUDA这样的新事物时,即使你构建好了它,人们可能也不会使用它,这始终是怀疑者的观点。然而,乐观者会说:但如果你不去构建它,人们就永远不会使用它,这通常是我看待世界的方式。

我们必须凭直觉推理它为什么会非常有用。事实上,在2012年,多伦多大学的Ilya Sutskever、Alex Krizhevsky 和 Jeff Hinton,他们所在的实验室找到了GeForce GTX 580,因为他们了解到CUDA,认为它可以用作训练AlexNet的并行处理器。所以,我们认为GeForce可以成为将这种并行架构推向世界的载体,研究人员们最终会发现它,这是一种基于希望的策略,但也是理性化的希望。

真正引起我们注意的是,当时我们公司内部在尝试解决的计算机视觉问题,并且希望CUDA能成为一个优秀的计算机视觉处理器。然而,我们在早期遇到了很多挫折,CUDA在处理计算机视觉方面存在不少困难。就在这时,我们发现了AlexNet,这是一种全新的算法,它在计算机视觉能力上取得了巨大的飞跃。当我们觉察这一点时,一方面是出于兴趣,另一方面也是因为我们自己正面临类似的挑战,我们非常想看看它是如何实现的。

当我们仔细研究AlexNet时,我们受到了很大的启发,我们问自己:AlexNet到底能发展到什么程度?如果它在计算机视觉领域能够做到这些,它还能做到哪些?如果它能够达到我们预期的极限,又能够解决哪些问题?这对计算机行业意味着什么?对计算机架构又意味着什么?

我们合理推断,如果机器学习,尤其是这种深度学习架构能够扩展,那么绝大多数机器学习问题都可以通过深度神经网络来表示,机器学习可以解决的问题领域非常广泛,甚至有可能彻底重塑整个计算机行业,这促使我们重新设计整个计算体系,这就是DGX的由来。所有这一切的背后,都是基于我们当时的观察:我们必须逐层、逐步地重新发明整个计算堆栈。自从IBM的System 360在65年前引入现代通用计算以来,我们彻底重新定义了计算的方式。

Cleo Abram:所以,把这当作一个完整的故事来思考:并行处理重新定义了现代游戏,彻底改变了整个行业;随后这种计算方式开始被应用到不同的行业;NVIDIA通过构建CUDA进行投资,推动了这种计算方式的发展;之后CUDA和GPU的使用让神经网络和机器学习实现了质的飞跃,开启了一场革命,这场革命直到今天仍在不断深化。

凝视现在:什么正在发生

Jensen Huang:突然之间,计算机视觉的问题被解决了;语音识别的问题被解决了;语言理解的问题被解决了……这些与智能相关的重大难题,过去我们无从下手但渴望解决,如今它们一个接一个地在短短几年内被攻克,令人难以置信。

Cleo Abram:你在2012年看到了这一点,你展望未来,相信这将是你将要生活的时代,NVIDIA为此下注,进行了高风险的投资,作为一个外行人,我的感觉是,走到今天花了很长时间。所以我的问题是:既然AlexNet是在2012年诞生的,而现在的观众大约在十年后才看到和听到更多关于AI和NVIDIA的故事,为什么这中间花了十年?既然你们当初下了这样的赌注,过去十年的中段对你来说是什么感觉?

Jensen Huang:大概就像今天的感觉。对我来说,总会有一些问题存在,总会有让人感到不耐烦的原因,也总有一些值得高兴的地方,总有很多理由继续前进。

但我想说,无论我们追求什么,首先你必须有核心信念,必须从最基本的原则出发进行推理。无论基于什么,都要从第一性原理出发进行思考。理想情况下,你的推理应该基于物理学原理,或者对行业的深刻理解,或者对科学的深入了解。

在某个时刻,你必须去相信一些东西,如果这些原则没有改变,假设也没有改变,那么你就没有理由改变你的核心信念,在这个过程中,总会有一些成功的证据,告诉你正走在正确的道路上。有时候,你可能会很长时间看不到成功的证据,就需要稍微调整一下方向,最终证据会出现,如果你觉得自己走在正确的道路上,那就继续前进。

关于我们为什么能坚持这么久,答案是没有理由不坚持,因为我们相信它。我相信NVIDIA已经超过30年了,我现在仍然每天都在工作,没有任何根本性的理由让我改变我的信念体系。我坚信,我们在革命性地改变计算领域的工作,今天依然如此,甚至比以前更加真实。因此,我们会一直坚持下去,除非有明确的理由让我们停止。当然,在这个过程中也会有非常艰难的时刻,当你投资于某个项目,而没有人相信它,它还在花费着大量资金,投资者或者其他人可能希望你保持盈利,或者提高股价,但你必须相信自己的未来,必须投资于自己,我们对此深信不疑。我们在真正看到成效之前,已经投资了数百亿美元。这十年很漫长,但沿途也充满了乐趣。

Cleo Abram:你如何总结这些核心信念?是什么让你不仅能坚持走过这十年,还能继续做现在的事情,甚至为未来几十年下注?

Jensen Huang:第一个核心信念是我们最初关于加速计算的讨论,即并行计算与通用计算的区别。我们将两个处理器组合在一起,进行加速计算。我至今仍坚信这一点。

1fc025225364b8de28075e71baa2e90e.png

图片来源:Cleo Abram


第二个核心信念是意识到这些深度学习网络(DNN),也就是2012年进入公众视野的深度神经网络,具备从不同类型数据中学习模式和关系的能力。如果网络越大、越深,它就能学习到更多细致入微的特征,让它们变得更大、更深或更广也变得更容易。因此,这种架构的可扩展性在经验上是被证实的。模型规模和数据规模越大,就能学习到更多的知识,这也是经验证实的事实。既然如此,那它的极限在哪里?除非存在物理限制、架构限制或数学限制,但至今我们从未发现这些限制。因此,我们相信它可以无限扩展。

1798c729a47c14bce6e6daea896c9a57.png

图片来源:Cleo Abram


接下来唯一的问题是:我们能从数据中学到什么?我们能从经验中学到什么?数据本质上是人类经验的数字化版本。那么我们能学到什么——显然可以通过图像学习物体识别;可以通过声音学习语音识别;甚至可以通过大量文本学习语言、词汇、语法和句法结构。

我们现在已经证明,AI或深度学习具有学习几乎所有数据形式的能力,并且可以在不同数据形式之间进行转换。这意味着什么?你可以实现文本到文本,例如摘要生成或语言翻译;实现文本到图像,这就是图像生成;实现图像到文本,比如图像字幕生成;甚至可以实现氨基酸序列到蛋白质结构的预测。未来,你甚至可以做到蛋白质到文字,比如解释某个蛋白质的功能,或者找出具有特定特性的蛋白质,帮助识别药物靶点。所有这些问题都即将被解决。

你可以实现文字到视频的转换。那么,为什么不能将文字转化为机器人执行的动作指令呢?从计算机的角度来看,这两者之间并没有本质的区别。这为我们打开了一个全新的机遇和问题领域,激发了我们的无限热情,我们感觉自己正站在一次巨大变革的边缘。

Cleo Abram:当我思考未来10年时,与过去10年不同的是,尽管我们已经经历了很多变化,但我已经无法预测自己将如何使用当前正在开发的技术。

Jensen Huang:我认为你之所以会有这样的感觉,是因为过去10年主要是关于AI的科学研究,而接下来的10年,除了继续进行AI的基础科学研究外,更重要的是AI的应用科学。应用研究将聚焦于:如何将AI应用于数字生物学?如何将AI应用于气候技术?如何将AI应用于农业、渔业、机器人技术、交通运输、物流优化?如何将AI应用于教育、播客制作?

Cleo Abram:我们刚刚讨论的这场计算领域的根本性变革,如何真正改变他们的生活体验,如何让他们实际使用基于这些技术的产品。其中一个我听你多次提到,且我特别感兴趣的是物理AI,或者说机器人。不仅仅指人形机器人,还包括自动驾驶汽车、智能建筑、自主仓库、自动割草机等等。

据我了解,我们即将看到这些机器人能力的巨大飞跃,因为我们正在改变训练它们的方式。直到最近,训练机器人通常有两种方法:要么在现实世界中进行训练,但这会导致机器人损坏或磨损;要么依赖于有限的数据来源,比如使用动作捕捉服的人类数据。但这意味着机器人无法获得足够多的示例来快速学习。

然而,现在我们开始在数字世界中训练机器人,这意味着每天可以进行更多次重复训练,涵盖更多种不同的环境条件,学习速度也变得更快。因此,我们现在可能正处于机器人领域的“大爆炸”时刻,而NVIDIA正在打造一系列工具来实现这一目标,你们有Omniverse,我的理解是它是一个3D虚拟世界,帮助训练机器人系统,让它们无需在物理世界中进行训练。你们最近还发布了Cosmos,它让这个3D世界更加逼真。比如,当我们训练机器人识别桌子时,Cosmos可以模拟不同的光照条件、一天中的不同时间,以及多种不同的场景体验,让机器人从Omniverse中获得更多的学习机会。

363c71b42758dbe92034b1659c14ed07.png

图片来源:Cleo Abram


作为一个从小就喜欢《星际迷航》和艾萨克·阿西莫夫作品、梦想未来拥有机器人的人,我们如何从今天的机器人发展到你所设想的未来世界?

Jensen Huang:可以用语言模型,比如ChatGPT,来类比解释Omniverse和Cosmos的工作原理。首先,当ChatGPT刚问世时,它的表现令人惊艳,能够根据提示生成文本。但尽管如此强大,它仍然会出现“幻觉”(hallucination)现象:当生成的文本过长,或讨论它不了解的主题时,尽管回答看似合理,但实际上可能偏离事实。为了改进这种情况,下一代的模型引入了上下文约束,比如你可以上传PDF文件,模型基于PDF的内容生成答案,将其作为“事实依据”(ground truth),或者可以通过联网搜索,将搜索结果作为参考,从而生成更准确的回答。

所以,第一步是生成式AI,而第二步是基于事实的模型,回到物理世界。如果我们想让机器人在现实中变得聪明,就需要构建一个类似的“基础模型”,就像ChatGPT背后的语言基础模型一样。对于机器人来说,它必须理解:重力、摩擦力、惯性等物理规律;几何和空间感知(物体永久性);因果关系,比如我推倒一个物体,它会倒下。这种对物理世界的“常识”必须被编码进一个世界基础模型(World Foundation Model),让AI具备对现实世界的直观理解。这正是我们用Cosmos所做的事情,我们创造了一个“世界模型”,就像ChatGPT是语言模型一样,Cosmos是关于物理世界的模型。

接下来,我们要像给ChatGPT添加PDF或搜索数据一样,为Cosmos提供“事实依据”,这个依据就是物理仿真(Physical Simulation)。Omniverse正是基于物理仿真的平台,它采用的是牛顿力学等已知的数学原理,使用真实的物理定律来模拟现实世界。因此,Omniverse是一个模拟器(Simulator),而我们用它来为Cosmos提供“现实基础”,让AI能够在物理上“接地气”。通过这种组合,我们可以生成无限多的虚拟场景,模拟未来的各种可能性,但这些模拟都是基于真实的物理规律。

举个例子,假设你在工厂里训练一个机器人,让它学习所有可能的路线。传统方法需要机器人在现实中一个个地走,可能需要数天时间,还会增加磨损。现在我们可以在Omniverse中用数字化的方式快速模拟所有路线,节省大量时间,且不会损坏设备,同时还能模拟各种复杂场景,比如黑暗环境、道路障碍、紧急情况等,帮助机器人在虚拟世界中快速积累经验。

Cleo Abram:未来10年,人与这项技术的互动会发生怎样的变化?

Jensen Huang:未来,所有会移动的东西都将实现自动化,成为机器人,而且这个未来即将到来。想象一下,人工推着割草机会显得过时,除非人们纯粹觉得好玩,否则完全没有必要手动操作;每一辆车都将成为自动驾驶汽车;类人机器人(Humanoid Robots)所需的技术即将成熟,很快也会普及。所以,无论是自动驾驶汽车、智能建筑、自动化仓库、自动割草机,还是服务型机器人,只要是会移动的事物,最终都会实现自动化。他们将在Omniverse Cosmos中学习如何成为机器人,并生成所有这些符合物理规律的未来场景,机器人将从中学习,然后进入物理世界,而这一切与虚拟世界缩膜你的完全相同。

一个被机器人包围的未来是必然会到来的。我非常兴奋能拥有属于我自己的R2-D2,当然,R2-D2不会再是那个圆滚滚的罐头,它会有不同的物理形态,但我的R2会一直陪伴着我,有时它会在我的智能眼镜里,有时它会在我的手机里,有时它会在我的电脑里,它也会在我的车里,所以R2无时无刻不在我身边,当回到家时,家里会有一个我留下的实体版R2,无论那个版本是什么样子,都可以和R2互动。所以我认为,在未来拥有属于我们自己的R2-D2,陪伴我们一生,和我们一起成长,是确定无疑的事情了。

Cleo Abram:我认为很多新闻媒体在谈论这样的未来时,他们关注的焦点是可能出错的地方。

Jensen Huang:这很合理。我们应该多讨论可能出错的地方,才能防止它们真的出错。

Cleo Abram:探讨那些重大的挑战,以便我们能够克服它们。当你担心这个未来时,你会思考哪些方面的问题?

Jensen Huang:有很多大家都会讨论的问题。比如偏见、有害内容,或者所谓的“幻觉”——AI在自己不了解的领域里,仍然能自信满满地发表观点,结果就是我们可能会依赖这些信息。这其实就是生成虚假信息的一种形式,比如假新闻、假图像,或者其他类似的东西。当然,还有冒充问题。AI在冒充人类这方面做得非常出色,甚至能够非常精准地模仿特定的人。所以我们需要关注的问题的范围是相当明确的,也已经有很多人在致力于解决这些问题。

一些与AI安全相关的内容需要深入的研究。AI本意是想做正确的事情,但它只是没有正确地执行,结果伤害到某个个体。比如自动驾驶汽车,它本来想安全、规范地行驶,但不知怎么的,传感器出现了故障,或者它没有正确地检测到某个物体,不管是什么原因,它都出错了。因此,我们需要大量的研究工作,确保AI产品能够正常运行,从而维护AI的安全性。

最后,如果AI想要做正确的事情,但系统本身却失败了怎么办?也就是说,AI本来想阻止某件事的发生,但偏偏在它要执行的那一刻,机器出故障了。这其实和飞机上的飞行计算机没有太大区别,飞机内部会有三套冗余的系统,自动驾驶系统内部也会有三重冗余。飞机内部还有两名飞行员,再加上空中交通管制以及其他飞行员相互监督。因此,AI的安全系统必须设计成一个“社区架构”,确保这些AI系统:第一,能够正常工作;第二,当它们无法正常工作时,不会对人类造成伤害;第三,周围有足够多的安全和保障系统,以确保AI的安全性。因此,关于AI安全的讨论范围是非常广泛的。我们必须像工程师一样,逐一拆解问题,再重新构建解决方案。

Cleo Abram:我们现在所处的这个时代,最令人难以置信的一点是,我们不再受限于过去基于CPU和串行处理的技术瓶颈。这不仅是拥有了一种全新的计算方式,还找到了持续改进的方法。并行处理在物理机制上与CPU的改进方式不同。在你目前的思考中,我们当前世界面临的科学或技术限制是什么?

Jensen Huang:归根结底, 一切都取决于在有限的能源下你能完成多少计算工作,这就是物理限制。因此,提高能源效率成为了我们的首要任务。关于信息传输、比特翻转和比特传输的物理定律,完成这些操作所需的能量,决定了我们能够完成多少工作。我们所拥有的能源数量,限制了我们所能完成的任务。目前,我们距离真正阻碍技术进步的根本性限制还很远。同时,我们正在努力构建更好、更节能的计算机。这台计算机,我带来的这个版本只是个原型,算是一个模型。第一台真正的版本是DGX-1,我在2016年交付给了OpenAI。那台机器的价格是25万美元,它所需的能源比现在这个版本高出1万倍,而这个版本的性能却是它的6倍。

我们正处在一个全新的时代,而这一切从2016年开始,短短八年后,我们将计算的能源效率提升了10,000倍。想象一下,如果我们在其他领域也实现10,000倍的提升这样的提升:汽车的能源效率,电灯泡的能源效率。现在,一个100瓦的灯泡,如果效率提高10,000倍,它只需要消耗0.01瓦就能产生同样的亮度。

在计算领域,特别是AI计算方面,我们所取得的能源效率进步是不可思议的。因为我们希望创造出更智能的系统,并且使用更多的计算来让系统变得更智能。

Cleo Abram:在准备这次采访时,我和很多工程师朋友聊过,他们特别希望我问你这个问题。CUDA展示了提升可访问性和抽象层级的价值,让更多人能够使用强大的计算能力,随着技术应用越来越具体,比如在AI领域的Transformer模型,(Transformer 是一种非常流行的AI架构,现在被广泛应用于你们见过的许多工具中。它之所以受欢迎是因为其结构能够帮助模型关注关键信息,从而输出更好的结果)NVIDIA可以打造出完全适配某一种AI模型的芯片。但如果这么做,就会降低芯片处理其他任务的能力。

随着这些特定结构或架构越来越流行,在硬件设计领域存在一种争论:到底应该选择将这些技术“固化”到芯片中,专门为某一任务优化?还是应该保持硬件的通用性?所以我的问题是:你如何在这些选择中下注?你如何权衡是打造一辆“可以去任何地方的汽车”,还是优化成一列“只能在A到B之间高效运行的列车”?而你所做的选择,就会牵涉到巨大的利益,

Jensen Huang:这个问题最终又回到了原点,那就是你的核心信念是什么?要么相信Transformer是AI领域的终极算法架构,以后再也不会有新的架构被发现;要么相信Transformer只是AI发展的一个“跳板”,未来的架构将会进化成一些我们今天几乎无法辨认的形式,而我们相信后者。

原因很简单,只需要回顾历史,问自己一个问题:在计算机算法、软件、工程和创新的世界里,是否曾经有某一个想法能够长期保持不变?答案是否定的。这正是计算机最本质的美妙之处:它能够在今天完成一些,10年前人们甚至无法想象的任务。如果你在10年前,把计算机固定成一个像微波炉一样只能执行单一任务的设备,那么后来出现的各种应用又从何而来?

我们相信创新的丰富性,相信发明的无限可能。我们希望打造出一种架构,让发明家、创新者、软件开发者和AI研究人员都能在这片“创新的土壤”中自由探索,并提出一些令人惊叹的创意。

Transformer的核心特性是注意力机制(attention mechanism)。它的基本思想是,Transformer要理解每个单词与其他所有单词之间的含义和关联性。所以,如果你有10个单词,它需要弄清楚这10个单词之间的所有关系,但如果你有10万个单词,或者你的上下文非常庞大,比如阅读一个PDF,至是读取大量的PDF,这时候上下文窗口可能会达到百万级token,在如此庞大的范围内处理所有信息,几乎是不可能的。为了解决这个问题,人们提出了各种新思路,比如Flash Attention、hierarchical attention,还有我前几天刚读到的Wave Attention。自从Transformer问世以来,被发明出来的不同类型的注意力机制的数量非常惊人,所以我认为这种创新会继续下去,因为计算机科学并没有停止,AI研究也没有停滞。至少我们还没有放弃,拥有一台能够支持研究、创新和新想法的灵活计算机,从根本上来说是最重要的事情。

Cleo Abram:我非常好奇的一点是:你们设计芯片,有公司负责芯片的组装,还有公司专门设计硬件来实现纳米级别的工艺。当你们在设计这些工具时,你们是如何在当前物理条件的限制下考虑设计的?在尝试靠近这些极限时,会重点关注哪些方面?

Jensen Huang:即使我们让其他公司制造产品,比如我们的芯片是由台积电(TSMC)制造的,我们仍然假设自己需要拥有与台积电一样深厚的专业知识。我们公司有一批非常擅长半导体物理的专家,以便我们能够直观地了解当前半导体物理的极限在哪里,然后我们会与台积电紧密合作,共同探索这些极限,试图突破它们。因此,这种探索过程是双方一起完成的,在系统工程和冷却系统方面也是同样的做法。  

管道设计(plumbing)对我们来说非常重要,因为它关系到液体冷却;风扇(fans)也非常重要,因为它们涉及到空气冷却。我们在设计这些风扇时,几乎像在进行空气动力学设计,目的是让它们在产生最小噪音的同时,实现最高的空气流通量,所以我们公司有专门的空气动力学工程师。尽管我们不亲自制造这些部件,但我们会设计它们,并且依赖深厚的专业知识,了解他们的制造流程,基于这些知识我们努力推动技术的极限。

走向何处:NVIDIA想要创造怎样的未来

Cleo Abram:你是一个敢于对未来下赌注的人,而且一次又一次地,你都押对了。我们谈到了GPU,谈到了CUDA,谈到了你在AI领域的大胆投资,自动驾驶汽车、机器人等等,NVIDIA现在正在下注的项目是什么?

Jensen Huang:最新的一个项目就是我们在CES上展示的Omniverse和 Cosmos融合所打造出的一种全新的生成式系统,也就是多元宇宙生成系统,我认为这将在机器人和物理系统的未来中具有深远的重要性。

6af60ecbcb34d0ea17591274752f8e89.png

图片来源:Cleo Abram


人形机器人(Human Robots)相关的工具系统、训练系统和人类演示系统,以及你刚才提到的所有这些内容,我们现在才刚刚起步,未来五年在人形机器人领域将会非常有趣。NVIDIA在数字生物学(Digital Biology)方面的研究关注于理解分子语言和细胞语言。就像理解物理学和物质世界,我们希望能理解人体的语言和生物学的语言,如果我们能掌握并进行预测,那么拥有人类数字孪生就具备了可行性,对此我感到非常兴奋。

在气候科学方面的相关探究是以极高的精确度从天气中理解并预测区域气候,比如在你头顶一公里范围内的天气模式,其潜在的影响非常深远。

28797c1f32eaec6370dfda6b55edc0f5.png

图片来源:Cleo Abram

我们很幸运,创造了GPU这样一台“时光机”,在刚才提到的所有领域都需要这样的“时光机”,帮助我们看到未来。如果我们能看到未来,能够预测未来,那么我们就更有可能让未来成为最理想的版本,这就是科学家希望预测未来的原因,也是NVIDIA在设计任何事物时尝试预测未来的原因——为了能够优化出最好的版本。

Cleo Abram:或许很多人知道 NVIDIA 是一家非常重要的公司,但并不完全了解为什么重要,或者它将如何影响他们的生活,希望现在他们能更好地理解。在过去几十年里,计算领域经历了巨大转变,而我们正处于这个激动人心、甚至有点奇异的时刻,站在众多变革的门槛上。如果人们想要稍微窥见一下未来,你会建议他们做哪些准备,或者如何思考,以及这些技术将如何实际影响他们个人?

Jensen Huang:关于我们正在创造的未来,有几种思考方式。一种方式是,假设你现在所做的工作仍然重要,但完成它所需的时间从一周缩短到几乎瞬间完成,枯燥乏味的工作量基本为零。这类似于,如果突然间我们国家建起了高速公路,这种事情在上一次工业革命中确实发生过,突然之间我们拥有了州际高速公路,此后郊区开始形成,东西部之间的货物流通不再是问题;加油站开始出现在高速公路旁,快餐店和快餐店也随之出现,新的经济形式、经济体系应运而生;视频会议让远程工作成为可能,居住地可以远离工作地点。

因此,你可以问自己这样的问题:如果我身边随时有一个软件程序员,无论我有什么想法,他都能为我编写代码,这会怎样?如果我只有一个初步的想法,简单描述就有了一个产品原型呈现在我面前,这会如何改变我的生活?如何改变我的机遇,依此类推?

我认为在接下来的十年里,智能不会覆盖一切,但在某些领域,它将变得超越人类。我身边有很多智商极高的人,从我的角度来看,他们在各自领域是世界顶尖高手,他们所做的事情远比我做得好,我被成千上万这样的人包围着。但这从未让我觉得自己变得不再重要,反而,这让我感到被赋能,增强了我去挑战越来越多雄心勃勃项目的信心。所以,假设现在每个人身边都有这些非常擅长特定领域的超级 AI,或者在某些事情上很擅长的 AI,它会赋能你,让你更有信心。

我敢肯定,你可能已经在使用ChatGPT和AI,而我今天感到更加被赋能,更有信心去学习新知识,几乎任何领域知识的理解门槛都已被降低,我随时拥有一位私人导师。如果我要鼓励每个人去做一件事,那就是马上给自己找一个AI导师,这个AI导师当然可以教你任何你想学的东西,帮助你编程、写作、分析、思考和推理,所有这些都会真正让你感到被赋能。这将是我们的未来,我们将成为“超级人类”,不是因为我们自身超凡,而是因为我们拥有超级 AI。使用ChatGPT来提问你想知道的任何事情,比自己去做研究要容易得多。

Cleo Abram:你能为我们介绍一下这些设备吗?

Jensen Huang:这是最新的GeForce显卡,RTX 50系列。本质上,它是一台可以放进你电脑里的超级计算机,我们通常用它来玩游戏,现在人们也用它进行设计和创意艺术,它在AI领域的表现同样令人惊艳。

真正的突破,在于GeForce使AI成为可能,正是它帮助Geoff Hinton、Ilya Sutskever 和 Alex Krizhevsky成功训练了AlexNet。我们发现了AI,并推动了AI的发展。后来,AI又应用在GeForce上,帮助提升了计算机图形技术。神奇的是,在一块4K显示屏上,大约有800万像素,而我们实际只处理了其中的50万个像素,剩下的部分交给了AI通过“猜测”来补全图像,但最终呈现的图像却完美无瑕。我们先渲染出这50万个像素,每一个都经过光线追踪,非常精致,然后命令AI:“如果这就是屏幕上50万个完美像素,那么剩下的那800万个像素应该是什么样子?”AI接着填补了剩下的图像。

既然只需要处理更少的像素,我们就能投入更多资源,去提升这部分像素的质量,AI的推断质量也会更高,因为我们可以将更多的计算资源、关注点集中在这50万个像素上。这正好体现了AI如何让我们变得“超人”般强大:AI会替我们完成大量工作,让我们可以把时间和精力投入到真正有价值的事情上。

接下来这个设备,在2016年,我为AI研究人员打造了第一台这样的设备,并将首台交付给了OpenAI,埃隆·马斯克当时亲自接收了这台设备。我制作了这个迷你版。之所以这么做是因为AI已经从少数AI研究员的专属工具,变成了每一位工程师、每一位学生、每一位AI科学家的工具。AI将无处不在,与其制造那些25万美元的设备,我们现在生产的是3000美元的版本,让学校可以拥有它,学生也可以使用它,你只需将它放在PC或Mac旁边,立刻就拥有了属于自己的AI超级计算机,你可以开发、训练AI,打造属于自己的AI,甚至创造属于自己的R2-D2。

Cleo Abram:在这次交流中,有什么我没有问到但你觉得重要的事情吗?

Jensen Huang:我认为最重要的一点是,如果我现在是一名学生,我会做的第一件事就是:学习AI——如何与ChatGPT、Gemini Pro、Grok互动?学习如何与AI互动,其实也是一种“提问的艺术”,你不能随便问一堆没有逻辑的问题,要让AI成为你的得力助手,你需要具备一定的技巧,知道如何有效地“提示(prompt)”它。

如果我现在是学生,无论学什么或者将来进入哪个行业, 我都会问自己:“我如何利用AI,来让自己在这个领域做得更好?”这个问题应该伴随每一个人。就像我的一代人,是第一代需要思考:“如何使用计算机让自己的工作更高效?”在我们之前的那一代人,是没有计算机的。而我们这一代在进入职场时恰好赶上了个人电脑的普及。记得我刚进入行业时,那是1984年,办公室里还没有电脑,直到Windows 95发布后电脑才开始普及。下一代人不再需要思考这个问题,但他们必须思考下一个问题:“我如何使用AI,让自己在工作中变得更优秀?”我认为这就是每个人的起点与终点。

虽然“AI”这个词对很多人来说还很新,但本质上它只是让你的计算机变得更加强大而已。真正令人惊讶的是,如果我把一台电脑放在一个从未使用过电脑的人面前,他们绝对不可能在一天之内学会使用它,因为需要有人教你。 然而,使用 ChatGPT 的话,如果你不知道怎么用,你只需要输入:我不知道怎么用 ChatGPT,告诉我。它就会给你一些示例。关于人工智能最神奇的地方在于,它会一路帮助你,甚至让你变得像超人一样。

Cleo Abram:这不是我计划要问你的问题,但在来的路上飞机非常颠簸,我在想他们会在我的葬礼上说些什么,他们可能会说:她总是问出好问题;在我深爱我的丈夫、朋友和家人之后,我希望他们能谈论的是乐观,我希望他们能认可我正在努力做的事情。我很好奇你会怎么想。你做这件事已经很长时间了。听起来你描述了很多未来的愿景,你希望人们如何评价你正在努力做的事情?

Jensen Huang:很简单,就是NVIDIA创造了非凡的影响。我认为我们很幸运,因为我们在很久以前就有了一些核心信念,坚守这些信念并不断发展它们,如今我们成为了世界上最重要、最具影响力的科技公司之一,甚至可能是史上最重要的之一,因此,我们非常认真地对待这份责任。

我们努力确保我们创造的能力能够被大型企业以及各个科学领域的独立研究人员和开发者使用,无论他们是否盈利,无论规模大小,是否知名。正是因为我们意识到自己所做工作的深远影响,以及它可能对许多人产生的潜在影响,我们希望尽可能广泛地推广这项技术。

我相信我们会在几年后的回顾中看到,数字生物学和生命科学领域已经被彻底改变,我们对材料科学的理解已经被完全颠覆,机器人正在各个领域帮助我们完成危险和琐碎的工作。我希望人们回顾过去会意识到,有这样一家公司,几乎处于这一切的中心,而它恰好是你小时候玩游戏时接触到的那家公司。我希望这就是下一代人所了解的。


文章来源:Z Potential,本网站仅用于公益宣传,转载请注明文章作者及来源。如有侵权请联系我们及时删除。


分享到微信朋友圈 ×

点击右上角分享按钮