加入我们

时隔四十载,黄仁勋首次回忆“第一台电脑”:我是如何用 GPU 改写 AI 未来?

已发布

2025年03月27日

分享

截屏2025-03-27 16.56.08.png

在人工智能蓬勃兴起的时代,GPU(图形处理器)已经不仅仅是游戏画面的幕后功臣,也成为驱动深度学习、科学计算乃至各种新兴技术的核心引擎。

作为全球 GPU 领域的引领者,英伟达(Nvidia)在首席执行官兼联合创始人黄仁勋(Jensen Huang)的带领下,为我们打开了一个更广阔的计算世界。从最初的个人电脑与简单游戏,到如今轰轰烈烈的 AI 模型竞赛,黄仁勋在最近的一次访谈中深入分享了他对于 GPU 演进、AI 并行处理以及未来前景的独到见解。

本文基于访谈内容加以整合,带领读者从“第一台电脑”的回忆出发,逐步走进这位行业领袖的前瞻思维。

一、我的第一台电脑

在访谈刚开始,黄仁勋先回忆起自己与计算机的“缘分”:

“我第一台真正属于自己的电脑应该是 Apple II,但其实在那之前,我还用过一台 Teletype 电传打字机,它是连在大型主机上的。”

当被问到最喜欢的键盘快捷键时,黄仁勋笑言:

“我猜是 WASD。是的,算是一个玩家的标配吧。”

至于对编程风格的选择,他表示:

“我更喜欢用 Tab,而不是空格。”

当话题转到编程语言时,黄仁勋谈到自己历史上用得最多的是 Fortran 和 Pascal,但若谈到日常最常用、最喜欢的语言,答案却是:

“AWK,日常工作里我常常用 AWK,一旦需要规模更大的东西,就会用 Python。”

他打趣说,对 C++ 反而没那么感冒:

“我最不喜欢的编程语言可能是 C++。不过,也正因如此,那些把 C++ 做得特别好的人,真的是非常厉害。”

此外,他的第一款电脑游戏是经典的《Asteroid》(小行星),而在“茶还是咖啡”这个问题上,他也坦言:

“以前偏爱咖啡,但现在越来越倾向于茶。”

二、阅读存档论文与 ChatGPT 的结合

黄仁勋的一个特殊兴趣,是去浏览各种存档论文(archived papers)。他笑称:

“很多论文都非常深奥,但我就算只是略读,也能学到不少东西。我最近看了一篇 DeepSeek-R1 的论文,讲的是如何在没有监督式微调的情况下使用强化学习,结果还挺不错。”

他指出,如今我们已经不需要“硬着头皮”通读所有论文:

“我常常会把论文直接丢到 ChatGPT,让它帮我读、帮我总结。更妙的是,你还可以不停地提问,就像和作者本人对话一样。”

这让黄仁勋意识到一个重要现象:

“很多人还没意识到,其实当你用 AI 来做文献调研、总结时,你最后相当于拥有了一个在该领域颇有研究的专家。研究完成后,你还可以继续和它互动,去讨论与该领域相关的各种问题。”

三、从 Quadro 到 GeForce:GPU 的分化与融合

回顾以往,视频编辑使用 Quadro,游戏则使用 GeForce,两者在底层架构上有何区别?黄仁勋解释道,这些产品虽然名称和定位不同,但它们共同的根基是 CUDA。之所以存在不同产品线,主要是由于产品特性与资源分配的不同:

“有的 GPU 需要更多的纹理单元(texturing unit),有的 GPU 则在光栅操作单元(ROP)上更强大;有的使用 HBM 高带宽显存,有的使用更通用的图形显存。在科学计算领域,FP64(双精度浮点)很重要,就得特别加强;但在图形计算里,FP32(单精度浮点)就够了。”

然而,Tensor Core 的引入改变了这一切:

“无论是计算机图形、AI,还是物理模拟,现在都离不开 AI。张量核心(Tensor Core)在各类 GPU 中的地位越来越重要。”

在图形渲染中,Tensor Core 让 GPU 只需渲染“一小部分像素”,再由 AI 推断出其余像素,既提高分辨率,又保证视觉质量。他强调:

“AI 并非只是近似,而是极大地拓宽了物理模拟和其他计算领域的边界。”

四、GPU 的第二次“分叉”:为何向 Tensor Core 倾斜

黄仁勋认为,GPU 的“分叉”过程大致经历了两个阶段:

  • 1、双精度与图形计算的分化

  • 为科学计算设计的 GPU,大幅强化了 FP64 性能;

  • 为游戏图形设计的 GPU,FP64 则相对更弱,主要依赖 FP32。

  • 2、Tensor Core 带来的新变革

  • 数据中心对 AI 推理与训练的需求陡增;

  • 在晶体管面积有限的情况下,更多地转向对 Tensor Core 的强化;

FP64 并非不重要,但可以通过“模拟”的方式去支持,一方面照顾科学计算需求,一方面为 AI 留出更大空间。

随着 Tensor Core 逐渐在数据中心中站稳脚跟,英伟达又把它带回到消费端 GPU,使得游戏图形渲染同样受益于 AI 算法。

“当年 GeForce 把 CUDA 推向了全世界,让所有做 AI 的人获得了在 PC 上的超级计算机。如今,AI 又回过头来‘反哺’了 GeForce,使计算机图形进入真正的 AI 驱动时代。”

五、硬件如何跟上这股 AI 浪潮

谈到最近几个月 AI 领域的种种飞跃(如 DeepSea 等模型),黄仁勋指出,模型速度正以每 7 个月翻一番的惊人速度增长,而数据规模也在迅猛扩大。这意味着:

“我们每年对计算量的需求,可能会上升 10 倍。”

为理解如何跟上这种指数级增长,黄仁勋回顾了计算史上几个关键节点:

1 、软件打包时代

  • 软件编译打包到 CD-ROM 中出售;

  • 只能靠摩尔定律和 CPU 架构来提升性能。

2、加速计算与CUDA的崛起

  • 可替换底层算法并配合 GPU 架构的迭代;

  • 实现全栈优化,摆脱了单纯依靠 CPU 主频提升的束缚;

  • 使性能增长远超摩尔定律。

3、AI精度调整与并行

  • AI 算法对高精度要求相对宽容;

  • 可将 FP32“降级”到 FP16、FP8,获得倍数级能效提升;

  • 同时,可将更多计算负载并行化,延展到多 GPU、多节点乃至多机架。

综合来看,黄仁勋形容,过去 10 年,计算规模已经提升了上百万倍。而摩尔定律在同样时长里,理论上只能提升 100 倍左右。

“更关键的是,神经网络本质是软件,它可以被无限重写、改进。在硬件层面加速的同时,新型网络架构也在快速涌现,比如 Transformer 及其变体。二者相互促进,更新换代非常迅速。”

六、“Scale Up” 与 “Scale Out”

黄仁勋指出,在谈到计算扩展时,需要区分“纵向扩展”(Scale Up)和“横向扩展”(Scale Out):

Scale Up:

让一台机器本身变得更强大;

尽量不大改软件的情况下,大幅提升计算能力;

受限于半导体物理、内存带宽等瓶颈。

Scale Out:

把任务拆分成许多独立部分,分配到不同节点协同工作;

典型例子是谷歌的 MapReduce,以及后来的 Hadoop;

更容易受到通信、调度和“人月神话”等因素的影响。

英伟达通过 NVLink 把多块 GPU 串成一个“近似统一”的大 GPU,然后再将这些大 GPU 通过机架间的连接做横向扩展。这种方式结合了纵向与横向的优势。

另外,黄仁勋强调了CPU 的不可或缺:

“根据阿姆达尔定律,总会有一部分计算必须串行。如果说有 10% 的部分不能并行,那么你把那 90% 的并行部分加速到无限快,也还是被那 10% 卡住。对于并行体系来说,单线程的性能其实至关重要,所以我们才自己做 CPU,让它单线程性能更好,再把多线程部分交给 GPU 和 CUDA 来做。”

七、GPU 的“意外之用”

最后,黄仁勋被问到是否有一些最初没预料到,却又让他颇感兴趣的 GPU 用途。他回答说,最让他惊喜的往往是实时性要求高但又计算量巨大的领域。例如,5G 基站:

“传统做法会用专门的芯片来处理无线电基带,但我们把它放在 CUDA 上,用软件定义的方式来实现。这样做的好处是,可以在各种环节中整合或替换成 AI 算法,比如深度学习基带处理、大规模 MIMO(Massive MIMO)、多基站之间的流量调度等等。”

一旦把无线电网络视作一个“机器人网络”,就能用强化学习让系统自适应与自我优化,既能节省能耗,又能提高频谱效率。他还提出,AI 在通信网络层面可以给带宽带来惊人的“压缩”效果:

“比如在视频通话里,前几帧传了画面后,后续可以只依赖音频信号来预测说话人的表情、口型,用神经网络在本地重建;如此一来,带宽需求就可能减少上千倍。”

加之人类先验,完全可以靠终端侧生成模型来重构画面,大幅度用“计算”替代“网络传输”。

从最初的 Apple II、喜爱的游戏《Asteroid》,到对 C++ 的“复杂情感”;从 “CUDA 让 AI 研究者拥有超级计算机” 的过往,到 “AI 又反过来革命了 GeForce” 的现在;从 “降精度带来算力倍增” 到 “算力提升推动新网络架构诞生”,黄仁勋在访谈中娓娓道来,展现了 GPU 技术在人工智能时代的全新高度与无限潜力。

可以预见,未来的 GPU 将越来越多地与 AI、并行计算、“边缘实时”应用深度融合,从而创造出更多“意想不到”的新场景与新可能。随着硬件与软件持续迭代,整个行业的创新也将继续高歌猛进,或许在不久的将来,我们会看到更多令人惊叹的成果。

但仅仅这样还是不够的。要知道,能搞出“0~1”的不一定搞得出“1~100”,成果发明人与专利转化者、生产工艺设计者、生产制造组织者是两个完全不同的体系。这也是为什么我们给了发明人50%甚至70%的股权,但是好像没看到多少千万富翁、亿万富翁出来,因为他们的专利成果没有变成现实生产力。我们应该参考《拜杜法案》,把科研成果的投资者、研发人员转化人员三方积极性都调动起来,加速科研成果转化和产业化。

图片1_副本.png

文章来源:AI深度研究员,版权属于原作者,本网站仅用于公益宣传,转载请注明文章作者及来源。如有侵权请联系我们及时删除。


分享到微信朋友圈 ×

点击右上角分享按钮