在人工智能蓬勃兴起的时代,GPU(图形处理器)已经不仅仅是游戏画面的幕后功臣,也成为驱动深度学习、科学计算乃至各种新兴技术的核心引擎。
作为全球 GPU 领域的引领者,英伟达(Nvidia)在首席执行官兼联合创始人黄仁勋(Jensen Huang)的带领下,为我们打开了一个更广阔的计算世界。从最初的个人电脑与简单游戏,到如今轰轰烈烈的 AI 模型竞赛,黄仁勋在最近的一次访谈中深入分享了他对于 GPU 演进、AI 并行处理以及未来前景的独到见解。
本文基于访谈内容加以整合,带领读者从“第一台电脑”的回忆出发,逐步走进这位行业领袖的前瞻思维。
在访谈刚开始,黄仁勋先回忆起自己与计算机的“缘分”:
“我第一台真正属于自己的电脑应该是 Apple II,但其实在那之前,我还用过一台 Teletype 电传打字机,它是连在大型主机上的。”
当被问到最喜欢的键盘快捷键时,黄仁勋笑言:
“我猜是 WASD。是的,算是一个玩家的标配吧。”
至于对编程风格的选择,他表示:
“我更喜欢用 Tab,而不是空格。”
当话题转到编程语言时,黄仁勋谈到自己历史上用得最多的是 Fortran 和 Pascal,但若谈到日常最常用、最喜欢的语言,答案却是:
“AWK,日常工作里我常常用 AWK,一旦需要规模更大的东西,就会用 Python。”
他打趣说,对 C++ 反而没那么感冒:
“我最不喜欢的编程语言可能是 C++。不过,也正因如此,那些把 C++ 做得特别好的人,真的是非常厉害。”
此外,他的第一款电脑游戏是经典的《Asteroid》(小行星),而在“茶还是咖啡”这个问题上,他也坦言:
“以前偏爱咖啡,但现在越来越倾向于茶。”
黄仁勋的一个特殊兴趣,是去浏览各种存档论文(archived papers)。他笑称:
“很多论文都非常深奥,但我就算只是略读,也能学到不少东西。我最近看了一篇 DeepSeek-R1 的论文,讲的是如何在没有监督式微调的情况下使用强化学习,结果还挺不错。”
他指出,如今我们已经不需要“硬着头皮”通读所有论文:
“我常常会把论文直接丢到 ChatGPT,让它帮我读、帮我总结。更妙的是,你还可以不停地提问,就像和作者本人对话一样。”
这让黄仁勋意识到一个重要现象:
“很多人还没意识到,其实当你用 AI 来做文献调研、总结时,你最后相当于拥有了一个在该领域颇有研究的专家。研究完成后,你还可以继续和它互动,去讨论与该领域相关的各种问题。”
回顾以往,视频编辑使用 Quadro,游戏则使用 GeForce,两者在底层架构上有何区别?黄仁勋解释道,这些产品虽然名称和定位不同,但它们共同的根基是 CUDA。之所以存在不同产品线,主要是由于产品特性与资源分配的不同:
“有的 GPU 需要更多的纹理单元(texturing unit),有的 GPU 则在光栅操作单元(ROP)上更强大;有的使用 HBM 高带宽显存,有的使用更通用的图形显存。在科学计算领域,FP64(双精度浮点)很重要,就得特别加强;但在图形计算里,FP32(单精度浮点)就够了。”
然而,Tensor Core 的引入改变了这一切:
“无论是计算机图形、AI,还是物理模拟,现在都离不开 AI。张量核心(Tensor Core)在各类 GPU 中的地位越来越重要。”
在图形渲染中,Tensor Core 让 GPU 只需渲染“一小部分像素”,再由 AI 推断出其余像素,既提高分辨率,又保证视觉质量。他强调:
“AI 并非只是近似,而是极大地拓宽了物理模拟和其他计算领域的边界。”
黄仁勋认为,GPU 的“分叉”过程大致经历了两个阶段:
1、双精度与图形计算的分化
为科学计算设计的 GPU,大幅强化了 FP64 性能;
为游戏图形设计的 GPU,FP64 则相对更弱,主要依赖 FP32。
2、Tensor Core 带来的新变革
数据中心对 AI 推理与训练的需求陡增;
在晶体管面积有限的情况下,更多地转向对 Tensor Core 的强化;
FP64 并非不重要,但可以通过“模拟”的方式去支持,一方面照顾科学计算需求,一方面为 AI 留出更大空间。
随着 Tensor Core 逐渐在数据中心中站稳脚跟,英伟达又把它带回到消费端 GPU,使得游戏图形渲染同样受益于 AI 算法。
“当年 GeForce 把 CUDA 推向了全世界,让所有做 AI 的人获得了在 PC 上的超级计算机。如今,AI 又回过头来‘反哺’了 GeForce,使计算机图形进入真正的 AI 驱动时代。”
谈到最近几个月 AI 领域的种种飞跃(如 DeepSea 等模型),黄仁勋指出,模型速度正以每 7 个月翻一番的惊人速度增长,而数据规模也在迅猛扩大。这意味着:
“我们每年对计算量的需求,可能会上升 10 倍。”
为理解如何跟上这种指数级增长,黄仁勋回顾了计算史上几个关键节点:
1 、软件打包时代
软件编译打包到 CD-ROM 中出售;
只能靠摩尔定律和 CPU 架构来提升性能。
2、加速计算与CUDA的崛起
可替换底层算法并配合 GPU 架构的迭代;
实现全栈优化,摆脱了单纯依靠 CPU 主频提升的束缚;
使性能增长远超摩尔定律。
3、AI精度调整与并行
AI 算法对高精度要求相对宽容;
可将 FP32“降级”到 FP16、FP8,获得倍数级能效提升;
同时,可将更多计算负载并行化,延展到多 GPU、多节点乃至多机架。
综合来看,黄仁勋形容,过去 10 年,计算规模已经提升了上百万倍。而摩尔定律在同样时长里,理论上只能提升 100 倍左右。
“更关键的是,神经网络本质是软件,它可以被无限重写、改进。在硬件层面加速的同时,新型网络架构也在快速涌现,比如 Transformer 及其变体。二者相互促进,更新换代非常迅速。”
黄仁勋指出,在谈到计算扩展时,需要区分“纵向扩展”(Scale Up)和“横向扩展”(Scale Out):
Scale Up:
让一台机器本身变得更强大; 尽量不大改软件的情况下,大幅提升计算能力; 受限于半导体物理、内存带宽等瓶颈。
Scale Out:
把任务拆分成许多独立部分,分配到不同节点协同工作; 典型例子是谷歌的 MapReduce,以及后来的 Hadoop; 更容易受到通信、调度和“人月神话”等因素的影响。
英伟达通过 NVLink 把多块 GPU 串成一个“近似统一”的大 GPU,然后再将这些大 GPU 通过机架间的连接做横向扩展。这种方式结合了纵向与横向的优势。
另外,黄仁勋强调了CPU 的不可或缺:
“根据阿姆达尔定律,总会有一部分计算必须串行。如果说有 10% 的部分不能并行,那么你把那 90% 的并行部分加速到无限快,也还是被那 10% 卡住。对于并行体系来说,单线程的性能其实至关重要,所以我们才自己做 CPU,让它单线程性能更好,再把多线程部分交给 GPU 和 CUDA 来做。”
最后,黄仁勋被问到是否有一些最初没预料到,却又让他颇感兴趣的 GPU 用途。他回答说,最让他惊喜的往往是实时性要求高但又计算量巨大的领域。例如,5G 基站:
“传统做法会用专门的芯片来处理无线电基带,但我们把它放在 CUDA 上,用软件定义的方式来实现。这样做的好处是,可以在各种环节中整合或替换成 AI 算法,比如深度学习基带处理、大规模 MIMO(Massive MIMO)、多基站之间的流量调度等等。”
一旦把无线电网络视作一个“机器人网络”,就能用强化学习让系统自适应与自我优化,既能节省能耗,又能提高频谱效率。他还提出,AI 在通信网络层面可以给带宽带来惊人的“压缩”效果:
“比如在视频通话里,前几帧传了画面后,后续可以只依赖音频信号来预测说话人的表情、口型,用神经网络在本地重建;如此一来,带宽需求就可能减少上千倍。”
加之人类先验,完全可以靠终端侧生成模型来重构画面,大幅度用“计算”替代“网络传输”。
从最初的 Apple II、喜爱的游戏《Asteroid》,到对 C++ 的“复杂情感”;从 “CUDA 让 AI 研究者拥有超级计算机” 的过往,到 “AI 又反过来革命了 GeForce” 的现在;从 “降精度带来算力倍增” 到 “算力提升推动新网络架构诞生”,黄仁勋在访谈中娓娓道来,展现了 GPU 技术在人工智能时代的全新高度与无限潜力。
可以预见,未来的 GPU 将越来越多地与 AI、并行计算、“边缘实时”应用深度融合,从而创造出更多“意想不到”的新场景与新可能。随着硬件与软件持续迭代,整个行业的创新也将继续高歌猛进,或许在不久的将来,我们会看到更多令人惊叹的成果。
但仅仅这样还是不够的。要知道,能搞出“0~1”的不一定搞得出“1~100”,成果发明人与专利转化者、生产工艺设计者、生产制造组织者是两个完全不同的体系。这也是为什么我们给了发明人50%甚至70%的股权,但是好像没看到多少千万富翁、亿万富翁出来,因为他们的专利成果没有变成现实生产力。我们应该参考《拜杜法案》,把科研成果的投资者、研发人员转化人员三方积极性都调动起来,加速科研成果转化和产业化。
打开微信,点击底部的“发现”,使用
“扫一扫”即可将网页分享至朋友圈。
点击右上角分享按钮