加入我们

谷歌首席科学家迪恩:AI专用硬件的进步,将会促进更多科学发现,以及更强大的智能体

已发布

2025年05月13日

分享

Google Chief Scientist Jeff Dean简介

杰夫·迪恩(Jeff Dean)是谷歌的首席科学家,也是计算机科学和人工智能领域的杰出人物。他在构建谷歌大规模分布式系统(如MapReduce、BigTable、Spanner)及推动AI研究与应用方面发挥了核心作用。他参与了TensorFlow等重要AI工具的开发,并在深度学习、自然语言处理、计算机视觉等前沿领域做出了巨大贡献。作为谷歌AI研究的领军人物,他对整个科技界具有深远影响,是该领域最具影响力的人物之一。

访谈全文

主持人: 我们请到了杰夫·迪恩。如果你读过杰夫的履历,就会知道他在谷歌的各个时期都负责过很多事情,包括监督这个行业的诞生,以及多年前引发热潮的 BERT 论文。我们 Sequoia 非常幸运能有我们的合伙人比尔·科恩,他在加入 Sequoia 前,在谷歌和杰夫一起负责了大约十年的大部分工程工作。现在,欢迎杰夫和比尔。

主持人比尔·科恩: 谢谢。杰夫,很高兴见到你。我们曾一起工作过几年,杰夫偶尔还愿意和我聊聊,对此我感到非常自豪。我们偶尔会一起吃晚饭,非常开心。

好的,他现在是 Alphabet 的首席科学家。我想我们就从这里开始吧。显然,在座的许多人都对人工智能及其发展感到兴奋。

谷歌显然推出了很多行业赖以发展的基础技术,比如 Transformer 等等。您怎么看待当下的发展方向,无论是谷歌内部还是整个行业?

杰夫·迪恩: 是的,我认为这段时期其实发展了相当长的时间,尽管它在过去三四年才进入大众视野。但实际上,可能从 2012 年和 2013 年开始,人们就能够使用这些在当时看来非常大的神经网络来解决有趣的问题。同样的算法方法可以用于视觉、语音和语言。这相当引人注目,并将人们对解决这些问题的关注点从传统的、手工设计的方法转移到机器学习上。


截屏2025-05-13 16.46.35.png

我们早在 2012 年就感兴趣的一件事是如何扩展和训练非常大的神经网络。我们训练了一个神经网络,其规模是当时其他任何网络的 60 倍。我们使用了 16,000 个 CPU 核心,因为那是我们数据中心拥有的资源,并取得了非常好的结果。这在我们脑海中牢固地确立了,扩展这些方法将非常有效。有很多证据支持这一点,并且硬件的改进也帮助我们增强了扩展到越来越大模型和数据集的能力。

我们有一个说法是:“更大的模型、更多的数据、更好的结果”,在过去 12 或 15 年里,这一点基本是成立的。至于未来的发展方向,我认为现在我们拥有的模型能够做非常有趣的事情。它们不能解决所有问题,但随着模型的改进,它们每年都能应对越来越多的挑战。我们有更好的算法改进,展示了如何在相同的计算成本下训练更大的模型,从而得到更有能力的模型。

此外,我们还在扩展硬件,并提高了单位硬件的计算能力。而且,我们还有强化学习和训练后处理方法,这些方法正在让模型变得更好,并引导它们按照我们希望的方式行动。我认为这非常令人兴奋。

多模态是另一个重要方向,例如能够输入音频、视频、图像、文本或代码,并输出所有这些类型的内容。

主持人比尔·科恩: 我认为,整个行业现在正被“智能体”(Agent)所吸引。您认为智能体有多真实?我知道谷歌推出了一套智能体框架。其中一些东西,不一定是谷歌的,但有些智能体的东西在我看来有点像是空中楼阁。不好意思,各位,我说话比较直接。

杰夫·迪恩: 我认为智能体有很多潜力,因为我确实看到一条路径,通过正确的训练过程,智能体最终能够像人类今天一样,在虚拟计算机环境中完成许多事情。现在,它们能够完成一些事情,但还不是大多数。然而,提升其能力的路径是相当清晰的。你可以进行更多的强化学习,让它们从更多的智能体经验中学习。现在有一些早期的、尚处于萌芽阶段的产品,它们可以做一些事情,但不是大多数,即便如此,它们对人们来说仍然非常有用。

我认为类似的进展也将在物理机器人智能体上发生。目前,我们可能即将进入一个过渡期,机器人将能够在像这个房间这样杂乱的环境中运行。现在它们还不能完美工作,但你可以看到一条路径,在未来一两年内,它们将开始能够在这样的环境中执行大约 20 个有用的任务。这将导致推出一些相当昂贵的机器人产品,能够执行这 20 项任务。

随着这些机器人从经验中学习,它们会进行成本优化,从而诞生出便宜十倍、能够执行 1000 项任务的版本。这个过程将进一步带来更多的成本优化,并进一步提升它们的能力。

主持人比尔·科恩: 这很令人兴奋。确实如此,而且尽管“智能体”是当下的热门词,它看起来确实正在成为现实。我想,与许多年轻公司相关联的另一件事是大模型的发展情况。

显然,谷歌有 Gemini 2.5 Pro 和 Deep Research 等等。然后还有 OpenAI 和许多其他参与者。对于有多少大语言模型、开源模型、闭源模型,未来的走向如何,我认为存在一场开放的辩论。

您对此有什么看法?显然,谷歌拥有强大的地位,而且我相信也希望在这个领域占据主导。但您怎么看待这个领域的格局?

杰夫·迪恩: 是的,我认为构建绝对最前沿的模型显然需要相当多的投入。我认为不会有 50 个这样的模型,可能会有少数几个。并且,一旦你拥有了这些有能力的模型,就有可能制造出更轻量化的模型,用于更多的事情,因为你可以使用像“知识蒸馏”这样的技术,我就是这项技术的共同作者之一,这项技术在 NeurIPS 2014 年被拒了,理由是“不太可能产生影响”。

主持人比尔·科恩: 我听说过这事。 我听说这种技术可能帮助了 DeepMind。

杰夫·迪恩: 所以,如果你有一个更好的模型,知识蒸馏是一种非常好的技术。然后你可以将其放到一个规模更小的东西里,它实际上非常轻便、快速,拥有你可能想要的各种特性。因此,我认为在这个领域会有相当多不同的参与者,因为有不同形态的模型,或者专注于不同类型事物的模型。但我认为,少数几个真正有能力的通用型模型也会做得很好。

主持人比尔·科恩: 说得对。硬件是另一个有趣的事情。在我看来,每个大型参与者都在构建自己的硬件。显然,谷歌非常公开地介绍了 TPU 项目,但亚马逊有自己的。有传言说 Meta 正在开发,有传言说 OpenAI 也在构建。硬件种类很多,但整个行业似乎只听说英伟达。我相信在您的办公室里并非如此,但您怎么看待这个问题?专用硬件对这些东西有多重要?

杰夫·迪恩:  显然,拥有专注于机器学习式计算的硬件,以及我常说的用于低精度线性代数的加速器,正是你所需要的。你需要它们一代比一代更强,需要它们通过超高速网络大规模地连接在一起,这样你就可以将模型的计算分散到尽可能多的计算设备上。我认为这极其重要。

我在2013年帮助启动了TPU项目,因为当时显然我们会需要大量计算力进行推理。那是第一代。然后下一代TPU,TPUv2,就专注于推理和训练,因为我们看到了这方面的巨大需求。

我们现在正在开发。出于某种令人恼火的原因,我们停止了编号。所以现在我们在开发的是 Ironwood,它即将推出,而在这之前是 Trillium。

主持人比尔·科恩:  小心点。这听起来像英特尔的芯片命名策略,那种策略效果不太好。跟我的 premium 编辑距离很小,这有点吓到我了。

话说回来,我稍微跑题一下,然后我们或许可以开放给现场的朋友们提问。我有很多朋友是物理学家。当杰夫·辛顿和他的同事们获得诺贝尔物理学奖时,他们有点惊讶。

你如何看待人工智能?我认识的一些物理学家有点“被冒犯”,因为非物理学家开始赢得诺贝尔奖了。你觉得目前人工智能在各个领域会走多远?

杰夫·迪恩:  我认为会走得相当远。而且,今年我的同事 Demis 和 John Jumper 也因此获奖。所以,周一和周二,我们双喜临门庆祝了诺贝尔奖。

我认为这表明人工智能确实正在影响许多不同的科学领域。因为,说到底,你能否从有意义的数据中学习?科学的很多部分都是关于建立事物之间的联系并理解它们。如果你能有人工智能辅助完成这项工作,就会开启新的可能性。

我在许多不同的科学领域看到的一件事是,许多学科通常都有针对某个过程极其昂贵的计算模拟器。天气预报就是一个很好的例子,流体动力学或量子化学模拟也是如此。通常,你可以做的是利用这些模拟器作为神经网络的训练数据,然后构建一个能够近似模拟器的东西,但现在速度快了30万倍。

这彻底改变了你做科学的方式。突然之间,你不再需要在你没有的计算资源上运行一年的模拟,而是可以去吃个午饭,然后筛选1000万个分子。我认为这从根本上改变了你做事的过程,并将带来更快的发现。

主持人比尔·科恩:  我认为如果这个时候观众有问题,可能是最有趣的。

现场提问者:  嗯,实际上,只是快速跟进一下,杰夫·辛顿在研究了数字计算和模拟计算作为未来推理和学习平台的影响或区别之后,就离开了谷歌。我想知道,推理硬件的未来是模拟的吗?

杰夫·迪恩:  这绝对是一种可能性。我认为模拟计算在功耗方面有很多很好的特性,非常非常节能。我认为数字方面也有很大的空间可以针对推理进行更专业的优化。而且通常来说,它更容易使用。但我认为有一个总体的方向是,我们如何才能制造出比今天更高效十倍、二十倍、五十倍、甚至上千倍的推理硬件。只要我们下定决心,这看起来完全可能。实际上,我也花了一些时间在这方面。

现场提问者:  我本来想问一下关于开发者体验和硬件的问题。我认为 TPU 硬件非常出色。但大家普遍认为 CUDA 或其他技术比 TPU 层更容易使用。所以我很想听听你对此的看法。这是你一直在思考或者收到很多抱怨邮件的事情吗?

杰夫·迪恩:  是的,我跟 Cloud TPU 客户的直接联系不多,但体验肯定是可以改进的。我们在2018年开始着手的一件事是一个叫做 Pathways 的系统,它旨在使我们能够整合许多不同的计算设备,并提供一个非常好的抽象层,底层运行时系统会管理虚拟设备到物理设备的映射。

截屏2025-05-13 16.46.52.png

我们对 PyTorch 和 JAX 都提供了支持。我们在内部主要使用 JAX。但我们拥有的是一个看起来好像连接了10,000个设备的 JAX Python 进程。你只需像机器学习研究人员那样编写代码。你可以用四台、八台、十六台或六十四台设备进行原型开发。然后你改变一个常量,就可以用不同的 Pathways 后端,连接1,000或10,000个芯片运行,就可以开始了。

比如我们最大的 Gemini 模型,就是由一个 Python 进程驱动整个训练过程,使用数万个芯片,效果相当好。因此,开发者体验我认为相当不错。

有一点我想说的是,到目前为止,我们还没有向 Cloud 客户提供这项服务,但我们刚刚在 Cloud Next 大会上宣布,现在 Pathways 将向 Cloud 客户开放。这样其他人也能享受到一个 Python 进程连接数千台设备的愉快体验了。

我同意,那比为你的256个芯片管理64个处理器要好得多。你为什么要那样做呢?

现场提问者:  我很喜欢使用 Gemini API。如果能有一个 API key 而不是 Google Cloud 凭证设置,那就更简单了。你们有没有计划将当前的 Google Cloud Gemini 技术栈与目前主要用于测试的 Gemini 项目设置进行统一?

杰夫·迪恩:  是的,我认为正在研究如何简化流程。这是一个已知的问题,我个人没有花很多时间在这上面,但我知道像 Logan 以及开发者团队的其他人已经意识到了这个痛点。我们希望让使用我们的模型变得毫无阻碍。

现场提问者:  现在是计算领域一个有趣的时代。摩尔定律和登纳德缩放完全失效,而人工智能却在疯狂地扩展。在驱动这些超级计算机和构建中的基础设施方面,你拥有相当独特的地位。你知道如何将工作负载映射到这些设备上,这是一种独特的技能。你认为计算的未来会是什么样子?从渐近的思想实验层面来看,计算基础设施正朝着什么方向发展?

杰夫·迪恩: 确实,很清楚的一点是,在过去的五年、十年里,我们想要在计算机上运行的计算类型发生了巨大变化。最初这只是一个小小的涟漪,但现在很明显,我们希望以极高的性能和极低的功耗运行规模惊人的神经网络。我们还需要训练它们,这与推理(inference)相当不同。训练和推理是截然不同的工作负载类型。因此,将两者视为可能需要不同解决方案或某种专业化解决方案是很有用的。

截屏2025-05-13 16.47.24.png

我认为你会看到计算平台会针对这个新现实进行各种适配,因为我们渴望运行能力极强的模型。其中一部分将用于低功耗环境,比如你的手机。你希望你的手机能够超快地运行参数众多、能力极强的模型,这样当你和手机交谈时,它就能立刻响应你,并帮助你完成各种事情。你还会希望在机器人和自动驾驶汽车上运行这些模型。我们已经在某种程度上这样做了,但更好的硬件将使这些系统更容易构建,并在世界上创造出能力更强的物理智能体。

此外,你还希望在数据中心以惊人的规模运行这些模型。推理时间的计算需求会因问题而异;很明显,对于某些问题,你希望使用比其他问题多一万倍的计算量。这带来了一个新的扩展维度,可以增强你的模型能力或改善其答案,使其能够执行比基线需要更多计算量的任务。然而,关键在于不要对所有事情都花费一万倍的计算量。

那么,如何让你的系统很好地应对各种需求呢?我认为这是硬件、系统软件、模型和算法技巧以及蒸馏(distillation)的结合。所有这些方面都可以帮助在小的计算足迹内实现出色的模型。

主持人比尔·科恩: 我注意到的一点是,计算机科学,至少传统上,在人们研究算法和计算复杂度时,都只关注操作计数(op count)。我认为随着人们重新关注硬件以及硬件和系统设计的细节,重新成为焦点的其中一点是你需要考虑网络带宽和内存带宽等因素。因此,我认为许多传统的算法分析需要彻底重新思考,仅仅是因为实际计算的现实情况。

杰夫·迪恩: 是的,我在读研时的一个室友,他的论文就是关于缓存感知算法(cache aware algorithms)的,因为大O表示法的数量级并没有考虑到某些操作比其他操作差100倍的事实。是的,没错。我认为在现代机器学习计算中,你在极其微小的层面上关心数据移动,比如将数据从SRAM移动到累加器会花费你极少量的皮焦耳,但这比实际操作花费的能量要多得多。所以,如今把皮焦耳(picojoules)挂在嘴边是很重要的。

主持人比尔·科恩: 还有一个快速问题。你试过 Code Vibe 吗?

杰夫·迪恩: 我试过一点。它实际上效果出奇地好。我们有一些不错的演示。我们有一个小演示聊天室。实际上,我们有很多聊天室。我们通过聊天室来运行 Gemini。我在大约200个聊天室里。当我起床刷牙时,会收到大约九条通知,因为我伦敦的同事们正在忙碌地工作。

我们有一个聊天室,人们可以在其中展示他们看到的很酷的演示。其中一个特别酷的演示是,你输入一个教育类的 YouTube 视频。提示语大概是:“请根据这个视频的概念,帮我做一个使用图形和互动来辅助说明的教育游戏。”它不是每次都能成功,但有30%的几率,你会得到一些相当酷且与微分方程、前往火星或某种细胞方面的概念相关的成果。

这对于教育来说是一个不可思议的信号。我们现在拥有以及未来几年将拥有的工具,确实有改变世界的巨大机会,而且是以如此多积极的方式。所以我认为我们都应该记住这一点,这才是我们应该努力的方向。

现场提问者: 是的,我们很想听听你对搜索未来的看法。特别是考虑到 Chrome 有如此大的分发量,对吧?而且 Chrome 已经知道支付凭据和网页登录凭据。你有没有想过把 Gemini 直接整合进 Chrome,把 Chrome 应用变成 Gemini 应用,而不是一个单独的应用?我这么说是因为我是个资深 Googler,所以只是在想……

杰夫·迪恩: 是的,我的意思是,我认为利用核心的 Gemini 模型或其他模型确实可以实现许多有趣的下游应用。其中之一是,它能否通过观察你在做什么以及对标签进行OCR(光学字符识别),来帮助你在浏览器或完整的电脑桌面上完成任务?

或者它可能可以直接访问原始的标签内容。这看起来会非常有用。

我认为我们在这个领域有一些早期工作,我们以视频形式发布了公开演示,看起来很有用,比如 Mariner 等等。有待观察。

现场提问者: Jeff,有一个问题想问你。感谢你的评论,非常有见地。你之前提到,基础模型的玩家数量可能会很少。这主要是因为基础设施成本以及保持在技术前沿所需的投资规模。

随着这场前沿之战的展开,你认为最终的结局会走向何方?这会把我们引向何处?仅仅是谁砸钱最多、构建最大的集群谁就赢了吗?

还是说这更微妙?你刚才提到了更好地利用统一内存优化以及更有效地利用已有资源。这是否关乎消费者体验?这场军备竞赛最终会把我们引向何方?

主持人比尔·科恩: 不就是谁先达到 Skynet(天网),游戏就结束了吗?

杰夫·迪恩: 是的,我认为这将需要真正优秀且富有洞察力的算法工作,以及真正出色的系统、硬件和基础设施工作。我认为这两者中的任何一个都不比另一个更重要,因为我们看到,比如我们的 Gemini 在代际演进中,算法改进与硬件改进或我们投入的更多硬件同等重要,甚至可能更重要。但两者都极其重要。

然后,从产品角度来看,这个领域有一些早期产品。然而,我认为我们还没有集体找到那个(或者很可能是很多个)能成为数亿人日常使用的产品。我认为在教育领域或一般信息检索领域可能存在一些类似搜索,但利用了大型多模态模型优势的产品。

我认为,帮助人们在任何工作环境中都能把事情做好,这将是一件非常有用的事情。这将在产品设置中如何体现呢?例如,我如何管理我的由50个虚拟代理组成的团队,它们正在执行各种任务?它们很可能大部分时间都在做正确的事情,但偶尔需要就某些选择与我协商。我需要给它们一些指导。我如何管理50个虚拟实习生?这将非常复杂。现场提问者:   嗨,Jeff,谢谢你来到这里,就在这里。不好意思。说实在的,我想不出世界上还有比你更适合问这个问题的人了。你认为我们距离拥有一个能以初级工程师水平全天候(24-7)工作的AI还有多远?

杰夫·迪恩:不远了。

主持人比尔·科恩:是六周还是六年?

杰夫·迪恩:AI领域的每一年感觉都像狗的七年一样。我认为这可能在未来一年左右实现。

现场提问者:嗨,Jeff。你谈到了扩展预训练和现在的扩展强化学习(RL)。你如何看待这些模型的未来发展轨迹?会是一个包含所有计算的大型模型,还是由这些大型模型蒸馏出的一系列较小模型并行工作?你如何看待未来的格局?

杰夫·迪恩:是的,我是那种稀疏模型(sparse models)的忠实粉丝,它们在模型的不同部分拥有不同的专业知识。因为,从我们微弱的生物学类比来看,我们真正的大脑之所以如此节能,部分原因就在于此——我们的功耗大约是20瓦,却能做很多事情。但当我们担心垃圾车在我们身后倒车时,我们处理莎士比亚诗歌的那部分大脑并没有活跃。

我觉得这方面我们通过专家混合(Mixture of Experts,MoE)式的模型做了一些工作。我们在这个领域做了一些早期研究,比如我们有2048个专家,并展示了这能极大地提高效率,每训练一次浮点运算(training flop)获得的模型质量提升了10到100倍。这超级重要,但感觉我们还没完全探索这个领域,因为现在大家倾向于做的稀疏性非常规则。

感觉你希望模型中有一些路径比其他路径昂贵100或1000倍,你也希望模型中的某些专家或部分只使用极少的计算资源,而有些则需要非常大的计算量。也许它们应该有不同的结构。我认为你应该能够通过新增参数或新的空间来扩展模型。

或许你应该能够通过对模型的一部分运行蒸馏过程来压缩它,使其大小变为原来的四分之一。然后,你有一个后台的“垃圾回收”过程,它会说:“太好了,我有更多内存可用了”,然后将这些参数或内存字节存放在其他地方,更有效地利用它们。

对我来说,这看起来比我们现在拥有的系统更像一个有机、持续学习的系统。当然,唯一的缺点是我们现在做的事情非常有效。

所以,完全改变你正在做的事情,变得更像那样,会有点困难。但我确实认为,采用这种风格而非我们现在这种更僵硬定义的模型,会带来巨大的好处。

主持人比尔·科恩:我想再问一个问题,然后我们可能就要结束了。

现场提问者:嗨,我想回到那个“一年内出现初级工程师水平AI”的话题。我很好奇,你认为需要哪些进展才能达到那个目标?显然,代码生成可能会变得更好。但在代码生成之外,你认为还有什么能让我们实现这个目标?工具使用?代理式规划(agentic planning)?

杰夫·迪恩:是的,我认为这个假设中的虚拟工程师可能需要比仅仅在IDE中写代码更有多方面的能力。它需要知道如何运行测试、调试性能问题,处理所有这些事情。

我们知道人类工程师如何完成这些任务。他们学会使用各种可用的工具,并能利用这些工具来实现他们的目标。通常,他们会从更有经验的工程师那里获得智慧和见解,或者通过阅读大量文档。

我觉得一个初级虚拟工程师会非常擅长阅读文档并在虚拟环境中进行实验。这似乎是提高自己并更好地完成这些各种任务的实用方法。我不知道这能带我们走多远,但这似乎能带我们走得很远。

主持人比尔·科恩:Jeff,谢谢你来分享你的智慧。谢谢你。很高兴见到你。

图片1_副本.png

文章来源:瓜哥AI新知,版权属于原作者,本网站仅用于公益宣传,转载请注明文章作者及来源。如有侵权请联系我们及时删除。


分享到微信朋友圈 ×

点击右上角分享按钮