发布日期:2025-03-31 07:06 点击次数:151
梦晨 一水 发自 凹非寺量子位 | 公众号 QbitAI
谷歌两位大佬复兴一切:从PageRank到AGI的25年。
现任首席科学家Jeff Dean、出走又挂牵的Transformer作家oam Shazeer,与著明播客主握东谈主Dwarkesh Patel张开对谈。
视频刚发几个小时,就有20万+网友在线围不雅。

两东谈主齐是谷歌邃古职工,资格了从MapReduce到Transformer、MoE,他们发明了许多篡改通盘互联网和AI的弊端时间。
Noam Shazeer却谈到当初入职谷歌仅仅为了捞一笔就跑,没猜测成了篡改天下的阿谁东谈主。
在两个多小时的话语中,他们闪现了AI算力的近况:
单个数据中心仍是不够了,Gemini仍是在跨多个大城市的数据中心异步检修。也对当下最流行的时间趋势作念了探讨:
推理算力Scaling还有很大空间,因为与AI对话比念书仍然低廉100倍改日的模子架构会比MoE更活泼,允许不同的团队孤独开荒不同的部分……
网友们也在边听边po发现的亮点:
比如在内存中存储一个宏大的MoE模子的遐想。
以及“代码中的bug可能有时会对AI模子有正面影响”。
跟着范围的扩大,某些bug恰是让计划东谈主员发现新冲破的机会。
推理算力Scaling的改日许多东谈主以为AI算力很贵,Jeff Dean不这样认为,他用念书和与AI计划一册书来对比:
当前开端进的语言模子每次运算的资本约为10-18好意思元,这意味着一好意思元不错处理一百万个token。
比拟之下,买一册平装书的资本苟简迥殊于每1好意思元买1万个token(单词数换算成token)。
那么,与大模子对话就比念书低廉约100倍。
这种资本上风,为通过加多推理算力来擢升AI的智能提供了空间。
从基础设施角度来看,推理时辰策划的紧要性加多可能会影响数据中心经营。
可能需要专门为推理任务定制硬件,就像谷歌初代TPU一样,它领先是为推理的办法设计,自后才被矫正为也因循检修。
对推理的依赖加多可能意味着不同的数据中心不需要握续通讯,可能导致更散布式、异步的策划。
在检修层面,Gemini 1.5仍是开动使用多个大城市的策划资源,通过高速的采集连合将不同数据中心中的策划收尾同步,告捷达成了超大范围的检修。
对于大模子来说,检修每一步的时辰可能是几秒钟,因此即使采集延长有50毫秒,也不会对检修产生权贵影响。
到了推理层面,还需要研究任务是否对延长明锐。淌若用户在恭候即时反馈,系统需要针对低延长性能进行优化。关联词,也有一些非遑急的推理任务,比如运行复杂的坎坷文分析,不错承受更长的处理时辰。
更活泼和高效的系统可能有时异步处理多个任务,在提高合座性能的同期最大限制地减少用户恭候时辰。
此外,算法效力的擢升,如使用较小的草稿(Draft)模子,不错匡助缓解推理经过中的瓶颈。在这种法子中,较小的模子生成潜在的token,然后传递给较大的模子进行考证。这种并行化不错权贵加速推理经过,减少一次一个token的欺压。
Noam Shazeer补充,在进行异步检修时,每个模子副本会孤独进行策划,并将梯度更新发送到中央系统进行异步套用。天然这种形貌会使得模子参数略有波动,表面上会有影响,但执行解释它是告捷的。
比拟之下,使用同步检修模式能提供愈加沉稳和可叠加的收尾,这是许多计划者愈加深爱的模式。
在谈到怎么保证检修的可叠加性时,Jeff Dean提到一种法子是纪录操作日记,尤其是梯度更新和数据批次的同步纪录。通过回放这些操作日记,即使在异步检修的情况下,也有时确保收尾的可叠加性。这种法子不错让调试变得愈加可控,幸免因为环境中的其他要素导致收尾不一致。
Bug也有克己顺着这个话题,Noam Shazeer提倡一个故真谛的不雅点:
检修模子时可能会际遇多样各类的bug,但由于杂音的容忍度,模子可能会自我挽回,从而产生未知的效果。
以致有的bug会产生正面影响,跟着范围的扩大,因为某些bug在实验中可能会阐扬出极端,让计划东谈主员发现新的改进机会。
当被问及如安在履行办事中调试bug时,Noam Shazeer先容他们时时会在小范围下进行大量实验,这样不错快速考证不同的假定。在小范围实验中,代码库保握简便,实验周期在一到两个小时而不是几周,计划东谈主员不错快速取得反馈并作念出挽回。
Jeff Dean补充说,许多实验的初期收尾可能并不睬想,因此一些“看似不告捷”的实验可能在后期仍然有时为计划提供紧要的想法。
与此同期,计划东谈主员濒临着代码复杂性的问题:天然约束叠加新的改进和革命是必要的,但代码的复杂性也会带来性能和调遣上的挑战,需要在系统的整洁性和革命的鼓动之间找到均衡。
改日模子的有机结构他们认为,AI模子正在资格从单一结构向模块化架构的紧要转机。
如Gemini 1.5Pro等模子仍是取舍了民众夹杂(Mixture of Expert)架构,允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分,而在处理图像时则会激活专门处理图像的模块。
关联词,当前的模子结构仍然较为僵化,各个民众模块大小沟通,且衰退满盈的活泼性。
Jeff Dean提倡了一个更具前瞻性的遐想:改日的模子应该取舍更有机的结构,允许不同的团队孤独开荒或改进模子的不同部分。
举例,一个专注于东南亚语言的团队不错专门改进该领域的模块,而另一个团队则不错专注于擢升代码认识智商。
这种模块化法子不仅能提高开荒效力,还能让寰球各地的团队齐能为模子的卓越作念出孝敬。
在时间达成方面,模子不错通过蒸馏(Distillation)时间来约束优化各个模块。这个经过包括将大型高性能模块蒸馏为袖珍高效版块,然后在此基础上连接学习新常识。
路由器不错凭据任务的复杂进程,取舍调用妥贴范围的模块版块,从而在性能和效力之间取得均衡,这恰是谷歌Pathway架构的初志。
这种新式架构对基础设施提倡了更高条目。它需要苍劲的TPU集群和充足的高带宽内存(HBM)因循。尽管每个调用可能只使用模子的一小部分参数,但通盘系统仍需要将圆善模子保握在内存中,以服务于并行的不同央求。
现在的模子能将一个任务确认成10个子任务并有80%的告捷率,改日的模子有时将一个任务确认成100或1000个子任务,告捷率达到90%以致更高。
“Holy Shit时刻”:准确识别猫回迥殊看,2007年对于大模子(LLMs)来说算得上一个紧要时刻。
那时谷歌使用2万亿个tokens检修了一个N-gram模子用于机器翻译。
但是,由于依赖磁盘存储N-gram数据,导致每次查询需大量磁盘I/O(如10万次搜索/单词),延长相当高,翻译一个句子就要12小时。
于是自后他们猜测了内存压缩、散布式架构以及批处理API优化等多种应酬举措。
内存压缩:将N-gram数据十足加载到内存,幸免磁盘I/O;散布式架构:将数据分片存储到多台机器(如200台),达成并行查询;批处理API优化:减少单次央求支拨,擢升隐约量。经过中,策划智商开动罢免摩尔定律在之后浮松呈现爆发式增长。
从2008年末开动,多亏了摩尔定律,神经采集确切开动起作用了。
那么,有莫得哪一个时刻属于“Holy shit”呢?(我方齐不敢信服某项计划真实起作用了)
不出不测,Jeff谈到了在谷歌早期团队中,他们让模子从油管视频帧中自动学习高等特征(如识别猫、行东谈主),通过散布式检修(2000台机器,16000核)达成了大范围无监督学习。
而在无监督预检修后,模子在监督任务(ImageNet)中性能擢升了60%,解释了范围化检修和无监督学习的后劲。
接下来,当被问及如今谷歌是否仍仅仅一乡信息检索公司的问题,Jeff用了一大段话抒发了一个不雅点:
AI履行了谷歌的原始任务
简便说,AI不仅能检索信息,还能认识和生成复杂内容,而且改日遐想力空间宏大。
至于谷歌改日去处何方,“我不知谈”。
不外不错期待一下,改日将谷歌和一些开源源代码整合到每个开荒者的坎坷文中。
换句话说,通过让模子处理更多tokens,在搜索中搜索,来进一步增强模子智商和实用性。
天然,这一想法仍是在谷歌里面开动了实验。
履行上,咱们仍是在里面代码库上为里面开荒东谈主员进行了对于Gemini模子的进一步培训。
更确切的说法是,谷歌里面仍是达成25%代码由AI完成的方针。
在谷歌最欢欣的时光故真谛的是,这二位还在对话中闪现了更多与谷歌联系的意旨资格。
对1999年的Noam来说,正本没计议去谷歌这样的大公司,因为凭直观认为去了也可能不消武之地,但自后当他看到谷歌制作的逐日搜索量指数图表后,立马转机了想法:
这些东谈主一定会告捷,看起来他们还有许多好问题需要管制
于是带着我方的“谨防想”就去了(主动投了简历):
挣一笔钱,然后另外开直爽心去搞我方感兴致的AI计划
而加入谷歌后,他就此结子了导师Jeff(新职工齐会有一个导师),自后两东谈主在多个形式中有过相助。
谈到这里,Jeff也插播了一条他对谷歌的认可点:
可爱谷歌对RM愿景(反馈式和多模态,Responsive and Multimodal)的平凡授权,即使是一个场所,也能作念许多小形式。
而这也雷同为Noam提供了解放空间,以至于当初计议“干一票就跑”的东谈主永久留了下来。
与此同期,当话题转向当事东谈主Jeff时,他的一篇对于平行反向传播的本科论文也被再次说起。
这篇论文只消8页,却成为1990年的最优等本科论文,被明尼苏达大学藏书楼保存于今。
其中,Jeff探讨了两种基于反向传播来平行检修神经采集的法子。
模式分割法(pattern-partitioned approach):将通盘神经采集示意在每一个处理器上,把多样输入模式折柳到可用的处理器上;采集分割法(network-partitioned approach)活水线法(pipelined approach):将神经采集的神经元散布到可用的处理器上,所有处理器组成一个相互通讯的环。然后,特征通过这个pipeline传递的经过中,由每个处理器上的神经元来处理。他还构建了不同大小的神经采集,用几种不同的输入数据,对这两种法子进行了测试。
收尾标明,对于模式分割法,采集大、输入模式多的情况下加速效果比较好。
天然最值得温存的如故,咱们能从这篇论文中看到1990年的“大”神经采集是什么样:
3层、每层分别10、21、10个神经元的神经采集,就算很大了。
论文地址:https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view
Jeff还回忆谈,我方测试用的处理器,最多达到了32个。
(这时的他应该还想不到,12年后他会和吴恩达、Quoc Le等东谈主一齐,用16000个CPU中枢,从海量数据中找出猫。)
不外Jeff坦言,淌若要让这些计划效果确切确认作用,“咱们需要苟简100万倍的策划智商”。
自后,他们又谈到了AI的潜在风险,尤其是当AI变得极其苍劲时可能出现的反馈轮回问题。
换句话说,AI通过编写代码或改进自己算法,可能插足不成控的加速改进轮回(即“智能爆炸”)。
这将导致AI飞快超越东谈主类欺压,以致产生坏心版块。就像主握东谈主打的譬如,有100万个像Jeff这样的顶尖枢纽员,最终形成“100万个粗暴的Jeff”。
(网友):新的恶梦解锁了哈哈哈!
临了,谈及在谷歌最欢欣的时光,二东谈主也分别堕入回忆。
对Jeff来说,在谷歌早期四五年的日子里,最欢欣的莫过于见证谷歌搜索流量的爆炸式增长。
修复一个如今20亿东谈主齐在使用的东西,这相当不成想议。
至于最近,则很直爽和Gemini团队构建一些,即使在5年前东谈主们齐不敢信服的东西,而且不错意想模子的影响力还将扩大。
而Noam也抒发了近似资格和办事,以致乐陶陶cue到了谷歌的“微型厨房区域”。
据先容,这是一个苟简有50张桌子的迥殊空间,提供咖啡小吃,东谈主们不错在这里解放冷静闲聊,碰撞想法。
一说到这个,连Jeff也欢蹦乱跳了(doge):
Okk,以上为两位大佬共享的主要内容。
参考衔接:[1]https://x.com/JeffDean/status/1889780178983031035[2]https://x.com/dwarkesh_sp/status/1889770108949577768
— 完 —
量子位 QbitAI · 头条号签约
温存咱们开yun体育网,第一时辰获知前沿科技动态