开yun体育网这种法子不错让调试变得愈加可控-开云集团「中国」Kaiyun·官方网站

栏目分类

热点资讯

资讯

你的位置：开云集团「中国」Kaiyun·官方网站 > 资讯 > 开yun体育网这种法子不错让调试变得愈加可控-开云集团「中国」Kaiyun·官方网站

发布日期：2025-03-31 07:06 点击次数：151

开yun体育网这种法子不错让调试变得愈加可控-开云集团「中国」Kaiyun·官方网站

梦晨一水发自凹非寺量子位 | 公众号 QbitAI

谷歌两位大佬复兴一切：从PageRank到AGI的25年。

现任首席科学家Jeff Dean、出走又挂牵的Transformer作家oam Shazeer，与著明播客主握东谈主Dwarkesh Patel张开对谈。

视频刚发几个小时，就有20万+网友在线围不雅。

两东谈主齐是谷歌邃古职工，资格了从MapReduce到Transformer、MoE，他们发明了许多篡改通盘互联网和AI的弊端时间。

Noam Shazeer却谈到当初入职谷歌仅仅为了捞一笔就跑，没猜测成了篡改天下的阿谁东谈主。

在两个多小时的话语中，他们闪现了AI算力的近况：

单个数据中心仍是不够了，Gemini仍是在跨多个大城市的数据中心异步检修。

也对当下最流行的时间趋势作念了探讨：

推理算力Scaling还有很大空间，因为与AI对话比念书仍然低廉100倍改日的模子架构会比MoE更活泼，允许不同的团队孤独开荒不同的部分

……

网友们也在边听边po发现的亮点：

比如在内存中存储一个宏大的MoE模子的遐想。

以及“代码中的bug可能有时会对AI模子有正面影响”。

跟着范围的扩大，某些bug恰是让计划东谈主员发现新冲破的机会。

推理算力Scaling的改日

许多东谈主以为AI算力很贵，Jeff Dean不这样认为，他用念书和与AI计划一册书来对比：

当前开端进的语言模子每次运算的资本约为10-18好意思元，这意味着一好意思元不错处理一百万个token。

比拟之下，买一册平装书的资本苟简迥殊于每1好意思元买1万个token（单词数换算成token）。

那么，与大模子对话就比念书低廉约100倍。

这种资本上风，为通过加多推理算力来擢升AI的智能提供了空间。

从基础设施角度来看，推理时辰策划的紧要性加多可能会影响数据中心经营。

可能需要专门为推理任务定制硬件，就像谷歌初代TPU一样，它领先是为推理的办法设计，自后才被矫正为也因循检修。

对推理的依赖加多可能意味着不同的数据中心不需要握续通讯，可能导致更散布式、异步的策划。

在检修层面，Gemini 1.5仍是开动使用多个大城市的策划资源，通过高速的采集连合将不同数据中心中的策划收尾同步，告捷达成了超大范围的检修。

对于大模子来说，检修每一步的时辰可能是几秒钟，因此即使采集延长有50毫秒，也不会对检修产生权贵影响。

到了推理层面，还需要研究任务是否对延长明锐。淌若用户在恭候即时反馈，系统需要针对低延长性能进行优化。关联词，也有一些非遑急的推理任务，比如运行复杂的坎坷文分析，不错承受更长的处理时辰。

更活泼和高效的系统可能有时异步处理多个任务，在提高合座性能的同期最大限制地减少用户恭候时辰。

此外，算法效力的擢升，如使用较小的草稿（Draft）模子，不错匡助缓解推理经过中的瓶颈。在这种法子中，较小的模子生成潜在的token，然后传递给较大的模子进行考证。这种并行化不错权贵加速推理经过，减少一次一个token的欺压。

Noam Shazeer补充，在进行异步检修时，每个模子副本会孤独进行策划，并将梯度更新发送到中央系统进行异步套用。天然这种形貌会使得模子参数略有波动，表面上会有影响，但执行解释它是告捷的。

比拟之下，使用同步检修模式能提供愈加沉稳和可叠加的收尾，这是许多计划者愈加深爱的模式。

在谈到怎么保证检修的可叠加性时，Jeff Dean提到一种法子是纪录操作日记，尤其是梯度更新和数据批次的同步纪录。通过回放这些操作日记，即使在异步检修的情况下，也有时确保收尾的可叠加性。这种法子不错让调试变得愈加可控，幸免因为环境中的其他要素导致收尾不一致。

Bug也有克己

顺着这个话题，Noam Shazeer提倡一个故真谛的不雅点：

检修模子时可能会际遇多样各类的bug，但由于杂音的容忍度，模子可能会自我挽回，从而产生未知的效果。

以致有的bug会产生正面影响，跟着范围的扩大，因为某些bug在实验中可能会阐扬出极端，让计划东谈主员发现新的改进机会。

当被问及如安在履行办事中调试bug时，Noam Shazeer先容他们时时会在小范围下进行大量实验，这样不错快速考证不同的假定。在小范围实验中，代码库保握简便，实验周期在一到两个小时而不是几周，计划东谈主员不错快速取得反馈并作念出挽回。

Jeff Dean补充说，许多实验的初期收尾可能并不睬想，因此一些“看似不告捷”的实验可能在后期仍然有时为计划提供紧要的想法。

与此同期，计划东谈主员濒临着代码复杂性的问题：天然约束叠加新的改进和革命是必要的，但代码的复杂性也会带来性能和调遣上的挑战，需要在系统的整洁性和革命的鼓动之间找到均衡。

改日模子的有机结构

他们认为，AI模子正在资格从单一结构向模块化架构的紧要转机。

如Gemini 1.5Pro等模子仍是取舍了民众夹杂（Mixture of Expert）架构，允许模子凭据不同任务激活不同的组件。举例在处理数学问题时会激活擅长数学的部分，而在处理图像时则会激活专门处理图像的模块。

关联词，当前的模子结构仍然较为僵化，各个民众模块大小沟通，且衰退满盈的活泼性。

Jeff Dean提倡了一个更具前瞻性的遐想：改日的模子应该取舍更有机的结构，允许不同的团队孤独开荒或改进模子的不同部分。

举例，一个专注于东南亚语言的团队不错专门改进该领域的模块，而另一个团队则不错专注于擢升代码认识智商。

这种模块化法子不仅能提高开荒效力，还能让寰球各地的团队齐能为模子的卓越作念出孝敬。

在时间达成方面，模子不错通过蒸馏（Distillation）时间来约束优化各个模块。这个经过包括将大型高性能模块蒸馏为袖珍高效版块，然后在此基础上连接学习新常识。

路由器不错凭据任务的复杂进程，取舍调用妥贴范围的模块版块，从而在性能和效力之间取得均衡，这恰是谷歌Pathway架构的初志。

这种新式架构对基础设施提倡了更高条目。它需要苍劲的TPU集群和充足的高带宽内存（HBM）因循。尽管每个调用可能只使用模子的一小部分参数，但通盘系统仍需要将圆善模子保握在内存中，以服务于并行的不同央求。

现在的模子能将一个任务确认成10个子任务并有80%的告捷率，改日的模子有时将一个任务确认成100或1000个子任务，告捷率达到90%以致更高。

“Holy Shit时刻”：准确识别猫

回迥殊看，2007年对于大模子（LLMs）来说算得上一个紧要时刻。

那时谷歌使用2万亿个tokens检修了一个N-gram模子用于机器翻译。

但是，由于依赖磁盘存储N-gram数据，导致每次查询需大量磁盘I/O（如10万次搜索/单词），延长相当高，翻译一个句子就要12小时。

于是自后他们猜测了内存压缩、散布式架构以及批处理API优化等多种应酬举措。

内存压缩：将N-gram数据十足加载到内存，幸免磁盘I/O；散布式架构：将数据分片存储到多台机器（如200台），达成并行查询；批处理API优化：减少单次央求支拨，擢升隐约量。

经过中，策划智商开动罢免摩尔定律在之后浮松呈现爆发式增长。

从2008年末开动，多亏了摩尔定律，神经采集确切开动起作用了。

那么，有莫得哪一个时刻属于“Holy shit”呢？（我方齐不敢信服某项计划真实起作用了）

不出不测，Jeff谈到了在谷歌早期团队中，他们让模子从油管视频帧中自动学习高等特征（如识别猫、行东谈主），通过散布式检修（2000台机器，16000核）达成了大范围无监督学习。

而在无监督预检修后，模子在监督任务（ImageNet）中性能擢升了60%，解释了范围化检修和无监督学习的后劲。

接下来，当被问及如今谷歌是否仍仅仅一乡信息检索公司的问题，Jeff用了一大段话抒发了一个不雅点：

AI履行了谷歌的原始任务

简便说，AI不仅能检索信息，还能认识和生成复杂内容，而且改日遐想力空间宏大。

至于谷歌改日去处何方，“我不知谈”。

不外不错期待一下，改日将谷歌和一些开源源代码整合到每个开荒者的坎坷文中。

换句话说，通过让模子处理更多tokens，在搜索中搜索，来进一步增强模子智商和实用性。

天然，这一想法仍是在谷歌里面开动了实验。

履行上，咱们仍是在里面代码库上为里面开荒东谈主员进行了对于Gemini模子的进一步培训。

更确切的说法是，谷歌里面仍是达成25%代码由AI完成的方针。

在谷歌最欢欣的时光

故真谛的是，这二位还在对话中闪现了更多与谷歌联系的意旨资格。

对1999年的Noam来说，正本没计议去谷歌这样的大公司，因为凭直观认为去了也可能不消武之地，但自后当他看到谷歌制作的逐日搜索量指数图表后，立马转机了想法：

这些东谈主一定会告捷，看起来他们还有许多好问题需要管制

于是带着我方的“谨防想”就去了（主动投了简历）：

挣一笔钱，然后另外开直爽心去搞我方感兴致的AI计划

而加入谷歌后，他就此结子了导师Jeff（新职工齐会有一个导师），自后两东谈主在多个形式中有过相助。

谈到这里，Jeff也插播了一条他对谷歌的认可点：

可爱谷歌对RM愿景（反馈式和多模态，Responsive and Multimodal）的平凡授权，即使是一个场所，也能作念许多小形式。

而这也雷同为Noam提供了解放空间，以至于当初计议“干一票就跑”的东谈主永久留了下来。

与此同期，当话题转向当事东谈主Jeff时，他的一篇对于平行反向传播的本科论文也被再次说起。

这篇论文只消8页，却成为1990年的最优等本科论文，被明尼苏达大学藏书楼保存于今。

其中，Jeff探讨了两种基于反向传播来平行检修神经采集的法子。

模式分割法（pattern-partitioned approach）：将通盘神经采集示意在每一个处理器上，把多样输入模式折柳到可用的处理器上；采集分割法（network-partitioned approach）活水线法（pipelined approach）：将神经采集的神经元散布到可用的处理器上，所有处理器组成一个相互通讯的环。然后，特征通过这个pipeline传递的经过中，由每个处理器上的神经元来处理。

他还构建了不同大小的神经采集，用几种不同的输入数据，对这两种法子进行了测试。

收尾标明，对于模式分割法，采集大、输入模式多的情况下加速效果比较好。

天然最值得温存的如故，咱们能从这篇论文中看到1990年的“大”神经采集是什么样：

3层、每层分别10、21、10个神经元的神经采集，就算很大了。

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff还回忆谈，我方测试用的处理器，最多达到了32个。

（这时的他应该还想不到，12年后他会和吴恩达、Quoc Le等东谈主一齐，用16000个CPU中枢，从海量数据中找出猫。）

不外Jeff坦言，淌若要让这些计划效果确切确认作用，“咱们需要苟简100万倍的策划智商”。

自后，他们又谈到了AI的潜在风险，尤其是当AI变得极其苍劲时可能出现的反馈轮回问题。

换句话说，AI通过编写代码或改进自己算法，可能插足不成控的加速改进轮回（即“智能爆炸”）。

这将导致AI飞快超越东谈主类欺压，以致产生坏心版块。就像主握东谈主打的譬如，有100万个像Jeff这样的顶尖枢纽员，最终形成“100万个粗暴的Jeff”。

（网友）：新的恶梦解锁了哈哈哈！

临了，谈及在谷歌最欢欣的时光，二东谈主也分别堕入回忆。

对Jeff来说，在谷歌早期四五年的日子里，最欢欣的莫过于见证谷歌搜索流量的爆炸式增长。

修复一个如今20亿东谈主齐在使用的东西，这相当不成想议。

至于最近，则很直爽和Gemini团队构建一些，即使在5年前东谈主们齐不敢信服的东西，而且不错意想模子的影响力还将扩大。

而Noam也抒发了近似资格和办事，以致乐陶陶cue到了谷歌的“微型厨房区域”。

据先容，这是一个苟简有50张桌子的迥殊空间，提供咖啡小吃，东谈主们不错在这里解放冷静闲聊，碰撞想法。

一说到这个，连Jeff也欢蹦乱跳了（doge）：

Okk，以上为两位大佬共享的主要内容。

参考衔接:[1]https://x.com/JeffDean/status/1889780178983031035[2]https://x.com/dwarkesh_sp/status/1889770108949577768

— 完 —

量子位 QbitAI · 头条号签约

温存咱们开yun体育网，第一时辰获知前沿科技动态

上一篇：欧洲杯体育不得以任何面孔加以使用-开云集团「中国」Kaiyun·官方网站

下一篇：开yun体育网插足人人影史票房榜前15名-开云集团「中国」Kaiyun·官方网站