一個(gè)「always」站在大模型技術(shù)C位的傳奇男子

2025-05-12 08:40:00

語(yǔ)言模型將以各種方式越來(lái)越多地融入我們的生活，并且將在全球算力中占主導(dǎo)地位。

怎么老是你？？？（How old are you）

這是最近網(wǎng)友不斷對(duì)著Transformer八子之一的Noam Shazeer（為方便閱讀，我們稱他為沙哥）發(fā)出的靈魂疑問(wèn)。

尤其是最近Meta FAIR研究員朱澤園分享了他們《Physics of Language Models》項(xiàng)目的系列新進(jìn)展后，有網(wǎng)友發(fā)現(xiàn)，其中提到的3-token因果卷積相關(guān)內(nèi)容，沙哥等又早在三年前就有相關(guān)研究。

是的，“又”。

因?yàn)槟阒灰崂硪槐樗墓ぷ髀臍v，就不難發(fā)現(xiàn)，AI界大大小小的突破背后，總是能發(fā)現(xiàn)他的名字。

“不是搞個(gè)人崇拜，但為什么總是Noam Shazeer？”

△網(wǎng)友稱右下角沙哥圖由GPT-4o生成

朱澤園也自己也站出來(lái)表示，沙哥成果超前：

我也覺(jué)得Shazeer可能是個(gè)時(shí)間旅行者。
我原本不相信他們的gated MLP（在寫(xiě)第3.3部分的時(shí)候，因?yàn)殚T(mén)控多層感知機(jī)讓訓(xùn)練不穩(wěn)定），但現(xiàn)在我信服了（在添加了Canon層之后，我們?cè)诘?.1部分對(duì)比了多層感知機(jī)和門(mén)控多層感知機(jī)）。

正式認(rèn)識(shí)一下，沙哥是誰(shuí)？

他是Transformer八位作者中被公認(rèn)是“貢獻(xiàn)最大”的那位，也是半路跑去創(chuàng)業(yè)Character.AI，又被谷歌“買回來(lái)”那位。

他并非OpenAI的明星科學(xué)家，也不似DeepMind創(chuàng)始人般頻繁曝光，但若細(xì)察當(dāng)今LLM的核心技術(shù)，其奠基性貢獻(xiàn)隱然貫穿始終。

從引用量超17萬(wàn)次的《Attention is all you need》，到將MoE引入LLM的谷歌早期研究，再到Adafactor算法、多查詢注意力、用于Transformer的門(mén)控線性層（GLU）……

有人感慨，其實(shí)我們現(xiàn)在就是生活在“Noam Shazeer時(shí)代”。

因?yàn)槿缃裰髁髂Ｐ图軜?gòu)的演變，就是在其奠定的基礎(chǔ)上持續(xù)推進(jìn)。

所以，他都做了什么？

Attention Is All You Need是其一

在AI領(lǐng)域，曇花一現(xiàn)的創(chuàng)新者眾多，但能持續(xù)定義技術(shù)范式者鳳毛麟角。

沙哥恰恰屬于后者，他的工作不僅奠定了當(dāng)今大語(yǔ)言模型的基礎(chǔ)，還頻頻在技術(shù)瓶頸出現(xiàn)時(shí)提供關(guān)鍵突破。

其影響力最大的一項(xiàng)工作當(dāng)屬2017年的《Attention Is All You Need》。

2017年的一天，已加入谷歌數(shù)年的沙哥在辦公樓走廊里偶然聽(tīng)到Lukasz Kaiser、Niki Parmar、Ashish Vaswani等幾人的對(duì)話。

他們正興奮地談?wù)撊绾问褂米宰⒁饬Γ掣绠?dāng)時(shí)就被吸引了，他覺(jué)得這是一群有趣的聰明人在做有前途的工作。

而后，沙哥被說(shuō)服加入了這個(gè)已有七人的團(tuán)隊(duì)，成為第八位成員，也是最后一位。

但這個(gè)最后到場(chǎng)的人，卻在短短幾周內(nèi)根據(jù)自己的想法，重新編寫(xiě)了整個(gè)項(xiàng)目代碼，把系統(tǒng)提升到了新的水平，使得Transformer項(xiàng)目“拉開(kāi)了沖刺的序幕”。

沙哥實(shí)力超群卻不自知，當(dāng)看到論文草稿中自己被列為第一作者時(shí)，他還有些驚訝。

在討論一番后，八位作者最后決定打破學(xué)術(shù)界一作二作通訊作的規(guī)則，隨機(jī)排序，并給每個(gè)人名字后都打上星號(hào)，腳注標(biāo)明都是平等貢獻(xiàn)者。

但大家都知道，沙哥加入發(fā)揮了舉足輕重的作用。后來(lái)《Attention Is All You Need》這篇論文引起轟動(dòng)。

而沙哥的恐怖之處，在于他似乎總能比行業(yè)提前數(shù)年看到技術(shù)趨勢(shì)，不只是Transformer。

在《Attention Is All You Need》前后，沙哥還作為一作同三巨頭之一、圖靈獎(jiǎng)得主Geoffrey Hinton以及谷歌元老級(jí)人物、第20號(hào)員工Jeff Dean等合作發(fā)表了另一篇具有代表性的工作——

《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》。

早在那時(shí)就為現(xiàn)今大火的新范式Mixture of Experts（MoE）埋下了伏筆。

這項(xiàng)工作創(chuàng)造性地引入了Sparsely-Gated Mixture-of-Experts，將MoE應(yīng)用于語(yǔ)言建模和機(jī)器翻譯任務(wù)，提出了一種新架構(gòu)，具有1370億參數(shù)的MoE被以卷積方式應(yīng)用于堆疊的LSTM層之間。

規(guī)模放在今天也是超大杯的存在。

雖然MoE的思路早在上世紀(jì)90年代初就已經(jīng)被提出，以Michael I. Jordan、Geoffrey Hinton等的《Adaptive Mixtures of Local Experts》為代表，但沙哥參與的這項(xiàng)研究通過(guò)動(dòng)態(tài)激活子網(wǎng)絡(luò)，讓模型突破更大規(guī)模參數(shù)成為可能，啟發(fā)了后續(xù)諸多基于MoE的模型改進(jìn)和創(chuàng)新。

且沙哥對(duì)MoE的探索遠(yuǎn)不止于此。

2020年，谷歌《GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding》中提出GShard。

它提供了一種優(yōu)雅的方式，只需對(duì)現(xiàn)有模型代碼做很小改動(dòng)，就能表達(dá)各種并行計(jì)算模式。

GShard通過(guò)自動(dòng)分片技術(shù)，將帶有Sparsely-Gated Mixture-of-Experts的多語(yǔ)言神經(jīng)機(jī)器翻譯Transformer模型擴(kuò)展到超6000億參數(shù)規(guī)模。

次年，Switch Transformers這項(xiàng)工作，結(jié)合專家并行、模型并行和數(shù)據(jù)并行，簡(jiǎn)化MoE路由算法，提出大型Switch Transformer模型，參數(shù)達(dá)到1.6萬(wàn)億。

不僅推進(jìn)了語(yǔ)言模型的規(guī)模，還在當(dāng)時(shí)實(shí)現(xiàn)了比T5-XXL模型快4倍的速度。

模型規(guī)模的擴(kuò)大一方面為自然語(yǔ)言處理開(kāi)辟了新的領(lǐng)域，另一方面也面臨訓(xùn)練過(guò)程中的不穩(wěn)定性以及微調(diào)階段質(zhì)量不確定性的阻礙。

2022年，針對(duì)該問(wèn)題的研究《ST-MoE: Designing Stable and Transferable Sparse Expert Models》問(wèn)世了。

該項(xiàng)目將一個(gè)ST-MoE-32B稀疏模型的參數(shù)規(guī)模擴(kuò)展到了2690億，其計(jì)算成本與一個(gè)擁有320億參數(shù)的密集型encoder-decoder Transformer模型差不多。

這林林總總一系列關(guān)鍵性進(jìn)展的作者名單中，總少不了沙哥。

時(shí)間證明沙哥的預(yù)判是對(duì)的。

如今，GPT-4 、DeepSeek系列、阿里Qwen3系列……主流將MoE與Transformer架構(gòu)的結(jié)合，無(wú)一不是在此系列工作的思想上發(fā)展而來(lái)。

說(shuō)沙哥踩在時(shí)代的命門(mén)上，不光靠這些。

為解決大規(guī)模模型的訓(xùn)練內(nèi)存受限的問(wèn)題，沙哥還曾聯(lián)合提出了Adafactor優(yōu)化器，早期谷歌大模型如PaLM都離不開(kāi)它。

作用于大模型推理加速的Multi Query Attention（MQA）也是出自他的手筆。

MQA最早于2019年沙哥的獨(dú)作論文《Fast Transformer Decoding: One Write-Head is All You Need》中被提出，旨在解決Transformer增量推理階段效率低下的問(wèn)題。

另外，他還提出了被廣泛應(yīng)用于各種Transformer模型中的Gated Linear Layer（GLU）。

GLU為T(mén)ransformer架構(gòu)帶來(lái)了顯著改進(jìn)，通過(guò)門(mén)控機(jī)制，GLU可以根據(jù)輸入動(dòng)態(tài)地調(diào)整信息的傳遞，從而更好地捕捉數(shù)據(jù)中的復(fù)雜模式和依賴關(guān)系，提升模型的表達(dá)能力。

這種動(dòng)態(tài)調(diào)整能力更有助于模型處理長(zhǎng)序列數(shù)據(jù)，有效利用上下文信息。

用網(wǎng)友的話來(lái)說(shuō)，沙哥參與的研究往往都是簡(jiǎn)單粗暴，詳細(xì)介紹了技術(shù)細(xì)節(jié)，當(dāng)時(shí)可能大家不能完全理解其中的奧妙，但之后就會(huì)發(fā)現(xiàn)很好用。

3歲自學(xué)算術(shù)，1994年IMO滿分

沙哥的技術(shù)嗅覺(jué)，源自其近乎傳奇的成長(zhǎng)軌跡。

1974年，沙哥出生于美國(guó)，3歲就開(kāi)始自學(xué)算術(shù)。

1994年，他參加了IMO（國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽），在經(jīng)歷長(zhǎng)達(dá)九小時(shí)的考試后，取得了滿分，這是該項(xiàng)賽事35年歷史上首次有學(xué)生拿到滿分（同年還有另外5名學(xué)生拿到滿分）。

同年，沙哥進(jìn)入杜克大學(xué)學(xué)習(xí)數(shù)學(xué)和計(jì)算機(jī)科學(xué)。

在校期間，沙哥作為杜克大學(xué)代表隊(duì)的一員，曾在多項(xiàng)數(shù)學(xué)競(jìng)賽中獲獎(jiǎng)。譬如1994年、1996年，分別在普特南數(shù)學(xué)競(jìng)賽中排名第6名、第10名。

本科畢業(yè)后，沙哥前往UC伯克利攻讀研究生，但并未完成學(xué)業(yè)（他的領(lǐng)英上如今也只寫(xiě)著本科教育經(jīng)歷）。

而后千禧年到來(lái)，沙哥加入谷歌，成為第200號(hào)員工，一路從軟件工程師做到首席軟件工程師。

2001年，其參與改進(jìn)的谷歌搜索拼寫(xiě)糾正功能上線，這是他早期的一項(xiàng)重要成就。

此后，他還開(kāi)發(fā)了谷歌廣告系統(tǒng)PHIL，該系統(tǒng)能夠決定在特定頁(yè)面上展示哪些廣告聯(lián)盟廣告，同時(shí)避免出現(xiàn)不適當(dāng)或不相關(guān)的內(nèi)容，成為谷歌廣告聯(lián)盟系統(tǒng)的核心。

2005年，他成為谷歌廣告文本排名團(tuán)隊(duì)的技術(shù)主管；2006年，他創(chuàng)建了谷歌第一個(gè)垃圾郵件檢測(cè)的機(jī)器學(xué)習(xí)系統(tǒng)；2008年，他開(kāi)發(fā)了一種用于對(duì)新聞文章進(jìn)行排名的機(jī)器學(xué)習(xí)系統(tǒng)……

不一一點(diǎn)出來(lái)了，但說(shuō)他在谷歌期間碩果累累，絕不為過(guò)。

雖然2009年到2012年期間他短暫離開(kāi)過(guò)谷歌，但截至2021年去創(chuàng)業(yè)Character.AI，他已經(jīng)在谷歌待了18年。

2012年回到谷歌加入Google Brain后，沙哥更是火力全開(kāi)——

他把自己的研究方向轉(zhuǎn)向深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)研究，2016年推動(dòng)神經(jīng)機(jī)器翻譯（NMT）的落地，顯著提升翻譯質(zhì)量；2017年就有了《Attention Is All You Need》。

而去年8月，沙哥揮別創(chuàng)業(yè)賽道，重返谷歌擔(dān)任工程副總裁、Gemini聯(lián)合技術(shù)主管，到現(xiàn)在又快在谷歌干滿一年了。