“不是新模型贏了,是新數據贏了”:另一種角度解讀 AI 進步的真相
最近,小編讀了一篇康奈爾大學 (科技校區) 博士生 JACK MORRIS寫的博文,發現其對人工智能(AI)的進展解讀挺有趣。想分享給讀者。
這篇博文的核心意思是:人工智能領域的飛速發展,其核心驅動力并非源于理論的革新,而是對全新數據來源的成功利用。
1. AI進展的表象與現實
作者表示,過去十五年,人工智能取得了令人難以置信的進步,尤其是在最近五年中,這種進步的速度更是驚人。
這種持續的進步給人一種必然會發生的感覺,仿佛是歷史的必然趨勢。
圖片來源:https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
部分研究人員甚至據此提出了一個“人工智能領域的摩爾定律”的說法。
該定律指出,計算機在處理特定任務,例如某些類型的編碼工作時,其能力會隨著時間的推移呈現出指數級的增長。
盡管作者并不完全認同這種特定的框架,但無法否認人工智能領域整體向上的發展趨勢。
我們的人工智能系統每年都在變得更智能、更快速,同時成本也在不斷降低,而且這種進步的勢頭似乎沒有盡頭。
大多數人認為,這種持續的進步源于學術界和工業界研究社區源源不斷的思想供給。
學術界的代表主要是麻省理工學院、斯坦福大學和卡內基梅隆大學。工業界的貢獻則主要來自Meta、谷歌以及少數幾家實驗室。
當然,還有許多我們永遠不會了解到的秘密研究在其他地方同時進行。
2.技術突破與研究動態的回顧
毫無疑問,科學研究確實為我們帶來了巨大的進步,尤其是在系統層面。這些系統層面的研究,是模型訓練和推理成本能夠持續降低的關鍵所在。
我們可以從過去幾年中挑選出幾個顯著的例子來證明這一點。
2022年,斯坦福大學的研究人員提出了FlashAttention算法。這種方法能夠更好地利用語言模型中的內存,現在已經被業界廣泛應用。
2023年,谷歌的研究人員開發了推測解碼技術。幾乎所有的模型供應商都在使用這項技術來加速模型的推理過程。
據信,DeepMind也幾乎在同一時間獨立開發出了類似的技術。
2024年,一個由互聯網愛好者組成的團隊開發出了Muon優化器。它似乎是一種比傳統SGD或Adam更優秀的優化器,未來可能成為訓練語言模型的主流方式。
2025年,DeepSeek 發布了DeepSeek-R1。這個開源模型,其推理能力與來自谷歌和OpenAI的同類閉源模型相當。
這些例子都證明,我們確實在不斷地探索和解決問題。現實情況甚至比這更酷,我們正在參與一場去中心化的全球科學實踐。
另一方面,研究成果在ArXiv、學術會議和社交媒體上被公開分享,使得我們每個月都在變得更加智慧。
3.人工智能的四個關鍵范式轉移
然而,一個矛盾的問題出現了:既然我們正在進行如此多重要的研究,為什么有些人認為進展正在放緩?
人們的抱怨之聲依然不絕于耳,尤其是在模型能力提升方面。最近發布的兩個備受矚目的巨型模型,Grok 3和GPT-4.5,其能力相較于前代產品的提升非常有限。
一個尤其突出的例子是,當最新的語言模型被用于評估解答最新的國際數學奧林匹克競賽試題時,它們只取得了5%的成績。
這個結果表明,近期關于系統能力的宣傳可能存在過度夸大的成分。如果我們嘗試去梳理那些真正具有“重大突破”意義的范式轉移,會發現它們的發生頻率完全不同。
人工智能的發展歷程,可以被四個核心的突破性節點所概括。
第一個突破是深度神經網絡(DNNs)的興起。2012年,AlexNet模型贏得了一場圖像識別競賽,標志著深度神經網絡時代的開啟。
第二個突破是Transformer架構與大規模語言模型(LLMs)的結合。2017年,谷歌在論文《Attention Is All You Need》中提出了Transformer架構。
這直接催生了2018年谷歌的BERT模型和OpenAI的初代GPT模型。
第三個突破是基于人類反饋的強化學習(RLHF)。據作者所知,這一概念最早由OpenAI在2022年的InstructGPT論文中正式提出。
第四個突破是模型的推理能力。2024年,OpenAI發布了O1模型,這直接啟發并催生了后續的DeepSeek R1。
如果你稍微審視一下,就會發現這四個節點(DNNs → Transformer LMs → RLHF → 推理)幾乎總結了人工智能領域發生的一切。
我們先是有了深度神經網絡,主要用于圖像識別系統。然后我們有了文本分類器,接著是聊天機器人。現在我們擁有了所謂的推理模型。
那么,第五次這樣的重大突破會來自哪里?研究這四個已有的案例可能會給我們一些啟示。
一個不那么瘋狂的論點是,所有這些突破性進展的底層機制,在1990年代甚至更早就已經存在。
我們只是在應用相對簡單的神經網絡架構,并執行監督學習(對應第一和第二個突破)或強化學習(對應第三和第四個突破)。
作為預訓練語言模型主要方式的、通過交叉熵進行的監督學習,其思想起源于克勞德·香農在1940年代的工作。
作為后訓練語言模型主要方式的、通過RLHF和推理訓練進行的強化學習,其歷史要稍晚一些。
它可以追溯到1992年策略梯度方法的引入。
這些思想在1998年第一版的Sutton & Barto合著的《強化學習》教科書中就已經相當成熟。
如果我們的思想不是新的,那么新的東西究竟是什么?
這里有一個被忽略的關鍵環節:這四個突破中的每一個,都使我們能夠從一種全新的數據源中學習。
例如,AlexNet及其后續模型解鎖了ImageNet數據集。ImageNet是一個大型的、帶有類別標簽的圖像數據庫,它驅動了計算機視覺領域長達十五年的發展。
Transformer架構則解鎖了對“整個互聯網”文本數據的訓練。這引發了一場下載、分類和解析萬維網上所有文本的競賽,而這項工作現在似乎已基本完成。
RLHF允許我們從人類的標注中學習什么是“好的文本”。這在很大程度上是一種基于感覺的判斷和學習。
而推理能力的突破,似乎讓我們能夠從“驗證器”中學習。這些驗證器包括計算器、編譯器等,它們可以客觀地評估語言模型的輸出結果是否正確。
你需要記住,每一個里程碑都標志著相應的數據源(ImageNet、網絡文本、人類、驗證器)首次被大規模使用。
每個里程碑之后都伴隨著一陣狂熱的活動。
研究人員競相從所有可用的渠道中吸收剩余的有用數據。
同時,他們也致力于通過新的技巧來更好地利用已有數據,使系統更高效、數據需求更少。
預計在2025年的后期和2026年,我們將在推理模型中看到同樣的趨勢。
研究人員將競相尋找、分類和驗證一切可能被驗證的東西。
那么,新思想的重要性到底有多大?
有一種觀點認為,在這些案例中,我們實際的技術創新可能并沒有產生決定性的影響。
我們可以做一個反事實的思考。
如果沒有發明AlexNet,也許會有另一種架構出現,同樣能夠有效處理ImageNet。
如果我們從未發現Transformer,也許我們會滿足于使用LSTM或SSM,或者找到其他完全不同的方法來學習網絡上的海量文本數據。
這與一些人持有的“數據決定論”不謀而合。
一些研究人員觀察到,在所有的訓練技術、模型技巧和超參數調整中,真正起決定性作用的,往往是數據的改變。
一個極具說服力的例子是,一些研究人員曾致力于開發一種使用非Transformer架構的新型BERT類模型。
他們花費了大約一年的時間,用數百種不同的方式調整架構,最終成功制造出一種不同類型的模型(狀態空間模型“SSM”)。
當這個SSM模型在與原始Transformer相同的數據上進行訓練時,它表現出了幾乎等同的性能。
這種等效性的發現意義深遠。
它暗示了從一個給定的數據集中,我們所能學到的東西存在一個上限。
世界上所有的訓練技巧和模型升級,都無法繞過這個冰冷的現實:一個數據集能提供的信息是有限的。
網址:http://www.incompleteideas.net/IncIdeas/BitterLesson.html
也許這種對新思想的冷漠,正是“苦澀的教訓(The Bitter Lesson)”想要傳達給我們的。
4.未來范式的預期
如果數據是唯一重要的事情,為什么95%的人還在研究新方法?我們下一個范式轉移將來自哪里?
一個顯而易見的推論是,我們的下一個范式轉移不會來自對強化學習的改進,也不會來自某種花哨的新型神經網絡。
它將在我們解鎖一個以前從未接觸過,或者尚未被正確利用的數據源時到來。
一個很多人正在努力駕馭的明顯信息來源是視頻。
根據網絡上的一個隨機站點統計,每分鐘大約有500小時的視頻片段被上傳到YouTube。
這是一個驚人數量的數據,遠遠超過整個互聯網上的文本總量。視頻也可能是一個更豐富的信息來源。
它不僅包含文字,還包含文字背后的語調,以及無法從文本中收集到的關于物理和文化的豐富信息。
可以肯定地說,一旦我們的模型變得足夠高效,或者我們的計算機變得足夠強大,谷歌就會開始在YouTube上訓練模型。
畢竟,他們擁有這個平臺,不利用這些數據來獲取優勢是愚蠢的。
人工智能下一個“大范式”的另一個有力競爭者,是某種具身化的數據收集系統,用普通人的話說,就是機器人。
我們目前還無法以一種適合在GPU上訓練大模型的方式,來收集和處理來自攝像頭和傳感器的數據。
如果我們能夠構建更智能的傳感器,或者將計算機的規模擴大到可以輕松處理來自機器人的海量數據涌入,我們或許就能以一種有益的方式利用這些數據。
很難說YouTube、機器人還是其他什么東西會成為人工智能的下一個大事件。
我們現在似乎深深地扎根于語言模型的陣營中,但語言數據似乎也正在被迅速耗盡。
如果我們想在人工智能領域取得進展,也許我們應該停止尋找新思想,而是開始尋找新數據。