投奔小扎,Jason Wei連發兩篇博文公布“屠龍術”:一個公式看透AI,一條心法指引人生
Jason Wei:OpenAI研究科學家,OpenAI思維鏈研究開創者,《Chain-of-thought prompting elicits reasoning in large language models》論文第一作者,谷歌學術他引17000余次(CoT單篇),高中學歷,畢業于全美頂級的科技高中:托馬斯·杰弗遜科學技術高中,sat 2390(2400滿分),強化學習大神。
在剛剛爆出被小扎挖走,加入meta超級智能實驗室后,Jason Wei 連發兩篇文章,一篇是關于 AI 發展的核心驅動力公式——“驗證者定律”,另一篇則是從強化學習中悟出的人生哲學——“人生要走 On-Policy 路線”,這可能就是jason wei 在OpenAI最后的遺作了吧。
驗證者定律說的是:訓練人工智能解決一個任務的難易程度與該任務的可驗證性成正比。所有可以解決且易于驗證的任務都將被人工智能解決。
On-policy RL說的是強化學習對人生的啟示:要想青出于藍而勝于藍,就必須走自己的路,直面環境給予的風險與回報。
看起來像是離職感言,哈哈哈,我們來看看具體的兩篇文章說的啥。
Jason Wei@_jasonwei
第一篇
驗證的不對稱性——即“驗證某些任務遠比解決它們更容易”這一理念——正變得日益重要,因為我們終于有了能廣泛奏效的強化學習(RL)技術。
驗證不對稱性的絕佳例子包括:數獨謎題、為 Instagram 這樣的網站編寫代碼,以及 BrowseComp 問題(通常需要瀏覽約100個網站才能找到答案,但一旦有了答案,驗證起來就很容易)。
也有些任務的驗證具有近乎對稱性,比如計算兩個900位數字的和,或編寫一些數據處理腳本。還有些任務,提出可行的解決方案比驗證它們要容易得多(例如,對一篇長文進行事實核查,或提出一種像“只吃野牛”這樣的新飲食法)。
關于驗證不對稱性,需要理解一個要點:你可以通過一些前期工作來增強這種不對稱性。例如,如果你手握一道數學題的答案,或者一個 LeetCode 問題的測試用例。這極大地擴展了具有理想驗證不對稱性的問題集合。
“驗證者定律”(Verifier's Law) 指出:訓練 AI 解決一個任務的難易程度,與該任務的可驗證性成正比。** 所有可能被解決且易于驗證的任務,都終將被 AI 解決。訓練 AI 解決任務的能力,取決于該任務是否具備以下特性:
1. 客觀真理:對于什么是好的解決方案,人人都有共識。
2. 快速驗證:任何給定的解決方案都可以在幾秒鐘內完成驗證。
3. 可規模化驗證:可以同時驗證大量的解決方案。
4. 低噪聲:驗證結果與解決方案的真實質量盡可能高度相關。
5. 連續獎勵:可以輕松地對同一個問題的多個解決方案進行優劣排序。
驗證者定律一個最明顯的例證是:AI 領域提出的大多數基準測試(benchmark)都易于驗證,并且迄今為止都已被攻克。你會發現,過去十年幾乎所有流行的基準測試都符合上述標準1-4;不符合這些標準的基準測試,很難流行起來。
為什么可驗證性如此重要?因為當上述標準得到滿足時,AI 的學習效率會最大化;你可以進行大量的梯度更新,并且每一步都包含著豐富的信號。迭代速度是關鍵——這正是數字世界的進步遠比物理世界快得多的原因。
谷歌的 AlphaEvolve 是利用驗證不對稱性的最偉大范例之一。它專注于那些完全符合上述標準的環境設定,并在數學等領域取得了一系列進展。與過去二十年我們在 AI 領域的做法不同,這是一種新的范式:所有問題都在一個訓練集與測試集等同的環境中進行優化。
驗證的不對稱性無處不在,一個“萬物皆可衡量,萬物皆可被解決”的參差不齊的智能世界,正令人無比興奮。
第二篇
在過去一年里,我成了強化學習(RL)的鐵桿粉絲,醒著的大部分時間都在思考RL,這無意中教會了我一個關于如何過好自己人生的重要道理。
RL 中有一個重要的概念,就是你總是希望自己是“同策略的”(on-policy):與其模仿他人的成功軌跡,你更應該采取自己的行動,并從環境給予的獎勵中學習。 顯然,模仿學習在初期“冷啟動”、達到一個非零成功率時很有用,但一旦你能走出合理的軌跡,我們通常會避免模仿學習,因為要最大化發揮模型自身的優勢(這與人類不同),最好的方式就是只從它自己的軌跡中學習。一個廣為接受的例子是:相比于簡單地在人類書寫的“思維鏈”上進行監督微調,強化學習是訓練語言模型解決數學應用題的更好方法。
人生也是如此。我們首先通過模仿學習(上學)來完成自我引導,這非常合理。但即使畢業后,我仍然習慣于研究他人如何成功,并試圖模仿他們。有時這會奏效,但最終我意識到,我永遠無法完全達到別人的高度,因為他們是在發揮自己的長處,而這些長處我并不具備。這可以是任何事,比如一個研究員做起實驗(yolo runs)比我更成功,因為代碼庫是他自己搭建的,我不是;或者一個非AI的例子,一個足球運動員利用我所不具備的力量優勢來控球。
On-policy RL給我的啟示是:要想青出于藍而勝于藍,就必須走自己的路,直面環境給予的風險與回報。 例如,有兩件事我比一般研究員更享受:(1)閱讀大量數據,以及(2)做消融實驗來理解系統中單個組件的效果。有一次在收集數據集時,我花了好幾天閱讀數據,并給每位人類標注員提供了個性化的反饋,之后的數據質量非常出色,我也對試圖解決的任務獲得了寶貴的洞察。今年早些時候,我花了一個月時間,系統性地對我之前憑感覺(yolo'ed)做下的每個決定進行消融實驗。這花費了相當多的時間,但通過那些實驗,我學到了關于哪種 RL 效果好的獨到見解。全身心投入自己的熱情所在,不僅讓我更有成就感,而且我現在感覺自己正走在一條為自己和我的研究開辟更強大生態位(niche)的道路上。
簡而言之,模仿是好的,初期你必須這么做。但一旦你完成了冷啟動,要想超越老師,你就必須走 on-policy 的強化學習路線,發揮你自己的長處和短處 :)