編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
Meta 化身“人才收割機”的節奏簡直停不下來。
此前從 OpenAI、谷歌花天價薪酬挖走了多達 8 位頂尖人才?,F在,那個讓我們非常熟悉的、經常在直播宣發中出現的大佬,o 系列模型的兩位核心研究人員 Jason Wei 和 Hyung Won Chung,也被 Meta 一道挖走了。
剛剛有消息證實,這兩位大佬的 Slack 賬號已經被停用。
多提一嘴,OpenAI 別看公司已經很大了,但內部還沒有自己的郵箱,溝通全靠Slack 活著。
不過,至于下一站是否是 Meta,目前還沒有看到大佬本人的回應。
目前,小編發現, X 上 Jason 在兩個小時前,連發兩條長文,闡明自己對于強化學習的熱愛。
兩篇推文中蘊含著濃濃的“人生總結”的味道。尤其上面那篇,“要想超越老師,必須走自己的路”,似乎在回應著這場突發的別離。
但當網友發出證實疑問:離職去 Meta,是真的嗎?
Jason 并沒有給出回應。
另一位大佬 Hyung Won Chung 則在 2 小時前 X 上沒有給出回應,只是轉了一個斯坦福的講座視頻。
這個視頻中的主角則是 Jason Wei 和 Hyung Won Chung,演講內容則是有關縮放定律和慘痛教訓的故事。
這波回憶殺,似乎也在透露兩人共同經歷的美好時光。
我是 RL死忠粉,但——要想超越老師,必須走自己的路,強化自己
成為過去一年里一位 RL(強化學習)死忠粉,并且大部分清醒時光都在思考 RL,無意中教會了我一個關于如何活好自己人生的重要課題。
在 RL 中,一個核心概念就是:你總是希望“在策略上(on-policy)”進行學習。也就是說,不是去模仿別人的成功路徑,而是根據你自己的行為,從環境中獲得獎賞并學習。顯然,模仿學習在初期幫助你獲得非零通過率非常有用,但一旦你能走出“合理的路徑”,我們通常就避免繼續用模仿學習,因為最有效發揮模型自身獨特優勢的方式,就是只從它自己的行動軌跡中學習。一個被廣泛接受的體現是:在訓練語言模型解決數學題時,RL 方法優于簡單地用人類寫下的思路鏈做監督微調。
在人生中,情況也一樣。我們最開始通過“模仿學習”自我啟動(上學階段),這是非常合理的。但即便畢業后,我依然有個慣性——研究別人的成功路徑,然后去模仿。有時,這種方法會奏效,但我最終意識到——我永遠無法超過那個榜樣,因為他們做事時用的是我沒有的優勢。可能是:某個研究者自己搭建整個代碼庫,一下子就 yolo(隨性嘗試)跑通一堆實驗,而我并沒那能力;又或者是足球中的例子:某個球員用力量壓制對手控球,而我卻沒有那力量。
“RL 在策略上學習”的課題告訴我:想要超越老師,必須走自己的路,承擔風險,從環境中直接獲取獎賞。比如,我有兩個方面比普通研究者更享受:
- 閱讀大量數據;
- 做 ablation(消融實驗),以理解系統中各組件的作用。
記得有次我在收集數據時,花了幾天時間認真讀每一條數據,并給每個標注員反饋,結果數據質量大幅提升,我對手頭任務的理解也更深入。就在今年早些時候,我花了整整一個月,對之前“隨性 yolo”的那些決策做了一次全面的消融實驗。雖然時間成本不小,但正是這些實驗讓我對“哪種類型的 RL 更有效”有了獨特洞見。更重要的是,這種追隨自己興趣的方式不僅讓我更有成就感,也讓我覺得自己正走在一條為自己和研究構建更強獨特賽道的路徑上。
總結一下:模仿當然有益,且起步必須。但當你啟動得夠穩健之后,想要勝過老師,就必須“on-policy”地強化自己,用你自己的優勢拼出新高度 ??
好了,文章就到這里了,硅谷的人才流動氛圍就是如此,小編非常期待生成式AI時代,多強爭相引領風騷的局面,也祝愿每一位大佬得償所愿,前程錦繡。
最后附上那場驚艷了小編的直播截圖,權作一個階段凌晨追蹤報道的紀念吧!