周志華團隊新作:LLM中存在獎勵模型,首次理論證明RL對LLM有效性
將大語言模型(LLMs)與復雜的人類價值觀對齊,仍然是 AI 面臨的一個核心挑戰。當前主要的方法是基于人類反饋的強化學習(RLHF)。該流程依賴于一個通過人類偏好訓練的獎勵模型來對模型輸出進行評分,最終對齊后的 LLM 的質量在根本上取決于該獎勵模型的質量。
因此,創建一個先進的獎勵模型需要建立龐大且高質量的人類偏好數據集,而這一過程通常既緩慢、昂貴,又難以擴展。
這種對人類標注數據的依賴促使研究者探索其他對齊方法。一個重要的研究方向是基于 AI 反饋的強化學習(RLAIF)。該方法利用強大的專有大語言模型生成獎勵信號或偏好標簽,從而規避人類標注需求。雖然成本效益顯著,但這些方法缺乏嚴謹的理論基礎,且容易繼承評判模型本身的風格偏差與固有偏見。這引發了一個關鍵問題:高質量獎勵信號是否必須依賴外部來源?
來自南京大學的研究者發現,一個強大的通用獎勵模型并非需要構建,而是可以挖掘出來的, 因為它已經潛在地存在于通過標準的下一個 Token 預測訓練的任何語言模型中,稱之為「內源性獎勵(endogenous reward)」。
本文的核心貢獻是為這一觀點提供嚴格的理論基礎。本文證明了可以從標準的下一個 Token 預測目標中恢復出一種特定形式的離線逆強化學習(IRL)獎勵函數,該目標用于預訓練和監督微調(SFT)。這一見解能夠超越啟發式方法,并建立一種原則性的方法,來引出語言模型在訓練過程中隱式學習到的獎勵函數。
具體來說,本文展示了語言模型的 logits 可以直接解釋為 soft Q 函數,通過逆 soft 貝爾曼算子可以從中恢復出獎勵函數。
至關重要的是,這一理論聯系不僅僅提供了一種獎勵提取的方法。本文還證明了,使用模型自身的內源性獎勵進行微調可以使策略在誤差界限上優于基線模型。強化學習過程有效地修正了標準模仿學習(即下一個 Token 預測)中的累積誤差,將性能差距從任務視野的二次依賴關系 O (H2) 降低到優越的線性關系 O (H)。
據了解,這是首次理論證明強化學習在 LLM 中的有效性。廣泛實驗驗證了這一理論,表明這種內源性獎勵不僅優于現有的 LLM-as-a-judge 方法,而且可以超越那些通過昂貴的人類標注數據顯式訓練的獎勵模型的表現。
- 論文標題: GENERALIST REWARD MODELS: FOUND INSIDE LARGE LANGUAGE MODELS
- 論文鏈接:https://arxiv.org/pdf/2506.23235
這篇論文提出了解決 LLM 的對齊問題,通過利用模型內部的獎勵機制,而不是依賴外部的人類反饋,這可能會改變未來 LLMs 的開發和應用方式。
本文在實驗中旨在評估以下核心問題:
Q1:在與啟發式基線方法和顯式訓練的最新獎勵模型對比時,免訓練內源性獎勵模型(EndoRM)在常見獎勵模型基準測試中的表現如何?
Q2:內源性獎勵是否具備強大的指令遵循能力,能否作為可通過提示詞調用的通用獎勵模型?
Q3:基于內源性獎勵的強化學習能否產生更優策略,實現理論預測的自我改進效果?
多樣偏好對上的獎勵準確率(Q1)
為回答 Q1,本研究通過預測 RM-Bench 中被選中的回復來評估獎勵模型性能。更高的準確率意味著獎勵質量更優。
由于本評估的方法無需訓練,因此本評估將其與其他無需訓練的方法進行對比:生成式驗證器(Generative Verifier)、GenRM-Pairwise 和 GenRM-Pointwise 。
所有基線方法及本評估的 EndoRM 均采用 Qwen2.5-7B-Instruct 作為基礎模型以確保公平比較。此外,本評估還列出了四個顯式訓練的高性能獎勵模型的結果作為參考。
表 1 中的結果顯示,EndoRM 不僅顯著優于所有使用相同基礎模型的無需訓練基線方法,還以更高的平均得分超越了最先進的顯式訓練獎勵模型。
這一發現表明,EndoRM 相比依賴高成本偏好數據篩選和訓練的獎勵模型更具有效性。
圖 1 中進一步展示了 Multifaceted-Bench 的實驗結果,從中可以觀察到 EndoRM 在五個領域上始終優于所有基線方法。考慮到 Multifaceted-Bench 中可能包含數以千計的偏好對,這一結果證明了即使在任務復雜度和偏好多樣性增加的情況下,EndoRM 仍能實現可擴展的魯棒性。
這一發現進一步驗證了本評估的核心假設:強大的獎勵信號已潛在存在于基礎模型之中。
驗證指令遵循能力(Q2)
一個關鍵論點是內源性獎勵并非靜態的,而是可以通過提示來引導。
為驗證這一點,本文使用了 DSP 數據集,該數據集包含四個不同的領域。本評估通過將 DSP 論文中相應的系統提示作為輸入,創建了四個特定領域的版本的內源性獎勵。
然后,本評估測試每個特定領域的內源性獎勵在所有四個測試集上的響應分類準確率。
表 2 中的結果顯示出強烈的對角模式:每個 EndoRM 在其自身領域上表現最佳。例如,EndoRM-Academy 在學術數據上達到了其最高準確率(76.89%)。
這證實了內源性獎勵不是一個固定的評估器,而是一個動態的、可提示的評判器,繼承了基礎大型語言模型強大的指令遵循能力。
通過強化學習實現自我提升(Q3)
最后,本評估測試了定理 2 中的核心理論主張:帶有內源性獎勵的強化學習可以通過減輕復合誤差來改進基礎策略。
本評估在 MATH-lighteval 數據集上通過強化學習對基礎模型 Qwen2.5-Math-7B 進行訓練。內源性獎勵模型同樣是 Qwen2.5-Math-7B,在策略學習期間其參數保持固定。提示和響應的最大長度均設為 1024,KL 系數設為 0.01。
表 3 中的結果表明,帶有內源性獎勵的強化學習微調有助于模型在所有五個基準測試中一致地優于基礎模型。
本評估還在附錄 E 中給出了模型在強化學習前后的響應示例,從中可以看出,對于同一個問題,在基于內源性獎勵進行優化之前,模型無法解決問題,并且隨著響應的進行開始胡言亂語,甚至輸出 Python 代碼。
相比之下,本評估的方法提供了一個清晰簡潔的解決方案。
了解更多內容,請參考原論文。