清華大學深度解析:RLHF 真的能規模化嗎?
圖片
RLHF 的規模化之謎:真的值得無限投入算力嗎?
強化學習自人類反饋(RLHF)已成為大語言模型(LLM)后訓練的關鍵步驟,幫助 ChatGPT、Llama 等模型更符合人類偏好。然而,RLHF 是否像預訓練那樣,能通過增加算力和數據帶來持續提升?清華大學與知乎 AI 的最新研究對此進行了系統性分析,揭示了 RLHF 的規模化極限,并提出優化策略。
圖片
研究方法:三大核心變量的深入探究
研究團隊圍繞 模型規模、數據多樣性、推理計算預算 三大因素,訓練了超過 20 種不同規模 的模型,涵蓋 9B、32B、200B 參數量級,并對比不同的 RLHF 訓練策略(如 PPO 和 GRPO)。他們重點分析了 RLHF 在 推理任務 方面的表現,同時也進行了通用對話任務實驗。
RLHF 的規模化困境:效果遞減,收益有限
研究發現,RLHF 在規模化方面存在諸多挑戰:
單個 Prompt 采樣更多的回復可以提升訓練效果,但收益迅速趨于平穩(如從 1 個增加到 4 個效果明顯,但 8-16 個收益遞減)。
增大獎勵模型(Reward Model)的規模有所幫助,但提升遠小于“最佳 N 選一”方法。
在固定獎勵模型的情況下,增大策略模型(Policy Model)規模收益有限。
早期訓練階段收益較大,但隨著數據增加,額外提升非常有限。
獎勵模型的訓練數據多樣性比數量更重要,尤其是 Prompt 的多樣性影響更大。
基于過程監督(Process Supervision)的標注比基于最終結果的監督效果更好,但泛化能力有限。
總的來說,RLHF 不像預訓練那樣具備明顯的規模化趨勢,投入更多算力并不會帶來線性增長的效果。這可能與獎勵模型學習誤差、策略優化方法的局限性等因素相關。
圖片
RLHF 訓練的優化策略:如何在有限算力下最大化收益?
盡管 RLHF 存在規模化限制,該研究也提出了一些 計算資源受限條件下的優化方案:
? 適度增加采樣數量(如從 1 提升到 4 個),能夠高效提升訓練效果。
? 增加獎勵模型的數據多樣性,尤其是 Prompt 設計,而非簡單增加數據量。
? 采用過程監督(Process Supervision)而非僅僅依賴結果監督,可以在目標任務上帶來更好表現。
圖片
未來展望
這項研究表明,當前 RLHF 技術無法像預訓練那樣無限規模化,未來需要探索更具可擴展性的強化學習算法,以進一步釋放 RLHF 在 LLM 訓練中的潛力。
本文轉載自 ??AI帝國??,作者: 無影寺
