英偉達揭示RL Scaling魔力！訓練步數翻倍=推理能力質變，小模型突破推理極限

2025-06-04 13:56:06

這項來自 NVIDIA 的研究，讓我們重新認識了 RL 的真正潛力——不僅能優化策略，還能擴展模型的能力邊界。

強化學習（RL）到底是語言模型能力進化的「發動機」，還是只是更努力地背題、換個方式答題？這個問題，學界爭論已久：RL 真能讓模型學會新的推理技能嗎，還是只是提高了已有知識的調用效率？

過去的研究多數持悲觀態度：認為 RL 帶來的收益非常有限，有時甚至會讓模型「同質化」加重，失去多樣性。然而，來自英偉達的這項研究指出，造成這一現象的根本原因在于：數學、編程等任務在 base model 的訓練數據中被過度呈現，以及 RL 訓練步數不足。

論文題目：ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
鏈接：https://arxiv.org/pdf/2505.24864

ProRL 來了！長期訓練 = 推理能力質變！

由 NVIDIA 團隊提出的 ProRL（Prolonged Reinforcement Learning）框架，將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上，釋放了小模型潛藏的巨大潛力。結果令人震驚：

原本完全不會做的邏輯謎題，ProRL 模型的 pass@k 能達到 100%
創造力指標（Creativity Index）飆升，模型能主動生成全新解題路徑
不再是「蒙對答案」，而是真正「開竅」了！

這一突破主要來自于穩定長期的強化學習，然而，長期 RL 訓練并不容易，容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此，團隊構建了完整的技術組合拳：

多樣化可驗證獎勵任

引入了數學、編程、科學問答（STEM）、邏輯謎題、指令遵循等多領域數據，這些任務具有程序化可驗證的正確答案，為 RL 訓練提供了可靠、客觀的監督信號，不再依賴「易被騙」的獎勵模型。

改進算法組合：GRPO + DAPO

在 GRPO（Group Relative Policy Optimization）框架基礎上，融合 DAPO（Decoupled Clip and Dynamic Sampling）關鍵的解耦裁剪（Decoupled Clipping）來避免策略更新失衡，以及動態采樣（Dynamic Sampling）來過濾掉「太容易」或「完全不會」的無效樣本，提升訓練效率。

KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反，本論文發現適度 KL 懲罰是穩定訓練的關鍵。同時引入參考策略重置機制：當 KL 驟增或性能下滑時，重置參考策略為當前模型副本，并重置優化器，讓訓練「重啟」。這個簡單機制有效打破訓練停滯，使模型持續進化。

基于 ProRL 技術，團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B，展現出驚人的性能優勢：

在數學任務中提升 14.7%，趕超 7B 模型
在代碼生成上領先 DeepCoder-1.5B 達 6.5%
在邏輯推理方面，準確率提升高達 54.8%

ProRL 真的能夠拓寬模型能力邊界

近來，對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題，并且發現，長期穩定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題，文章主要揭示了三個方面的發現：

RL 模型能解出 base model 無論如何采樣都完全答不出的題，甚至做到 pass@k 100%。這不是隨機波動，而是新能力的誕生。
強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務（初始 pass@k 較低），RL 展現出極強的「推理邊界擴展」能力。
而在本身已經很強的領域，如數學和代碼（這些任務的「創造力指數」較低），ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務，作者觀察到一個共同特征：這些任務在預訓練數據中已被充分覆蓋，缺乏進一步擴展的空間，因此 RL 提供的增益有限。

模型不僅「答對」，還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估，發現：訓練步數越長，模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路，而是展現出更豐富、更具創造性的推理策略。

總結

這項來自 NVIDIA 的研究，讓我們重新認識了 RL 的真正潛力——不僅能優化策略，還能擴展模型的能力邊界。

通過 ProRL，我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」，甚至跑贏大模型。而這種進步，不靠更多數據、不靠更大模型，只靠更長、更穩、更聰明的訓練流程。

未來，如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型，ProRL 可能正是那把鑰匙。

責任編輯：張燕妮來源：機器之心

英偉達訓練模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達揭示RL Scaling魔力！訓練步數翻倍=推理能力質變，小模型突破推理極限

ProRL 來了！長期訓練 = 推理能力質變！

ProRL 真的能夠拓寬模型能力邊界

總結