成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

英偉達揭示RL Scaling魔力!訓練步數翻倍=推理能力質變,小模型突破推理極限

人工智能 新聞
這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

強化學習(RL)到底是語言模型能力進化的「發動機」,還是只是更努力地背題、換個方式答題?這個問題,學界爭論已久:RL 真能讓模型學會新的推理技能嗎,還是只是提高了已有知識的調用效率?

過去的研究多數持悲觀態度:認為 RL 帶來的收益非常有限,有時甚至會讓模型「同質化」加重,失去多樣性。然而,來自英偉達的這項研究指出,造成這一現象的根本原因在于:數學、編程等任務在 base model 的訓練數據中被過度呈現,以及 RL 訓練步數不足。

圖片

  • 論文題目:ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
  • 鏈接:https://arxiv.org/pdf/2505.24864

ProRL 來了!長期訓練 = 推理能力質變!

由 NVIDIA 團隊提出的 ProRL(Prolonged Reinforcement Learning)框架,將 RL 訓練步數從傳統的幾百步大幅提升至 2000 步以上,釋放了小模型潛藏的巨大潛力。結果令人震驚:

  • 原本完全不會做的邏輯謎題,ProRL 模型的 pass@k 能達到 100%
  • 創造力指標(Creativity Index)飆升,模型能主動生成全新解題路徑
  • 不再是「蒙對答案」,而是真正「開竅」了!

圖片

這一突破主要來自于穩定長期的強化學習,然而,長期 RL 訓練并不容易,容易出現熵崩塌、性能震蕩、甚至「擺爛」。為此,團隊構建了完整的技術組合拳:

  • 多樣化可驗證獎勵任

引入了數學、編程、科學問答(STEM)、邏輯謎題、指令遵循等多領域數據,這些任務具有程序化可驗證的正確答案,為 RL 訓練提供了可靠、客觀的監督信號,不再依賴「易被騙」的獎勵模型。

  • 改進算法組合:GRPO + DAPO

在 GRPO(Group Relative Policy Optimization)框架基礎上,融合 DAPO(Decoupled Clip and Dynamic Sampling)關鍵的解耦裁剪(Decoupled Clipping)來避免策略更新失衡,以及動態采樣(Dynamic Sampling)來過濾掉「太容易」或「完全不會」的無效樣本,提升訓練效率。

  • KL 正則化 + 周期性策略重置

與一些去 KL 正則的做法相反,本論文發現適度 KL 懲罰是穩定訓練的關鍵。同時引入參考策略重置機制:當 KL 驟增或性能下滑時,重置參考策略為當前模型副本,并重置優化器,讓訓練「重啟」。這個簡單機制有效打破訓練停滯,使模型持續進化。

基于 ProRL 技術,團隊訓練出 Nemotron-Research-Reasoning-Qwen-1.5B,展現出驚人的性能優勢:

  • 在數學任務中提升 14.7%,趕超 7B 模型
  • 在代碼生成上領先 DeepCoder-1.5B 達 6.5%
  • 在邏輯推理方面,準確率提升高達 54.8%

圖片

ProRL 真的能夠拓寬模型能力邊界

近來,對于 RL 是否能夠拓寬模型的能力邊界一直有爭議。作者在文章中著重分析了 RL 是否能夠拓寬能力邊界的問題,并且發現,長期穩定的 RL 能夠帶來模型能力的真正提升。圍繞著這個主題,文章主要揭示了三個方面的發現:

  • RL 模型能解出 base model 無論如何采樣都完全答不出的題,甚至做到 pass@k 100%。這不是隨機波動,而是新能力的誕生。
  • 強化學習帶來的提升與基礎模型的初始表現之間呈顯著負相關關系。在那些 base model 表現較弱的任務(初始 pass@k 較低),RL 展現出極強的「推理邊界擴展」能力。
    而在本身已經很強的領域,如數學和代碼(這些任務的「創造力指數」較低),ProRL 的邊界擴展則較為有限。對于圖中「Diminished Area」中提升較小的任務,作者觀察到一個共同特征:這些任務在預訓練數據中已被充分覆蓋,缺乏進一步擴展的空間,因此 RL 提供的增益有限。

圖片

  • 模型不僅「答對」,還「想得新」。作者使用 Creativity Index 對模型生成的解題路徑進行量化評估,發現:訓練步數越長,模型「跳出預訓練語料」的能力越強。解題方式不再拘泥于模板套路,而是展現出更豐富、更具創造性的推理策略。

總結

這項來自 NVIDIA 的研究,讓我們重新認識了 RL 的真正潛力——不僅能優化策略,還能擴展模型的能力邊界。

通過 ProRL,我們第一次看到「小模型」也可以在復雜推理任務中「迎難而上」,甚至跑贏大模型。而這種進步,不靠更多數據、不靠更大模型,只靠更長、更穩、更聰明的訓練流程。

未來,如果你想做出推理能力強、部署成本低、泛化能力強的小語言模型,ProRL 可能正是那把鑰匙。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-10-18 14:46:51

2025-05-12 14:23:42

AI算法訓練

2022-06-01 16:47:53

AI模型開源

2025-03-12 09:48:19

2025-02-17 09:33:00

AI算法模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-05-07 10:12:52

英偉達模型AI

2025-06-12 01:00:00

2023-01-05 09:33:37

視覺模型訓練

2023-09-11 12:58:00

AI訓練

2024-06-17 13:34:54

2025-04-22 09:12:00

AI模型數據

2025-02-18 15:02:13

2023-03-22 13:53:26

芯片英偉達

2025-02-27 09:09:45

2024-09-13 06:32:25

2025-04-11 09:15:00

語言模型AI數據

2025-02-17 10:40:20

2025-06-05 08:40:00

2025-05-13 15:13:28

AI模型訓練
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产色在线 | 亚洲一区高清 | 亚洲激情在线视频 | 国产视频黄色 | 久久99久久久久 | 国产精品久久亚洲7777 | 精品少妇一区二区三区在线播放 | 色一情一乱一伦一区二区三区 | 亚洲成在线观看 | a级性视频| 天堂色网 | 日日摸夜夜添夜夜添精品视频 | 久草久草久草 | 麻豆av电影网 | 久久国产亚洲 | 99福利| 欧美午夜视频 | 欧美中文一区 | 成人欧美 | 91在线视频免费观看 | 久久精品一区二区 | 一二三四在线视频观看社区 | 青青久草 | 中文字幕亚洲视频 | 精品国产乱码久久久久久1区2区 | 在线播放国产视频 | 久久综合一区 | 国产精品久久久久久久粉嫩 | 日韩精品在线观看网站 | www.日韩| 欧美精品一区二区三区在线 | 一区二区三区精品视频 | 成人在线精品视频 | 午夜免费在线电影 | 第一区在线观看免费国语入口 | 精品一区二区在线看 | 综合另类 | 九九热精品视频 | 亚洲精品一区在线观看 | 欧美一区在线视频 | 成人a免费|