英偉達笑到最后!訓練2000步,1.5B逆襲7B巨獸,Scaling真來了
強化學習Scaling來了!
剛剛,英偉達團隊提出全新訓練方法——ProRL,成功將RL擴展到2000步。
論文鏈接:https://arxiv.org/abs/2505.24864
并且,它通過跨領(lǐng)域訓練數(shù)據(jù),包括數(shù)學、代碼、STEM、謎題、指令遵循,實現(xiàn)了泛化能力。
基于此方法,研究團隊訓出的1.5B模型,性能直接媲美Deepseek-R1-7B!
這證實了,通過長時間訓練,RL確實能解鎖全新推理能力。
這就是強化學習的Scaling Law:強化學習訓練越長,LLM推理能力越強。
黃仁勛很高興,畢竟在年初他就提出了所謂的「三大AI Scaling Law」。
預(yù)訓練Scaling Law馬上觸頂,后訓練Scaling Law正在發(fā)力。
而強化學習Scaling需要更多的算力,對英偉達而言就是商機和利潤。
后訓練拓展(Post-training scaling)利用微調(diào)(fine-tuning)、剪枝(pruning)、蒸餾(distillation)和強化學習等技術(shù),優(yōu)化預(yù)訓練模型,從而提升模型的效率和任務(wù)適應(yīng)性。
這次研究的主要發(fā)現(xiàn):
- 性能顯著提升:在數(shù)學、編程、邏輯謎題、STEM推理和指令跟隨等任務(wù)中,ProRL訓練的模型在pass@1指標上分別提升了14.7%、13.9%、54.8%、25.1%和18.1%。
- 發(fā)現(xiàn)新穎解法:ProRL訓練的模型在某些任務(wù)中表現(xiàn)出前所未有的推理路徑,甚至在基準模型完全失敗的情況下也能成功解決問題,顯示出其探索新解法的能力。
- 持續(xù)訓練帶來持續(xù)收益:即使經(jīng)過2000多步的訓練,模型性能仍在提升,表明長時間的RL訓練可以不斷擴展模型的推理邊界。
強化學習Scaling
只要2000步
近來,許多人質(zhì)疑RL是否真正提升模型的推理能力。甚至,有研究聲稱RL無法為基礎(chǔ)模型帶來新的推理技能。
這些觀點認為,RL的效果受限,主要源自以下問題:
1. 訓練領(lǐng)域過于狹窄:比如過度聚焦于數(shù)學等特定領(lǐng)域,導致模型難以泛化。
2. 訓練時間不足:許多強化學習訓練僅在數(shù)百步后就停止,遠未挖掘出真正的潛力。
這些限制,讓人們誤以為RL無法突破基礎(chǔ)模型的推理邊界。但事實證明,并非如此。
英偉達這項突破性研究,帶來了振奮人心的答案:
只要將RL訓練足夠久,AI推理能力就能實現(xiàn)質(zhì)的飛躍!
ProRL便成為了突破2000步的強化學習新配方,通過KL懲罰和定期參考策略重置,解決了長期以來存在的兩大難題——熵崩潰和訓練不穩(wěn)定性。
論文中利用ProRL,作者打造了僅15億參數(shù)推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。
ProRL的核心突破在于,它讓模型能夠在新穎任務(wù)中,發(fā)現(xiàn)基礎(chǔ)模型完全無法企及的解決方案。
結(jié)果顯示,在數(shù)學、代碼、STEM、謎題和指令遵循方面,1.5B模型實現(xiàn)了超強泛化能力,完全不輸Deepseek-R1-7B。
另外,在許多測試中,基礎(chǔ)模型即使經(jīng)過大量采樣也完全失敗,而ProRL訓練的模型卻能實現(xiàn)100%通過率。
尤其是,在高難度任務(wù)和域外任務(wù)上,ProRL訓練的模型表現(xiàn)出色。這表明了推理能力真正Scaling,并內(nèi)化了超越訓練數(shù)據(jù)的抽象推理模式。
以Codeforce任務(wù)為例,RL后模型的解法發(fā)布更加廣泛,展現(xiàn)出更高的多樣性。
而對于全新的family_relationships任務(wù),模型從幾乎全0通過率,躍升至完美準確率,成功發(fā)現(xiàn)了全新的解法路徑。
接下來,一起看看ProRL方法如何實現(xiàn)的?為何2000步能帶來如此顯著變化?
關(guān)鍵在于策略優(yōu)化的底層機制:GRPO與KL正則的協(xié)同進化,為強化學習注入了穩(wěn)定與多樣性。
改造GRPO
「三板斧」解決熵坍縮
在策略優(yōu)化訓練時間較長時,主要難題是熵坍縮。
熵坍縮指的是模型輸出的概率分布在訓練早期就變得非常集中,導致輸出熵迅速下降。
當熵坍縮發(fā)生時,策略會過早地固定在少量輸出上,嚴重限制了探索性。
對于GRPO(Group Relative Policy Optimization,組相對策略優(yōu)化)這樣的RL算法來說,多樣化的輸出樣本是估算相對優(yōu)勢的基礎(chǔ),因此探索受限會使學習信號偏差,訓練難以繼續(xù)有效推進。
提高采樣的溫度,雖然可以延緩熵坍縮的發(fā)生,但隨著訓練的進行,熵仍會持續(xù)下降。
這次,研究團隊徹底改造了GRPO方法。
與傳統(tǒng)的RL算法Proximal Policy Optimization(PPO)相比,GRPO移除了值函數(shù)模型,基于一組樣本的得分來估算基線,降低了算力需求。
GRPO的優(yōu)化目標如下:
τ是當前策略πθ所采樣的響應(yīng),rθ(τ)表示當前策略與舊策略的概率比。
GRPO中的優(yōu)勢函數(shù)(advantage)不依賴于PPO的價值網(wǎng)絡(luò)(critic),而是用同一組樣本{Ri}的得分來估算基線:
DAPO的啟發(fā)
開源的DAPO算法中的幾個關(guān)鍵組件,啟發(fā)了研究團隊解決熵坍縮問題。
論文鏈接:https://arxiv.org/abs/2503.14476
首先,DAPO引入了「解耦剪輯」機制,在PPO的目標函數(shù)中將上下剪輯邊界視為兩個獨立的超參數(shù):
通過將?_high設(shè)置為較高值,算法鼓勵「向上剪輯」(clip-higher),即提升原本概率較低的token的生成概率,從而擴大模型的探索范圍。
他們發(fā)現(xiàn),這種調(diào)整有助于保持輸出熵,并減少過早的模式坍縮現(xiàn)象。
此外,DAPO還采用了「動態(tài)采樣」策略,即過濾掉那些模型總是成功(準確率為1)或總是失敗(準確率為0)的提示語。這些示例無法提供有效的學習信號。
相反,訓練更集中在「中等難度」的樣本上,有助于保持多樣化的學習信號,推動模型持續(xù)進步。
顯式正則化:更強、更穩(wěn)定
盡管DAPO機制和調(diào)整采樣溫度可以在一定程度上減緩熵坍縮,但引入顯式正則化方法KL散度懲罰項,能夠提供更強、更穩(wěn)定的解決方案。
具體而言,研究團隊在當前策略πθ和參考策略πref之間加入KL散度懲罰:
這個懲罰項不僅有助于維持策略的熵,還起到了正則化的作用,防止當前策略過度偏離一個穩(wěn)定的參考策略,從而提升訓練穩(wěn)定性,避免模型過擬合于某些虛假的獎勵信號。
此外,隨著訓練推進,KL懲罰項可能在損失函數(shù)中占比過高,從而抑制策略更新的步幅。
為了解決這個問題,研究團隊引入了一種簡單但有效的方法:參考策略重置(Reference Policy Reset)。
具體做法是:定期將參考策略πref硬性重置為當前策略πθ的最近快照,并重新初始化優(yōu)化器的狀態(tài)。
這種機制既能讓模型繼續(xù)改進,又能保留KL正則化帶來的穩(wěn)定性。在整個訓練過程中反復應(yīng)用這種重置策略,以防模型過早收斂,同時鼓勵更長時間的有效訓練。
全面泛化
1.5B刷新SOTA
借助穩(wěn)定的獎勵計算機制、改進版GRPO算法以及延長的訓練過程,在不同任務(wù)上,新模型Nemotron-Research-Reasoning-Qwen-1.5B都展現(xiàn)出強大的泛化能力。
項目鏈接:https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
在以下領(lǐng)域,新模型均顯著優(yōu)于基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-1.5B:
- 數(shù)學:提升+15.7%
- 編程:提升+14.4%
- STEM推理:提升+25.9%
- 指令遵循:提升+22.0%
- 文字邏輯謎題(Reasoning Gym):提升+54.8%
此外,在數(shù)學(+4.6%)和編程(+6.5%)兩個領(lǐng)域,新模型也超越了專門針對特定任務(wù)訓練的領(lǐng)域?qū)S没€模型,充分體現(xiàn)了通用型強化學習(Prolonged RL)訓練方法的有效性。
實驗設(shè)置
為了驗證假設(shè),研究團隊構(gòu)建了多樣化且可驗證的訓練數(shù)據(jù)集,共包含約13.6萬個樣本,涵蓋五個任務(wù)領(lǐng)域:數(shù)學(math)、編程(code)、理工類(STEM)、邏輯謎題(logical puzzles)和指令遵循(instruction following)。
每種任務(wù)類型都配有清晰的獎勵信號(可為二值或連續(xù)值),從而在訓練過程中提供可靠反饋。
表4:這次研究中使用的訓練數(shù)據(jù)概覽
為了實現(xiàn)有效的長周期強化學習訓練,他們在融合的驗證集(從評估基準集中抽樣)實時監(jiān)控訓練進展。
當驗證集表現(xiàn)停滯或下降時,他們會對參考模型和優(yōu)化器進行硬性重置,以恢復訓練穩(wěn)定性,并允許策略進一步偏離初始基礎(chǔ)模型。
在訓練的大部分時間里,響應(yīng)長度被限制在8000個token內(nèi),保證生成結(jié)果簡潔穩(wěn)定。
在訓練的最后階段(約200個步驟),上下文窗口token總數(shù)擴大到16000。
研究團隊觀察到模型能夠迅速適應(yīng),并取得了可觀的性能提升。
圖2展示了在多階段擴展強化學習過程中,訓練動態(tài)的關(guān)鍵統(tǒng)計數(shù)據(jù)。
DAPO的多項增強策略,結(jié)合KL散度損失,有效防止了模型出現(xiàn)熵坍縮現(xiàn)象。
盡管觀察到平均響應(yīng)長度與驗證集得分之間存在一定的正相關(guān)關(guān)系,但這一因素并非決定性,因為在某些訓練階段,即使響應(yīng)長度沒有明顯增加,性能依然有所提升。
與此同時,驗證性能(通過pass@1和pass@16指標衡量)持續(xù)改善,并隨著訓練計算量的增加而穩(wěn)步提升。
下圖8展示了整個訓練過程中KL散度的變化情況。
實驗利用開源項目reasoning-gym進行。
項目鏈接:https://github.com/open-thought/reasoning-gym
評測結(jié)果分析
在多個領(lǐng)域?qū)?/span>DeepSeek-R1-Distill-Qwen-1.5B基礎(chǔ)模型與Nemotron-Research-Reasoning-Qwen-1.5B,研究團隊進行了全面對比。
新模型在所有數(shù)學推理基準測試中均穩(wěn)定超越基礎(chǔ)模型,平均提升15.7%(見表1)。
在復雜數(shù)學推導任務(wù)中展現(xiàn)出更強的邏輯連貫性。
在競技編程任務(wù)(pass@1準確率)中提升14.4%,尤其擅長處理算法優(yōu)化與邊界條件判斷(見表2)。
在STEM推理與指令跟隨測試中,GPQA Diamond基準成績提升25.9%;IFEval指令理解任務(wù)提升22.0%(見表3左側(cè))。
在邏輯謎題(Reasoning Gym)測試中,在基礎(chǔ)模型普遍受困于格式解析與復雜子任務(wù)的場景下,獎勵分數(shù)提升54.8%。
新模型展現(xiàn)出優(yōu)異的非結(jié)構(gòu)化問題分解能力(見表3左側(cè))。
即便與參數(shù)量更大的DeepSeek-R1-Distill-Qwen-7B相比,1.5B新模型在多數(shù)領(lǐng)域表現(xiàn)相當甚至更優(yōu),驗證了ProRL方法的高效性。
關(guān)鍵發(fā)現(xiàn):強化學習訓練不僅全面提升模型在各專業(yè)領(lǐng)域的表現(xiàn),更在基礎(chǔ)模型原本失效的任務(wù)上實現(xiàn)突破性進展,證實了該方法對模型本質(zhì)推理能力的拓展作用。
分布外任務(wù)(OOD)泛化能力
表3(右側(cè))展示了新模型在Reasoning Gym中多個分布外(OOD)任務(wù)上的表現(xiàn)。
模型在三項OOD任務(wù)中均取得顯著提升,展現(xiàn)出強大的泛化能力。這表明新的訓練方法有助于模型應(yīng)對未知挑戰(zhàn)。
與領(lǐng)域?qū)S媚P偷膶Ρ?/strong>
研究團隊對比了Nemotron-Research-Reasoning-Qwen-1.5B與兩個專門面向某一領(lǐng)域的基準模型:DeepScaleR-1.5B(數(shù)學推理)、DeepCoder-1.5B(編程任務(wù))。
下表2顯示,基于ProRL訓練的模型具備強泛化能力,在:
- 數(shù)學任務(wù)中提升+4.6%
- 編程任務(wù)中提升+6.5%
此外,ProRL使模型能在較短響應(yīng)長度內(nèi)完成更深入的推理與優(yōu)化,相比之下,現(xiàn)有方法往往過早增加響應(yīng)長度,導致「過度思考」(overthinking)并生成冗長啰嗦的推理內(nèi)容。
實驗分析
這次的主要分析結(jié)論如下:
(1)強化學習在擴展模型推理邊界(以pass@128衡量)方面的效果,與 基礎(chǔ)模型的初始能力 密切相關(guān)。
(2)強化學習確實能夠顯著擴展模型的推理能力,尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。
(3)強化學確實可以擴展LLM推理邊界,能夠推廣到訓練中未見的分布外任務(wù)。
(4)新方法ProRL不僅提高了平均pass@1,還足以彌補訓練中可能帶來的輸出方差增加,從而整體提升pass@k上限,推動推理能力的實質(zhì)躍升。
起點越弱,收益越大
這次研究的一個關(guān)鍵發(fā)現(xiàn)是:強化學習在擴展模型推理邊界(以pass@128衡量)方面的效果,與基礎(chǔ)模型的初始能力密切相關(guān)。
如圖3所示,研究團隊觀察到基礎(chǔ)模型的推理邊界越弱,其在經(jīng)過RL訓練后的推理提升越顯著,二者呈現(xiàn)出明顯的負相關(guān)關(guān)系。
具體來說:
- 對于基礎(chǔ)模型原本表現(xiàn)較好的任務(wù)(即初始pass@128較高),RL訓練后的推理廣度提升有限,甚至可能出現(xiàn)負增長。這表明模型更傾向于在已掌握的解法中增強信心,而非探索新的推理路徑,導致推理邊界變得更「窄」。
- 相反,在基礎(chǔ)模型本身較弱、初始pass@128較低的領(lǐng)域中,ProRL的效果最為顯著。此時,RL不僅提高了pass@1準確率,還顯著增強了模型在更廣泛推理路徑上的探索和成功能力。
為進一步驗證這種現(xiàn)象,他們引入了「創(chuàng)造力指數(shù)」(creativity index),衡量基礎(chǔ)模型在每個任務(wù)中的響應(yīng)與最大規(guī)模開源預(yù)訓練語料庫DOLMA之間的重合度。
結(jié)果表明,那些在RL訓練后幾乎沒有提升的任務(wù),其創(chuàng)造力指數(shù)普遍較低——
尤其是一些數(shù)學和編程任務(wù)(圖中用圓圈標出)。
這表明基礎(chǔ)模型在預(yù)訓練期間已經(jīng)接觸過大量相似內(nèi)容,因而對這些任務(wù)「熟悉」,也更難通過RL獲得進一步提升。
圖3:左:在基礎(chǔ)模型最初難以應(yīng)對的任務(wù)上,ProRL最能有效地擴展模型的推理邊界。右:圓圈中標出的那些經(jīng)過強化學習(RL)后收益最小的任務(wù)通常具有較低的創(chuàng)造力指數(shù)
解構(gòu)ProRL的推理邊界
他們逐一分析了各個評估基準任務(wù)的訓練表現(xiàn),并根據(jù)訓練過程中pass@k的變化趨勢,把它們分類。
結(jié)果表明,強化學習確實能夠顯著擴展模型的推理能力,尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。
具體來說:
- 一些任務(wù)在訓練初期就出現(xiàn)了性能飽和甚至推理能力退化的現(xiàn)象;
- 但也有不少任務(wù)展現(xiàn)出隨著訓練持續(xù)而不斷提升的趨勢,說明ProRL能幫助模型不斷探索并掌握更復雜的推理策略。
最顯著的例子是代碼生成任務(wù),在這一領(lǐng)域,ProRL能夠帶來持續(xù)性的性能提升。這表明,延長訓練時間使模型有機會深入探索,并逐步內(nèi)化更復雜的推理模式。
整體來看,這些結(jié)果說明:在合適的訓練條件下,ProRL不僅能優(yōu)化模型當前的表現(xiàn),還能突破基礎(chǔ)模型的推理上限,推動模型在推理能力上的持續(xù)進步。
在評估過程中發(fā)現(xiàn),ProRL對不同任務(wù)的推理邊界影響存在顯著差異,主要可分為以下三類情況:
1. 推理邊界退化(Diminished Reasoning Boundary)
在部分任務(wù)中(尤其是數(shù)學領(lǐng)域),Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基礎(chǔ)模型有所下降或保持不變,這一現(xiàn)象也與先前研究中的觀察結(jié)果一致。
2. RL收益早期飽和(Gains Plateau with RL)
對于這一類任務(wù),RL訓練確實提升了pass@1和pass@128,說明推理能力有所增強。但這種提升大多出現(xiàn)在訓練初期。
比較中間訓練檢查點與最終模型可以看出,ProRL在訓練后期幾乎不再帶來額外收益,表明模型對這類任務(wù)的學習潛力已很快達到飽和。
3. 持續(xù)收益(Sustained Gains from ProRL)
與上述情況相反,部分任務(wù)——尤其是更復雜的任務(wù),如代碼生成——在經(jīng)過長時間ProRL訓練后,推理能力持續(xù)提升。
這些任務(wù)通常需要模型在訓練過程中對多樣化問題進行充分探索,才能有效泛化到測試集。在此類任務(wù)上,ProRL顯著拓展了模型的推理邊界,展現(xiàn)出延長訓練在復雜任務(wù)上的巨大潛力。
ProRL提升分布外推理能力
ProRL如何增強模型在分布外(Out-of-Distribution, OOD)任務(wù)上的泛化能力?
延長強化學習訓練是否能夠顯著擴展模型的推理邊界,尤其是在面對結(jié)構(gòu)上新穎或語義上具有挑戰(zhàn)性、且在初始訓練階段未曾接觸過的任務(wù)時?
這次研究試圖單獨評估長期RL更新的作用,觀察其是否能促使模型學習到更抽象、通用的推理策略,從而在陌生任務(wù)中也能表現(xiàn)出色。這是驗證ProRL是否具備「超出經(jīng)驗學習」能力的重要指標。
分布外(OOD)任務(wù)評估
在Reasoning Gym中選取了boxnet任務(wù)進行評估,該任務(wù)在訓練階段從未出現(xiàn)過,用于測試模型在完全陌生任務(wù)上的泛化能力。
如圖5所示:
- 基礎(chǔ)模型在該任務(wù)上完全無法作答,表現(xiàn)出明顯的能力缺失。
- 相比之下,經(jīng)過ProRL訓練的模型展現(xiàn)出明顯的解題能力,說明其推理邊界得到了實質(zhì)性的擴展,能夠推廣到訓練中未見的分布外任務(wù)。
進一步對比中期RL檢查點和最終延長訓練后的模型,研究者發(fā)現(xiàn)隨著訓練持續(xù),模型在boxnet上的表現(xiàn)穩(wěn)步增強,且在所有pass@k值上均有提升。
這一結(jié)果強有力地支持了以下結(jié)論:ProRL不僅提升模型在已知任務(wù)上的表現(xiàn),更促使模型內(nèi)化抽象的推理模式,具備超越具體訓練數(shù)據(jù)與任務(wù)復雜度的泛化能力。
難度提升下的泛化能力評估
研究者進一步在graph_color任務(wù)中評估模型在不同任務(wù)難度下的表現(xiàn)。
具體做法是通過生成不同節(jié)點數(shù)的圖結(jié)構(gòu)問題來調(diào)節(jié)任務(wù)難度:
- 訓練數(shù)據(jù)僅包含10個節(jié)點的圖
- 測試數(shù)據(jù)則使用更大規(guī)模的圖,以評估模型在超出訓練分布范圍下的泛化能力
圖6展示了不同模型在各個圖規(guī)模下的表現(xiàn)(pass@1為實線,pass@128為虛線)。結(jié)果顯示:
- 隨著圖規(guī)模增大,任務(wù)復雜度指數(shù)級上升,各模型性能均有一定下降,這是合理預(yù)期;
- 但延長ProRL訓練的模型在所有圖規(guī)模上始終顯著優(yōu)于基礎(chǔ)模型與中間檢查點模型,無論是pass@1還是pass@128。
這一發(fā)現(xiàn)表明:
- ProRL不僅提升了模型在訓練分布內(nèi)的準確率
- 更增強了模型對更復雜、未見任務(wù)的穩(wěn)健性與泛化能力,即便任務(wù)的結(jié)構(gòu)復雜度大大超出原始訓練范圍,模型依然能保持較強表現(xiàn)。
訓練過程中pass@1分布如何演化?
已有研究表明:
- 提高平均pass@1(期望值)可以提升pass@k上界
- 而更高的方差則會削弱這個上限
與已有研究中觀察到的「訓練過程中pass@k隨時間下降」的現(xiàn)象不同,這次的實驗結(jié)果(圖1)顯示:
- pass@1和pass@16均隨著訓練持續(xù)而持續(xù)提升;
- 這種趨勢重現(xiàn)了OpenAI o1的RL訓練中報告的scaling law。
ProRL方法在多個任務(wù)上帶來了顯著的性能提升。
圖7(a)和圖7(b)展示了在代碼任務(wù)和邏輯謎題任務(wù)中的pass@1分布變化:
- 訓練初期:模型輸出的pass@1分布主要集中在零附近,且呈現(xiàn)長尾分布
- 訓練后期:分布明顯整體右移,表明模型在更多樣本上的首個解答成功率大幅提升
具體案例:
- Codeforces題目:訓練后分布更寬,準確率覆蓋面顯著擴大
- family_relationships任務(wù):作為一個新穎的推理任務(wù),該任務(wù)最初幾乎全部為零準確率,但訓練后出現(xiàn)集中于滿分(100%)的顯著峰值,表明模型成功學會了解題思路,能夠在大多數(shù)提示下正確作答
這些明顯的分布變化由延長RL訓練驅(qū)動,說明:
ProRL不僅提高了平均pass@1,還足以彌補訓練中可能帶來的輸出方差增加,從而整體提升pass@k上限,推動推理能力的實質(zhì)躍升。
作者簡介
Mingjie Liu,現(xiàn)任英偉達研究科學家,專注于電子設(shè)計自動化(EDA)領(lǐng)域的前沿研究。
他的研究領(lǐng)域主要涵蓋:人工智能與機器學習、模擬與混合信號集成電路。
他于2022年獲得德克薩斯大學奧斯汀分校UT-Austin電子與計算機工程博士學位。
在2018年,他獲得密歇根大學電子與計算機工程碩士學位。
2012年-2016年,他就讀于北京大學微電子專業(yè)。