NVIDIA 新成果:ProRL 拓展 LLM 推理邊界
大家好,我是肆〇柒。本文想和大家分享一篇來自 NVIDIA 研究團隊的前沿論文——《ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models》。這篇論文挑戰(zhàn)了強化學(xué)習(xí)在大型語言模型(LLM)中作用的傳統(tǒng)認知,還提出了一種創(chuàng)新的訓(xùn)練方法 ProRL,通過長時間的強化學(xué)習(xí)訓(xùn)練,顯著提升了模型的推理能力。文中 ProRL 的實踐用例,Reasoning Gym 的 boxnet 任務(wù)和 graph_color 任務(wù),強化學(xué)習(xí)后的模型展現(xiàn)了出色的表現(xiàn),這類基礎(chǔ)模型未見任務(wù)通過 ProRL 強化學(xué)習(xí)展現(xiàn)出的泛化能力,很是亮眼。這個研究成果為模型 Post train 提供了新的思路,也為我們理解模型推理邊界的拓展提供了深刻的見解。下面,我們一起來看看NVIDIA的這個研究它說了什么。
推理能力的崛起與強化學(xué)習(xí)的關(guān)鍵角色
近來,大型語言模型(LLM)在推理任務(wù)上的表現(xiàn)令人矚目。以 OpenAI-O1 和 DeepSeek-R1 為代表的模型,通過強化學(xué)習(xí)(RL)技術(shù),在數(shù)學(xué)問題求解、代碼生成等復(fù)雜任務(wù)上取得了顯著進展。而模型推理能力的提升,對于解決實際應(yīng)用中的復(fù)雜問題至關(guān)重要,它使得模型能夠更好地理解和處理復(fù)雜的邏輯關(guān)系和多步驟任務(wù)。
強化學(xué)習(xí)作為一種訓(xùn)練范式,通過與環(huán)境的交互不斷優(yōu)化模型的決策過程,成為了提升模型推理能力的關(guān)鍵技術(shù)之一。與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,強化學(xué)習(xí)通過優(yōu)化可驗證的目標(biāo)獎勵,而非依賴于學(xué)習(xí)型獎勵模型,從而有效避免了獎勵欺騙(reward hacking)問題,并使模型更緊密地與正確的推理過程對齊。例如,在數(shù)學(xué)問題求解中,模型通過強化學(xué)習(xí)能夠?qū)W會逐步驗證中間結(jié)果的正確性,而不是直接跳躍到最終答案,從而提高了答案的準(zhǔn)確性和可靠性。
強化學(xué)習(xí)是能力拓展還是輸出放大?
盡管強化學(xué)習(xí)在提升模型推理性能方面取得了顯著成效,但學(xué)術(shù)界對其作用機制仍存在激烈爭論。一個核心問題是:強化學(xué)習(xí)究竟是幫助模型拓展了新的推理能力,還是僅僅放大了基礎(chǔ)模型中已潛在存在的高回報輸出?換句話說,強化學(xué)習(xí)是否只是優(yōu)化了模型在訓(xùn)練數(shù)據(jù)上的表現(xiàn),而未真正提升其應(yīng)對新問題和復(fù)雜場景的能力?
先前的研究表明,基于強化學(xué)習(xí)的模型可能并未獲得超越基礎(chǔ)模型的新推理能力。例如,有研究指出,某些經(jīng)過強化學(xué)習(xí)訓(xùn)練的模型在特定數(shù)學(xué)任務(wù)上的表現(xiàn)提升,實際上是因為模型在訓(xùn)練過程中反復(fù)接觸了類似問題,從而記住了問題模式和答案,而非真正理解了問題背后的數(shù)學(xué)原理。這種現(xiàn)象引發(fā)了對強化學(xué)習(xí)方法的質(zhì)疑,即其是否僅是一種“表面優(yōu)化”,而非實質(zhì)性的能力提升。
然而,研究者們認為這些結(jié)論可能受限于研究方法的局限性。一方面,現(xiàn)有研究對特定領(lǐng)域(如數(shù)學(xué))的過度依賴可能導(dǎo)致結(jié)果偏向性。在這些領(lǐng)域,模型在預(yù)訓(xùn)練和后續(xù)訓(xùn)練階段往往接受了大量相關(guān)數(shù)據(jù)的訓(xùn)練,從而限制了其探索新領(lǐng)域和新問題的潛力。另一方面,強化學(xué)習(xí)訓(xùn)練的提前終止也是一個關(guān)鍵因素。大多數(shù)研究僅進行了有限的強化學(xué)習(xí)訓(xùn)練步驟(通常不超過數(shù)百步),這不足以讓模型充分探索和開發(fā)新的推理策略。例如,某些復(fù)雜的邏輯推理任務(wù)可能需要數(shù)千步的訓(xùn)練才能顯現(xiàn)效果,而過早停止訓(xùn)練可能導(dǎo)致對強化學(xué)習(xí)潛力的低估。
挑戰(zhàn)傳統(tǒng)觀點,提出ProRL方法
ProRL就在挑戰(zhàn)上述觀點,證明通過長時間的強化學(xué)習(xí)訓(xùn)練(ProRL),可以挖掘出基礎(chǔ)模型無法觸及的新型推理策略,從而顯著提升模型的推理能力。為此,研究者們提出了ProRL訓(xùn)練方法,該方法通過引入多種創(chuàng)新機制,解決了強化學(xué)習(xí)訓(xùn)練中的關(guān)鍵挑戰(zhàn),實現(xiàn)了模型推理能力的持續(xù)拓展。
ProRL方法的核心貢獻包括:
1. 引入KL散度控制,防止模型輸出分布過早集中,維持探索多樣性;
2. 定期重置參考策略,打破路徑依賴,避免模型陷入局部最優(yōu)解;
3. 構(gòu)建多樣化的任務(wù)組合,涵蓋數(shù)學(xué)、代碼、STEM、邏輯謎題和指令遵循等多個領(lǐng)域,促進模型泛化能力的提升。
通過這些創(chuàng)新,ProRL 提升了模型在已知任務(wù)上的表現(xiàn),還使其能夠在未見過的復(fù)雜任務(wù)中展現(xiàn)出超越基礎(chǔ)模型的推理能力,為大型語言模型的推理能力發(fā)展開辟了新的路徑。
我們先看看ProRL訓(xùn)練的綜合效果,如下圖所示:
長期強化學(xué)習(xí)(ProRL)的優(yōu)勢
ProRL 方法論:核心算法與訓(xùn)練挑戰(zhàn)的應(yīng)對
核心強化學(xué)習(xí)算法 - GRPO:優(yōu)化策略的新途徑
在 ProRL 方法中,Group Relative Policy Optimization(GRPO)作為核心的強化學(xué)習(xí)算法,為模型的訓(xùn)練提供了有力支持。GRPO 算法與傳統(tǒng)的近端策略優(yōu)化(PPO)相比,具有獨特的特點和優(yōu)勢。GRPO 去除了價值模型,轉(zhuǎn)而基于組分數(shù)估計基線,通過概率比率和組分數(shù)來優(yōu)化策略。這樣以來,簡化了模型架構(gòu)并提高了訓(xùn)練效率。GRPO 的目標(biāo)函數(shù)就是為了最大化策略的相對優(yōu)勢,其公式如下:
GRPO通過這種方式,利用組內(nèi)樣本的相對優(yōu)勢來指導(dǎo)策略更新,避免了對單一價值模型的依賴。例如,在一個包含多個數(shù)學(xué)問題的批次中,模型會根據(jù)每個問題在批次內(nèi)的相對難度和解決情況來調(diào)整策略,而不是依賴于絕對的價值估計。這種相對優(yōu)勢的評估方式,使得GRPO在處理多樣化任務(wù)時更加穩(wěn)健,能夠更好地捕捉任務(wù)間的差異和聯(lián)系。
應(yīng)對長時間訓(xùn)練挑戰(zhàn):熵崩潰與參考策略重置的解決方案
熵崩潰現(xiàn)象及其解決方案
在長時間的強化學(xué)習(xí)訓(xùn)練中,模型面臨著一系列挑戰(zhàn),其中熵崩潰是一個關(guān)鍵問題。熵崩潰指的是模型的輸出分布過早地變得過于集中在某些特定輸出上,導(dǎo)致模型的探索能力急劇下降,從而限制了策略優(yōu)化的空間,使得模型難以發(fā)現(xiàn)新的有效路徑。
為了解決這一問題,ProRL 方法采用了多種策略。
1?? 首先,增加采樣溫度是一種簡單而有效的方法,它能夠在訓(xùn)練初期增加輸出的多樣性,從而延遲熵崩潰的發(fā)生。然而,這種方法并不能從根本上解決問題,因為隨著訓(xùn)練的進行,熵仍然會逐漸下降。
2?? 然后,ProRL 引入了解耦裁剪(Decoupled Clip)和動態(tài)采樣(Dynamic Sampling)策略。ProRL借鑒了Decoupled Clip and Dynamic Sampling Policy Optimization(DAPO)算法中的解耦裁剪和動態(tài)采樣策略。(擴展閱讀????:《LLM 強化學(xué)習(xí)的開源新力量:字節(jié)跳動 DAPO 算法》)解耦裁剪通過分別設(shè)置上下界來靈活控制概率比率的范圍,公式如下:
動態(tài)采樣則通過過濾掉模型已經(jīng)能夠持續(xù)成功或失敗的樣本,專注于中等難度的樣本,從而維持多樣化的學(xué)習(xí)信號。例如,在數(shù)學(xué)問題求解中,模型會逐漸忽略那些總是正確或總是錯誤的問題,轉(zhuǎn)而集中精力優(yōu)化對部分正確的問題的處理策略。
3?? 還有一點,KL 正則化(KL Regularization) 也是 ProRL 中解決熵崩潰的重要手段。通過在損失函數(shù)中加入 KL 散度懲罰項,限制當(dāng)前策略與參考策略之間的 KL 散度,可以有效地維持輸出的多樣性。這有助于緩解熵崩潰,并且能夠防止模型在訓(xùn)練過程中偏離穩(wěn)定的參考策略過遠,從而提高訓(xùn)練的穩(wěn)定性。
參考策略重置:打破路徑依賴,激發(fā)持續(xù)探索能力
參考策略重置是ProRL的另一關(guān)鍵創(chuàng)新。隨著訓(xùn)練的進行,KL懲罰項可能逐漸主導(dǎo)損失函數(shù),導(dǎo)致策略更新變得微不足道。為緩解這一問題,ProRL引入了參考策略重置技術(shù)。定期將參考策略硬重置為在線策略的較新快照,并重新初始化優(yōu)化器狀態(tài)。這種重置策略打破了模型在訓(xùn)練過程中的路徑依賴,避免其陷入局部最優(yōu)解,從而激發(fā)模型的持續(xù)探索能力,為發(fā)現(xiàn)新的推理路徑創(chuàng)造條件。
重置的時機選擇至關(guān)重要。通常在驗證性能停滯或下降時進行重置,這不僅恢復(fù)了訓(xùn)練的穩(wěn)定性,還為模型提供了調(diào)整訓(xùn)練方向的機會。例如,在訓(xùn)練過程中,當(dāng)模型在數(shù)學(xué)問題求解上的驗證準(zhǔn)確率連續(xù)多個步驟未提升時,觸發(fā)重置操作。重置后,模型能夠基于新的參考策略重新探索問題空間,發(fā)現(xiàn)新的推理路徑。這種動態(tài)調(diào)整機制使得ProRL能夠在長時間訓(xùn)練中保持高效的學(xué)習(xí)和優(yōu)化能力。
Nemotron-Research-Reasoning-Qwen-1.5B 模型:ProRL的實踐范例
模型概述:1.5B參數(shù)模型的突破
Nemotron-Research-Reasoning-Qwen-1.5B 是一個基于 ProRL 方法訓(xùn)練的通用推理模型,它在多個領(lǐng)域展現(xiàn)了卓越的推理能力。該模型擁有 1.5B 參數(shù)規(guī)模,訓(xùn)練數(shù)據(jù)集涵蓋了數(shù)學(xué)、代碼、STEM、邏輯謎題和指令遵循等 136K 個問題,這些多樣化的任務(wù)為模型提供了豐富的學(xué)習(xí)環(huán)境,使其能夠適應(yīng)各種不同的推理需求。訓(xùn)練數(shù)據(jù)的詳細信息如下表所示:
實驗中使用的訓(xùn)練數(shù)據(jù)概述
精細化的訓(xùn)練參數(shù)與資源調(diào)配
Nemotron-1.5B的訓(xùn)練基于verl強化學(xué)習(xí)訓(xùn)練框架,并對GRPO算法進行了多項增強。具體設(shè)置如下:
- 解耦裁剪超參數(shù):設(shè)置低裁剪界限為0.2,高裁剪界限為0.4,以平衡穩(wěn)定性和探索性。
- 動態(tài)采樣:過濾掉準(zhǔn)確率為1或0的樣本,專注于中等難度樣本,維持多樣化的學(xué)習(xí)信號。
- 采樣溫度:設(shè)置為1.2,提高初始探索的多樣性。
- 批量大小與小批量大小:批量大小為256,小批量大小為64,每個采樣步進行4次梯度更新。
- 優(yōu)化器與學(xué)習(xí)率:采用AdamW優(yōu)化器,學(xué)習(xí)率為2×10??。
- 硬件資源:使用4個8×NVIDIA-H100-80GB節(jié)點進行訓(xùn)練,總訓(xùn)練時間為約16k GPU小時。
例如,在訓(xùn)練過程中,模型通過動態(tài)采樣策略,能夠?qū)崟r調(diào)整訓(xùn)練樣本的分布。當(dāng)模型在代碼生成任務(wù)上表現(xiàn)出對某些簡單算法的高掌握度時,系統(tǒng)會自動減少這些樣本的比例,轉(zhuǎn)而增加對復(fù)雜算法問題的采樣,從而確保訓(xùn)練過程始終聚焦于提升模型的薄弱環(huán)節(jié)。
驗證集監(jiān)控與性能提升機制
為了確保訓(xùn)練的有效性和模型的持續(xù)改進,研究人員通過一個混合驗證集來監(jiān)控訓(xùn)練進展。這個驗證集涵蓋了多個關(guān)鍵任務(wù),包括 AIME2024、Codeforces、GPQA-diamond、IFEval 和 Reasoning Gym 中的 graph_color 任務(wù)。在訓(xùn)練過程中,當(dāng)驗證性能停滯或下降時,會觸發(fā)參考模型和優(yōu)化器的硬重置。這種策略既恢復(fù)了訓(xùn)練的穩(wěn)定性,又可為模型提供新的學(xué)習(xí)動力,使其能夠繼續(xù)探索和優(yōu)化。
訓(xùn)練過程中,響應(yīng)長度與驗證分數(shù)之間呈現(xiàn)出一定的正相關(guān)性。隨著訓(xùn)練的進行,模型在生成更長的推理路徑時,驗證分數(shù)也隨之提高。這表明模型在逐漸理解復(fù)雜任務(wù)的結(jié)構(gòu),并不斷優(yōu)化其推理策略。盡管如此,也有階段出現(xiàn)驗證性能的提升并未伴隨著響應(yīng)長度的顯著增加,這說明模型在優(yōu)化過程中可能更多地依賴于推理質(zhì)量的提升,而非單純的推理步驟數(shù)量的增加。
ProRL訓(xùn)練過程中的動態(tài)變化如下圖所示:
ProRL訓(xùn)練動態(tài)
實驗評估:性能比較與泛化能力驗證
評估基準(zhǔn)與設(shè)置
為全面評估Nemotron-1.5B模型的性能,研究者選擇了涵蓋多個領(lǐng)域的任務(wù)和基準(zhǔn)測試:
- 數(shù)學(xué):包括AIME2024、AIME2025、AMC等,評估模型在數(shù)學(xué)問題求解上的能力。
- 代碼:涵蓋APPS、Codecontests、Codeforces等,測試模型的代碼生成和算法設(shè)計能力。
- STEM推理:使用GPQA Diamond,評估模型在科學(xué)、技術(shù)、工程和數(shù)學(xué)領(lǐng)域的推理能力。
- 指令遵循:通過IFEval測試模型對指令的準(zhǔn)確理解和執(zhí)行能力。
- 邏輯謎題:利用Reasoning Gym中的任務(wù),評估模型在邏輯推理和問題解決方面的能力。
評估設(shè)置采用了vllm作為推理后端,采樣溫度為0.6,核采樣(top_p)為0.95,最大響應(yīng)長度為32k。對于數(shù)學(xué)、代碼和STEM推理任務(wù),通過從每個基準(zhǔn)測試的提示中嚴格獲取二元獎勵來估計pass@1;對于邏輯謎題和指令遵循任務(wù),則計算基于規(guī)則驗證器的平均連續(xù)獎勵分數(shù)。
性能比較結(jié)果:顯著提升的模型表現(xiàn)
實驗結(jié)果顯示,Nemotron-Research-Reasoning-Qwen-1.5B 模型在各個任務(wù)基準(zhǔn)測試中均顯著優(yōu)于其基礎(chǔ)模型 DeepSeek-R1-Distill-Qwen-1.5B,以及與更大參數(shù)規(guī)模的模型 DeepSeek-R1-Distill-Qwen-7B 相比也表現(xiàn)出色。在數(shù)學(xué)領(lǐng)域,平均性能提升達到 15.7%;在代碼領(lǐng)域提升 14.4%;在 STEM 推理領(lǐng)域提升 25.9%;在指令遵循任務(wù)中提升 22.0%;在邏輯謎題任務(wù)中提升 54.8%。這些結(jié)果有力地證明了 ProRL 訓(xùn)練方法在提升模型推理能力方面的顯著效果。
數(shù)學(xué)領(lǐng)域基準(zhǔn)測試的性能(pass@1)比較代碼生成任務(wù)的性能比較結(jié)果如下表所示:
在代碼基準(zhǔn)測試中的性能(pass@1)比較
STEM推理、指令遵循和邏輯謎題任務(wù)的性能比較結(jié)果如下表所示:
在STEM推理(GPQA Diamond)、指令遵循(IFEval)和邏輯謎題(Reasoning Gym)任務(wù)上的性能比較
以數(shù)學(xué)任務(wù)為例,上表數(shù)據(jù)領(lǐng)域基準(zhǔn)測試中顯示了 Nemotron-Research-Reasoning-Qwen-1.5B 模型在 AIME24、AIME25、AMC 等任務(wù)中的表現(xiàn)。在 AIME24 任務(wù)中,模型的 pass@1 分數(shù)達到了 48.13%,相較于基礎(chǔ)模型的 28.54% 有了顯著提升;在 AIME25 任務(wù)中,pass@1 分數(shù)從基礎(chǔ)模型的 22.71% 提升至 33.33%;在 AMC 任務(wù)中,模型的 pass@1 分數(shù)更是高達 79.29%,遠超基礎(chǔ)模型的 62.58%。這些數(shù)據(jù)表明,ProRL 訓(xùn)練方法在數(shù)學(xué)推理任務(wù)中能夠有效地挖掘模型的潛力,提升其解決復(fù)雜問題的能力。
泛化能力評估:未見任務(wù)上的卓越表現(xiàn)
Nemotron-1.5B在未見過的推理任務(wù)(如Reasoning Gym中的OOD任務(wù))上表現(xiàn)出了強大的泛化能力。例如,在acre、boxnet和game_of_life_halting任務(wù)上,模型取得了顯著改進。在boxnet任務(wù)中,基礎(chǔ)模型在訓(xùn)練過程中從未接觸過該任務(wù),因此無法產(chǎn)生任何正確的解決方案。而經(jīng)過ProRL訓(xùn)練的Nemotron-1.5B模型卻能夠成功解決問題,實現(xiàn)了從無到有的能力突破,這表明模型在訓(xùn)練過程中形成的通用推理框架和模式識別能力,使其能夠快速適應(yīng)新任務(wù)的結(jié)構(gòu)并應(yīng)用相應(yīng)的推理策略。
模型在未見任務(wù)boxnet上的推理邊界擴展情況如下圖所示:
為OOD任務(wù)的BoxNet擴展推理邊界
此外,在graph_color任務(wù)中,研究人員通過生成不同節(jié)點數(shù)量的圖問題來評估模型對任務(wù)難度變化的適應(yīng)能力。盡管訓(xùn)練數(shù)據(jù)僅包含10個節(jié)點的圖,但模型在測試更大規(guī)模圖(如15個節(jié)點和20個節(jié)點)時,仍然能夠保持顯著高于基礎(chǔ)模型的準(zhǔn)確率。例如,在15個節(jié)點的圖上,Nemotron-1.5B的pass@1準(zhǔn)確率為0.185,而基礎(chǔ)模型則為0.002;在20個節(jié)點的圖上,Nemotron-1.5B的準(zhǔn)確率為0.064,基礎(chǔ)模型則為0.001。這種對未見復(fù)雜場景的適應(yīng)能力,進一步證明了ProRL訓(xùn)練方法在提升模型泛化能力方面的有效性。
模型在不同規(guī)模圖著色任務(wù)上的泛化能力如下圖所示:
ProRL在圖著色任務(wù)難度提升的情況下具有泛化能力
ProRL 是否激發(fā)新的推理模式分析
初始能力與提升效果的關(guān)系:負相關(guān)現(xiàn)象的揭示
實驗結(jié)果揭示了ProRL在擴展模型推理邊界方面的有效性與基礎(chǔ)模型初始能力之間的顯著負相關(guān)關(guān)系。具體而言,基礎(chǔ)模型初始性能越低的任務(wù),ProRL帶來的提升越顯著。例如,在邏輯謎題任務(wù)中,基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-1.5B的初始pass@128準(zhǔn)確率較低,而經(jīng)過ProRL訓(xùn)練后,Nemotron-1.5B在該任務(wù)上的準(zhǔn)確率顯著提升,某些子任務(wù)甚至實現(xiàn)了從接近0到接近100%的飛躍。
這種現(xiàn)象的機理在于,初始能力較低的任務(wù)往往具有更廣闊的探索空間,模型在這些任務(wù)上尚未形成固化的推理模式。因此,強化學(xué)習(xí)能夠更容易地引導(dǎo)其發(fā)現(xiàn)新的有效路徑。例如,在一些復(fù)雜的數(shù)學(xué)證明任務(wù)中,基礎(chǔ)模型可能僅掌握了部分基礎(chǔ)定理的應(yīng)用,而ProRL訓(xùn)練通過鼓勵模型探索不同的證明思路和定理組合,使其能夠找到更完整的解決方案。相比之下,對于基礎(chǔ)模型已經(jīng)表現(xiàn)較好的任務(wù),如某些簡單的算術(shù)運算,ProRL的提升空間相對較小,因為模型在這些任務(wù)上的推理模式已經(jīng)較為成熟和穩(wěn)定。
ProRL在不同任務(wù)上的效果與基礎(chǔ)模型初始能力的關(guān)系如下圖所示:
左圖: ProRL在那些基礎(chǔ)模型最初表現(xiàn)不佳的任務(wù)上,最有效地擴展了模型的推理邊界。 右圖: 在強化學(xué)習(xí)(RL)之后收益最小的任務(wù)(在圓圈中突出顯示)往往具有較低的創(chuàng)造力指數(shù),這表明它們與預(yù)訓(xùn)練數(shù)據(jù)的重疊度更高
推理邊界變化模式:Diminished、Plateau與Sustained的分類分析
根據(jù)pass@k的演變趨勢,任務(wù)可分為以下三種類型:
1. Diminished(推理能力下降):在某些基準(zhǔn)測試中,盡管pass@1有所提升,但pass@128(反映更廣泛的推理能力)卻出現(xiàn)下降或保持不變。這些任務(wù)通常具有較高的初始pass@128準(zhǔn)確率,表明基礎(chǔ)模型在這些任務(wù)上已經(jīng)具備較強的推理能力。ProRL訓(xùn)練可能使模型在輸出分布上過于集中,從而限制了其探索多樣化的推理路徑。例如,在某些簡單的數(shù)學(xué)運算任務(wù)中,模型可能過度優(yōu)化了對常見問題模式的快速響應(yīng),而忽略了對更復(fù)雜或變體問題的處理能力。
2. Plateau(早期飽和):對于這類任務(wù),ProRL訓(xùn)練在早期階段顯著提升了pass@1和pass@128,但隨著訓(xùn)練的進行,提升逐漸趨于平緩。這表明模型在這些任務(wù)上已經(jīng)達到了其學(xué)習(xí)潛力的上限。例如,在一些中級難度的編程任務(wù)中,模型可能在掌握了一定數(shù)量的算法模板后,難以進一步突破,因為任務(wù)本身對特定領(lǐng)域知識的依賴程度較高,而模型在這些知識上的擴展能力有限。
3. Sustained(持續(xù)提升):某些任務(wù)在整個訓(xùn)練過程中持續(xù)展現(xiàn)出推理能力的提升,這表明ProRL能夠不斷挖掘新的推理策略。這些任務(wù)通常對通用推理策略的適應(yīng)性較強,例如復(fù)雜的代碼生成任務(wù)或邏輯謎題。以Codeforces中的某些高級算法問題為例,模型通過ProRL訓(xùn)練逐漸學(xué)會了如何將問題分解為多個子任務(wù),并靈活運用不同的數(shù)據(jù)結(jié)構(gòu)和算法進行組合,從而在訓(xùn)練后期仍能取得顯著的性能提升。
pass@k比較如下圖所示:
Pass@k 比較基礎(chǔ)模型、中間檢查點模型以及最終的強化學(xué)習(xí)訓(xùn)練模型
對未見任務(wù)和復(fù)雜問題的泛化能力:boxnet與graph_color任務(wù)的案例分析
Nemotron-Research-Reasoning-Qwen-1.5B 模型在未見任務(wù)和復(fù)雜問題上的泛化能力得到了充分驗證。以 Reasoning Gym 中的 boxnet 任務(wù)和 graph_color 任務(wù)為例,模型展現(xiàn)了出色的表現(xiàn)。在 boxnet 任務(wù)中,模型需要指導(dǎo)代理在網(wǎng)格環(huán)境中移動彩色盒子到對應(yīng)的目標(biāo)位置。這一任務(wù)要求模型具備路徑規(guī)劃、資源分配和沖突解決等多種推理能力。盡管該任務(wù)未包含在訓(xùn)練數(shù)據(jù)集中,但模型仍然能夠成功地生成有效的解決方案,這表明其在訓(xùn)練過程中形成的通用推理能力可以遷移到全新的任務(wù)場景中。
同樣,在 graph_color 任務(wù)中,模型需要為不同規(guī)模的圖分配顏色,使得相鄰節(jié)點的顏色不相同。這一任務(wù)的難度隨著圖規(guī)模的增大而增加,但模型在訓(xùn)練過程中逐漸學(xué)會了如何識別圖的結(jié)構(gòu)特征,并應(yīng)用有效的著色策略。實驗結(jié)果顯示,模型在測試包含 10 個節(jié)點的圖時表現(xiàn)良好,而在面對更大規(guī)模的圖時,其性能依然保持穩(wěn)定且優(yōu)于基礎(chǔ)模型和其他相關(guān)模型。這進一步證明了 ProRL 訓(xùn)練方法在提升模型泛化能力方面的有效性。
pass@1 分布的演變:性能提升的微觀視角
ProRL訓(xùn)練過程中,pass@1分布的變化直觀地反映了模型推理能力的提升。在訓(xùn)練初期,模型的pass@1分布往往集中在較低值附近,且長尾分布明顯,表明模型在大多數(shù)任務(wù)上表現(xiàn)不佳,只有少數(shù)任務(wù)能夠取得較高的準(zhǔn)確率。隨著訓(xùn)練的進行,分布逐漸向右移動,更多任務(wù)的pass@1值顯著提高,且分布變得更加集中,表明模型在更多樣化的任務(wù)場景下能夠穩(wěn)定地提供有效的解決方案。
例如,在代碼生成任務(wù)中,模型在訓(xùn)練初期對復(fù)雜算法問題的解決能力非常有限,pass@1值接近于零。但經(jīng)過ProRL訓(xùn)練后,其分布顯著右移,許多代碼任務(wù)的pass@1值提高到0.5以上,甚至部分任務(wù)接近1.0。這種分布演變表明,ProRL通過擴展預(yù)期pass@1,克服了方差增加帶來的負面影響,從而實現(xiàn)了性能的持續(xù)提升。模型在訓(xùn)練過程中逐漸學(xué)會了在更多樣化的場景下應(yīng)用有效的推理策略,提高了對復(fù)雜問題的適應(yīng)性和解決能力。
pass@1分布的演變?nèi)缦聢D所示:
以family_relationships任務(wù)為例,該任務(wù)要求模型根據(jù)家庭關(guān)系描述確定人物之間的具體關(guān)系。在訓(xùn)練初期,模型的pass@1分布非常分散,且大部分樣本的準(zhǔn)確率接近于零。經(jīng)過ProRL訓(xùn)練后,分布顯著向右移動,形成了一個以高準(zhǔn)確率為主的集中分布。這表明模型在訓(xùn)練過程中逐漸掌握了家庭關(guān)系推理的關(guān)鍵模式,如代際關(guān)系、婚姻關(guān)系等,并能夠靈活應(yīng)用這些模式來解決各種復(fù)雜的關(guān)系問題。
推理模型的發(fā)展與RL推理邊界拓展的研究
推理模型的發(fā)展:從O1到ProRL的技術(shù)演進
推理模型的發(fā)展歷程見證了人工智能領(lǐng)域在模擬人類邏輯思維方面的不懈努力。從OpenAI的o1系列模型首次引入詳細鏈?zhǔn)剿伎迹–oT)的概念,到DeepSeek和Kimi等模型采用強化學(xué)習(xí)進行訓(xùn)練,這一領(lǐng)域經(jīng)歷了快速的技術(shù)迭代和創(chuàng)新。例如,o1模型通過擴展測試時的計算資源,實現(xiàn)了長鏈?zhǔn)剿伎迹沟媚P湍軌蛟诮鉀Q復(fù)雜數(shù)學(xué)問題時模擬人類的逐步推理過程。而DeepSeek-R1模型則進一步優(yōu)化了強化學(xué)習(xí)算法,提升了在代碼生成和邏輯推理等任務(wù)上的表現(xiàn)。
ProRL方法在這一演進過程中展現(xiàn)了獨特的創(chuàng)新。與傳統(tǒng)方法相比,ProRL通過長時間穩(wěn)定的強化學(xué)習(xí)訓(xùn)練,可以提升模型在已知任務(wù)上的表現(xiàn),還能夠讓模型在未見過的復(fù)雜任務(wù)中展現(xiàn)出超越基礎(chǔ)模型的推理能力。例如,ProRL在訓(xùn)練數(shù)據(jù)集的構(gòu)建上更加注重任務(wù)的多樣性,涵蓋了數(shù)學(xué)、代碼、STEM、邏輯謎題和指令遵循等多個領(lǐng)域,從而促進了模型泛化能力的提升。此外,ProRL通過引入KL散度控制、參考策略重置等機制,解決了強化學(xué)習(xí)訓(xùn)練中的關(guān)鍵挑戰(zhàn),實現(xiàn)了模型推理能力的持續(xù)拓展。
RL 推理邊界拓展的相關(guān)研究:從成功案例到質(zhì)疑與回應(yīng)
強化學(xué)習(xí)在實現(xiàn)超越人類性能方面有著諸多成功案例,如 DeepQ 網(wǎng)絡(luò)在 Atari 游戲中的應(yīng)用、AlphaGo 和 AlphaZero 在圍棋領(lǐng)域的突破等。這些案例中的強化學(xué)習(xí)通過不斷的自我對弈和策略優(yōu)化,成功地挖掘出了新的策略和技巧,從而超越了人類玩家的水平。然而,對于大型語言模型(LLM)而言,關(guān)于強化學(xué)習(xí)是否真正提升其推理能力的質(zhì)疑聲也未曾停止。一些研究認為,強化學(xué)習(xí)可能只是放大了模型在預(yù)訓(xùn)練階段已經(jīng)學(xué)到的模式,而并未真正擴展其推理邊界。
與這些質(zhì)疑觀點不同,ProRL 方法通過實證研究和技術(shù)創(chuàng)新,證明了強化學(xué)習(xí)在 LLM 推理能力提升中的有效性。ProRL 通過長時間的穩(wěn)定訓(xùn)練和多樣化的任務(wù)組合,引導(dǎo)模型探索新的推理路徑,從而實現(xiàn)了超越基礎(chǔ)模型的性能提升。這一成果為強化學(xué)習(xí)在 LLM 推理能力提升中的應(yīng)用提供了有力證據(jù),也為未來的研究提供了新的方向。
技術(shù)挑戰(zhàn)
局限性:計算資源、可擴展性與訓(xùn)練復(fù)雜性的權(quán)衡
盡管 ProRL 方法在提升模型推理能力方面取得了顯著成果,但它并非沒有局限性。首先,ProRL 方法對計算資源的需求較高,這可能限制了其在資源受限環(huán)境中的應(yīng)用。例如,訓(xùn)練 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡時和高性能計算設(shè)備,這對于一些小型研究團隊或個人開發(fā)者來說可能難以承受。訓(xùn)練過程中內(nèi)存占用較高,通信開銷較大,進一步加劇了資源需求。
其次,ProRL 方法在更大模型上的可擴展性仍面臨挑戰(zhàn)。隨著模型參數(shù)規(guī)模的增加,訓(xùn)練的復(fù)雜度和計算成本會顯著上升,同時模型訓(xùn)練的穩(wěn)定性也可能受到影響。例如,更大的模型可能需要更復(fù)雜的模型并行策略和更高效的梯度同步機制。此外,分布式訓(xùn)練架構(gòu)的設(shè)計和優(yōu)化也是實現(xiàn)更大模型 ProRL 訓(xùn)練的關(guān)鍵。模型壓縮技術(shù),如量化和剪枝,可以有效降低模型的存儲和計算需求,從而提高 ProRL 方法的可擴展性。
此外,ProRL 的訓(xùn)練過程相對復(fù)雜,涉及到參考策略重置和優(yōu)化器參數(shù)重置等操作。這些操作對訓(xùn)練的穩(wěn)定性和結(jié)果的可重復(fù)性產(chǎn)生一定影響。例如,重置參考策略的時機和頻率需要精心選擇,以避免對訓(xùn)練進程造成不必要的干擾。實驗數(shù)據(jù)表明,不同的重置策略會導(dǎo)致訓(xùn)練曲線的顯著差異。結(jié)合早停策略和學(xué)習(xí)率調(diào)整策略可以有效平衡訓(xùn)練的穩(wěn)定性和復(fù)雜性。早停策略可以在驗證性能不再提升時及時終止訓(xùn)練,避免資源浪費,而學(xué)習(xí)率調(diào)整策略則可以根據(jù)訓(xùn)練進度動態(tài)調(diào)整學(xué)習(xí)率,以適應(yīng)不同的訓(xùn)練階段。
最后,盡管評估涵蓋了多個領(lǐng)域,但訓(xùn)練數(shù)據(jù)集在任務(wù)覆蓋范圍上仍存在不足之處。在某些特定領(lǐng)域的任務(wù)深度和廣度不夠,可能導(dǎo)致模型在這些領(lǐng)域的泛化能力有限。例如,在專業(yè)性較強的領(lǐng)域(如特定學(xué)科的高級數(shù)學(xué)問題、專業(yè)領(lǐng)域的代碼生成等),模型可能表現(xiàn)出一定的局限性。這是因為訓(xùn)練數(shù)據(jù)集中缺乏足夠的樣本來覆蓋這些領(lǐng)域的復(fù)雜性和多樣性。
ProRL訓(xùn)練過程中的KL散度變化如下圖所示:
跨訓(xùn)練運行的KL散度
閱讀后的感想與總結(jié)
讀完 ProRL 論文,我對強化學(xué)習(xí)提升大型語言模型推理能力有了更清晰的認識。ProRL 方法的創(chuàng)新性令人印象深刻,其采用的 GRPO 算法舍棄傳統(tǒng) PPO 的價值模型,基于組分數(shù)估計基線優(yōu)化策略,使模型能更好地處理多樣化任務(wù),例如面對一批不同難度的數(shù)學(xué)問題,模型可依據(jù)問題在批次內(nèi)的相對難度和解決情況靈活調(diào)整策略,體現(xiàn)了訓(xùn)練方法的靈活性和高效性。
ProRL 引入的 KL 散度控制和參考策略重置等創(chuàng)新策略相互協(xié)作,有效攻克強化學(xué)習(xí)訓(xùn)練難題。KL 散度控制維持模型輸出多樣性,避免過早陷入局部最優(yōu)解;參考策略重置為模型持續(xù)探索新推理路徑提供保障。例如在邏輯謎題任務(wù)中,通過限制當(dāng)前策略與參考策略之間的 KL 散度,模型避免過度集中在常見解題模式上,積極探索新的解題步驟組合,提高了推理的多樣性和有效性。
從實驗結(jié)果來看,Nemotron-Research-Reasoning-Qwen-1.5B 模型在多個領(lǐng)域的推理任務(wù)中實現(xiàn)了顯著的性能提升,直觀展示了 ProRL 的強大威力。進一步分析發(fā)現(xiàn),模型在不同任務(wù)上的提升程度與任務(wù)本身的特性和基礎(chǔ)模型的初始能力密切相關(guān)。對于基礎(chǔ)模型初始性能較低的任務(wù),如邏輯謎題中的某些子任務(wù),ProRL 帶來的提升尤為顯著,這表明初始性能較低的任務(wù)往往具有更廣闊的探索空間,強化學(xué)習(xí)能更容易地引導(dǎo)其發(fā)現(xiàn)新的有效路徑。
ProRL 方法挑戰(zhàn)了以往對強化學(xué)習(xí)局限性的傳統(tǒng)認知。與以往一些研究相比,ProRL 通過長時間的穩(wěn)定訓(xùn)練和多樣化的任務(wù)組合,證明了強化學(xué)習(xí)可以引導(dǎo)模型探索新的推理路徑,實現(xiàn)超越基礎(chǔ)模型的性能提升。例如,ProRL 在訓(xùn)練數(shù)據(jù)集構(gòu)建上更加注重任務(wù)的多樣性,涵蓋多個領(lǐng)域,促進了模型泛化能力的提升,而且那個基模未見任務(wù)的“著色案例”也讓我印象深刻。以往方法可能在任務(wù)多樣性上有所欠缺,限制了模型的泛化性能。此外,ProRL 引入的創(chuàng)新機制有效解決了強化學(xué)習(xí)訓(xùn)練中的關(guān)鍵挑戰(zhàn),如熵崩潰和訓(xùn)練不穩(wěn)定等,這是其相較于以往方法的優(yōu)勢所在。
然而,ProRL 方法仍面臨諸多挑戰(zhàn),如高計算資源需求和訓(xùn)練復(fù)雜性等,這些問題提醒我們要在技術(shù)進步與實際應(yīng)用之間尋求平衡。例如,訓(xùn)練 Nemotron-Research-Reasoning-Qwen-1.5B 模型需要大量的 GPU 卡時和高性能計算設(shè)備,這限制了其在資源受限環(huán)境中的應(yīng)用。同時,ProRL 的訓(xùn)練過程相對復(fù)雜,涉及到參考策略重置和優(yōu)化器參數(shù)重置等操作,對訓(xùn)練的穩(wěn)定性和結(jié)果的可重復(fù)性產(chǎn)生一定影響。
參考資料
https://arxiv.org/pdf/2505.24864
- nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
https://arxiv.org/pdf/2412.16720
https://arxiv.org/pdf/2501.12948
https://arxiv.org/pdf/2503.14476
- DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models.