成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

英偉達笑到最后！訓練2000步，1.5B逆襲7B巨獸，Scaling真來了

2025-06-23 09:14:00

人工智能新聞

強化學習可以提升LLM推理嗎？英偉達ProRL用超2000步訓練配方給出了響亮的答案。僅15億參數(shù)模型，媲美Deepseek-R1-7B，數(shù)學、代碼等全面泛化。

強化學習Scaling來了！

剛剛，英偉達團隊提出全新訓練方法——ProRL，成功將RL擴展到2000步。

論文鏈接：https://arxiv.org/abs/2505.24864

并且，它通過跨領(lǐng)域訓練數(shù)據(jù)，包括數(shù)學、代碼、STEM、謎題、指令遵循，實現(xiàn)了泛化能力。

基于此方法，研究團隊訓出的1.5B模型，性能直接媲美Deepseek-R1-7B！

這證實了，通過長時間訓練，RL確實能解鎖全新推理能力。

這就是強化學習的Scaling Law：強化學習訓練越長，LLM推理能力越強。

黃仁勛很高興，畢竟在年初他就提出了所謂的「三大AI Scaling Law」。

預(yù)訓練Scaling Law馬上觸頂，后訓練Scaling Law正在發(fā)力。

而強化學習Scaling需要更多的算力，對英偉達而言就是商機和利潤。

后訓練拓展（Post-training scaling）利用微調(diào)（fine-tuning）、剪枝（pruning）、蒸餾（distillation）和強化學習等技術(shù)，優(yōu)化預(yù)訓練模型，從而提升模型的效率和任務(wù)適應(yīng)性。

這次研究的主要發(fā)現(xiàn)：

性能顯著提升：在數(shù)學、編程、邏輯謎題、STEM推理和指令跟隨等任務(wù)中，ProRL訓練的模型在pass@1指標上分別提升了14.7%、13.9%、54.8%、25.1%和18.1%。
發(fā)現(xiàn)新穎解法：ProRL訓練的模型在某些任務(wù)中表現(xiàn)出前所未有的推理路徑，甚至在基準模型完全失敗的情況下也能成功解決問題，顯示出其探索新解法的能力。
持續(xù)訓練帶來持續(xù)收益：即使經(jīng)過2000多步的訓練，模型性能仍在提升，表明長時間的RL訓練可以不斷擴展模型的推理邊界。

強化學習Scaling

只要2000步

近來，許多人質(zhì)疑RL是否真正提升模型的推理能力。甚至，有研究聲稱RL無法為基礎(chǔ)模型帶來新的推理技能。

這些觀點認為，RL的效果受限，主要源自以下問題：

1. 訓練領(lǐng)域過于狹窄：比如過度聚焦于數(shù)學等特定領(lǐng)域，導致模型難以泛化。

2. 訓練時間不足：許多強化學習訓練僅在數(shù)百步后就停止，遠未挖掘出真正的潛力。

這些限制，讓人們誤以為RL無法突破基礎(chǔ)模型的推理邊界。但事實證明，并非如此。

英偉達這項突破性研究，帶來了振奮人心的答案：

只要將RL訓練足夠久，AI推理能力就能實現(xiàn)質(zhì)的飛躍！

ProRL便成為了突破2000步的強化學習新配方，通過KL懲罰和定期參考策略重置，解決了長期以來存在的兩大難題——熵崩潰和訓練不穩(wěn)定性。

論文中利用ProRL，作者打造了僅15億參數(shù)推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

ProRL的核心突破在于，它讓模型能夠在新穎任務(wù)中，發(fā)現(xiàn)基礎(chǔ)模型完全無法企及的解決方案。

結(jié)果顯示，在數(shù)學、代碼、STEM、謎題和指令遵循方面，1.5B模型實現(xiàn)了超強泛化能力，完全不輸Deepseek-R1-7B。

另外，在許多測試中，基礎(chǔ)模型即使經(jīng)過大量采樣也完全失敗，而ProRL訓練的模型卻能實現(xiàn)100%通過率。

尤其是，在高難度任務(wù)和域外任務(wù)上，ProRL訓練的模型表現(xiàn)出色。這表明了推理能力真正Scaling，并內(nèi)化了超越訓練數(shù)據(jù)的抽象推理模式。

以Codeforce任務(wù)為例，RL后模型的解法發(fā)布更加廣泛，展現(xiàn)出更高的多樣性。

而對于全新的family_relationships任務(wù)，模型從幾乎全0通過率，躍升至完美準確率，成功發(fā)現(xiàn)了全新的解法路徑。

接下來，一起看看ProRL方法如何實現(xiàn)的？為何2000步能帶來如此顯著變化？

關(guān)鍵在于策略優(yōu)化的底層機制：GRPO與KL正則的協(xié)同進化，為強化學習注入了穩(wěn)定與多樣性。

改造GRPO

「三板斧」解決熵坍縮

在策略優(yōu)化訓練時間較長時，主要難題是熵坍縮。

熵坍縮指的是模型輸出的概率分布在訓練早期就變得非常集中，導致輸出熵迅速下降。

當熵坍縮發(fā)生時，策略會過早地固定在少量輸出上，嚴重限制了探索性。

對于GRPO（Group Relative Policy Optimization，組相對策略優(yōu)化）這樣的RL算法來說，多樣化的輸出樣本是估算相對優(yōu)勢的基礎(chǔ)，因此探索受限會使學習信號偏差，訓練難以繼續(xù)有效推進。

提高采樣的溫度，雖然可以延緩熵坍縮的發(fā)生，但隨著訓練的進行，熵仍會持續(xù)下降。

這次，研究團隊徹底改造了GRPO方法。

與傳統(tǒng)的RL算法Proximal Policy Optimization（PPO）相比，GRPO移除了值函數(shù)模型，基于一組樣本的得分來估算基線，降低了算力需求。

GRPO的優(yōu)化目標如下：

τ是當前策略πθ所采樣的響應(yīng)，rθ(τ)表示當前策略與舊策略的概率比。

GRPO中的優(yōu)勢函數(shù)（advantage）不依賴于PPO的價值網(wǎng)絡(luò)（critic），而是用同一組樣本{Ri}的得分來估算基線：

DAPO的啟發(fā)

開源的DAPO算法中的幾個關(guān)鍵組件，啟發(fā)了研究團隊解決熵坍縮問題。

論文鏈接：https://arxiv.org/abs/2503.14476

首先，DAPO引入了「解耦剪輯」機制，在PPO的目標函數(shù)中將上下剪輯邊界視為兩個獨立的超參數(shù)：

通過將?_high設(shè)置為較高值，算法鼓勵「向上剪輯」（clip-higher），即提升原本概率較低的token的生成概率，從而擴大模型的探索范圍。

他們發(fā)現(xiàn)，這種調(diào)整有助于保持輸出熵，并減少過早的模式坍縮現(xiàn)象。

此外，DAPO還采用了「動態(tài)采樣」策略，即過濾掉那些模型總是成功（準確率為1）或總是失敗（準確率為0）的提示語。這些示例無法提供有效的學習信號。

相反，訓練更集中在「中等難度」的樣本上，有助于保持多樣化的學習信號，推動模型持續(xù)進步。

顯式正則化：更強、更穩(wěn)定

盡管DAPO機制和調(diào)整采樣溫度可以在一定程度上減緩熵坍縮，但引入顯式正則化方法KL散度懲罰項，能夠提供更強、更穩(wěn)定的解決方案。

具體而言，研究團隊在當前策略πθ和參考策略πref之間加入KL散度懲罰：

這個懲罰項不僅有助于維持策略的熵，還起到了正則化的作用，防止當前策略過度偏離一個穩(wěn)定的參考策略，從而提升訓練穩(wěn)定性，避免模型過擬合于某些虛假的獎勵信號。

此外，隨著訓練推進，KL懲罰項可能在損失函數(shù)中占比過高，從而抑制策略更新的步幅。

為了解決這個問題，研究團隊引入了一種簡單但有效的方法：參考策略重置（Reference Policy Reset）。

具體做法是：定期將參考策略πref硬性重置為當前策略πθ的最近快照，并重新初始化優(yōu)化器的狀態(tài)。

這種機制既能讓模型繼續(xù)改進，又能保留KL正則化帶來的穩(wěn)定性。在整個訓練過程中反復應(yīng)用這種重置策略，以防模型過早收斂，同時鼓勵更長時間的有效訓練。

全面泛化

1.5B刷新SOTA

借助穩(wěn)定的獎勵計算機制、改進版GRPO算法以及延長的訓練過程，在不同任務(wù)上，新模型Nemotron-Research-Reasoning-Qwen-1.5B都展現(xiàn)出強大的泛化能力。

項目鏈接：https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B

在以下領(lǐng)域，新模型均顯著優(yōu)于基礎(chǔ)模型DeepSeek-R1-Distill-Qwen-1.5B：

數(shù)學：提升+15.7%
編程：提升+14.4%
STEM推理：提升+25.9%
指令遵循：提升+22.0%
文字邏輯謎題（Reasoning Gym）：提升+54.8%

此外，在數(shù)學（+4.6%）和編程（+6.5%）兩個領(lǐng)域，新模型也超越了專門針對特定任務(wù)訓練的領(lǐng)域?qū)Ｓ没€模型，充分體現(xiàn)了通用型強化學習（Prolonged RL）訓練方法的有效性。

實驗設(shè)置

為了驗證假設(shè)，研究團隊構(gòu)建了多樣化且可驗證的訓練數(shù)據(jù)集，共包含約13.6萬個樣本，涵蓋五個任務(wù)領(lǐng)域：數(shù)學（math）、編程（code）、理工類（STEM）、邏輯謎題（logical puzzles）和指令遵循（instruction following）。

每種任務(wù)類型都配有清晰的獎勵信號（可為二值或連續(xù)值），從而在訓練過程中提供可靠反饋。

表4：這次研究中使用的訓練數(shù)據(jù)概覽

為了實現(xiàn)有效的長周期強化學習訓練，他們在融合的驗證集（從評估基準集中抽樣）實時監(jiān)控訓練進展。

當驗證集表現(xiàn)停滯或下降時，他們會對參考模型和優(yōu)化器進行硬性重置，以恢復訓練穩(wěn)定性，并允許策略進一步偏離初始基礎(chǔ)模型。

在訓練的大部分時間里，響應(yīng)長度被限制在8000個token內(nèi)，保證生成結(jié)果簡潔穩(wěn)定。

在訓練的最后階段（約200個步驟），上下文窗口token總數(shù)擴大到16000。

研究團隊觀察到模型能夠迅速適應(yīng)，并取得了可觀的性能提升。

圖2展示了在多階段擴展強化學習過程中，訓練動態(tài)的關(guān)鍵統(tǒng)計數(shù)據(jù)。

DAPO的多項增強策略，結(jié)合KL散度損失，有效防止了模型出現(xiàn)熵坍縮現(xiàn)象。

盡管觀察到平均響應(yīng)長度與驗證集得分之間存在一定的正相關(guān)關(guān)系，但這一因素并非決定性，因為在某些訓練階段，即使響應(yīng)長度沒有明顯增加，性能依然有所提升。

與此同時，驗證性能（通過pass@1和pass@16指標衡量）持續(xù)改善，并隨著訓練計算量的增加而穩(wěn)步提升。

下圖8展示了整個訓練過程中KL散度的變化情況。

實驗利用開源項目reasoning-gym進行。

項目鏈接：https://github.com/open-thought/reasoning-gym

評測結(jié)果分析

在多個領(lǐng)域?qū)?/span>DeepSeek-R1-Distill-Qwen-1.5B基礎(chǔ)模型與Nemotron-Research-Reasoning-Qwen-1.5B，研究團隊進行了全面對比。

新模型在所有數(shù)學推理基準測試中均穩(wěn)定超越基礎(chǔ)模型，平均提升15.7%（見表1）。

在復雜數(shù)學推導任務(wù)中展現(xiàn)出更強的邏輯連貫性。

在競技編程任務(wù)（pass@1準確率）中提升14.4%，尤其擅長處理算法優(yōu)化與邊界條件判斷（見表2）。

在STEM推理與指令跟隨測試中，GPQA Diamond基準成績提升25.9%；IFEval指令理解任務(wù)提升22.0%(見表3左側(cè))。

在邏輯謎題（Reasoning Gym）測試中，在基礎(chǔ)模型普遍受困于格式解析與復雜子任務(wù)的場景下，獎勵分數(shù)提升54.8%。

新模型展現(xiàn)出優(yōu)異的非結(jié)構(gòu)化問題分解能力(見表3左側(cè))。

即便與參數(shù)量更大的DeepSeek-R1-Distill-Qwen-7B相比，1.5B新模型在多數(shù)領(lǐng)域表現(xiàn)相當甚至更優(yōu)，驗證了ProRL方法的高效性。

關(guān)鍵發(fā)現(xiàn)：強化學習訓練不僅全面提升模型在各專業(yè)領(lǐng)域的表現(xiàn)，更在基礎(chǔ)模型原本失效的任務(wù)上實現(xiàn)突破性進展，證實了該方法對模型本質(zhì)推理能力的拓展作用。

分布外任務(wù)（OOD）泛化能力

表3（右側(cè)）展示了新模型在Reasoning Gym中多個分布外（OOD）任務(wù)上的表現(xiàn)。

模型在三項OOD任務(wù)中均取得顯著提升，展現(xiàn)出強大的泛化能力。這表明新的訓練方法有助于模型應(yīng)對未知挑戰(zhàn)。

與領(lǐng)域?qū)Ｓ媚Ｐ偷膶Ρ?/strong>

研究團隊對比了Nemotron-Research-Reasoning-Qwen-1.5B與兩個專門面向某一領(lǐng)域的基準模型：DeepScaleR-1.5B（數(shù)學推理）、DeepCoder-1.5B（編程任務(wù)）。

下表2顯示，基于ProRL訓練的模型具備強泛化能力，在：

數(shù)學任務(wù)中提升+4.6%
編程任務(wù)中提升+6.5%

此外，ProRL使模型能在較短響應(yīng)長度內(nèi)完成更深入的推理與優(yōu)化，相比之下，現(xiàn)有方法往往過早增加響應(yīng)長度，導致「過度思考」（overthinking）并生成冗長啰嗦的推理內(nèi)容。

實驗分析

這次的主要分析結(jié)論如下：

（1）強化學習在擴展模型推理邊界（以pass@128衡量）方面的效果，與基礎(chǔ)模型的初始能力密切相關(guān)。

（2）強化學習確實能夠顯著擴展模型的推理能力，尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。

（3）強化學確實可以擴展LLM推理邊界，能夠推廣到訓練中未見的分布外任務(wù)。

（4）新方法ProRL不僅提高了平均pass@1，還足以彌補訓練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動推理能力的實質(zhì)躍升。

起點越弱，收益越大

這次研究的一個關(guān)鍵發(fā)現(xiàn)是：強化學習在擴展模型推理邊界（以pass@128衡量）方面的效果，與基礎(chǔ)模型的初始能力密切相關(guān)。

如圖3所示，研究團隊觀察到基礎(chǔ)模型的推理邊界越弱，其在經(jīng)過RL訓練后的推理提升越顯著，二者呈現(xiàn)出明顯的負相關(guān)關(guān)系。

具體來說：

對于基礎(chǔ)模型原本表現(xiàn)較好的任務(wù)（即初始pass@128較高），RL訓練后的推理廣度提升有限，甚至可能出現(xiàn)負增長。這表明模型更傾向于在已掌握的解法中增強信心，而非探索新的推理路徑，導致推理邊界變得更「窄」。
相反，在基礎(chǔ)模型本身較弱、初始pass@128較低的領(lǐng)域中，ProRL的效果最為顯著。此時，RL不僅提高了pass@1準確率，還顯著增強了模型在更廣泛推理路徑上的探索和成功能力。

為進一步驗證這種現(xiàn)象，他們引入了「創(chuàng)造力指數(shù)」（creativity index），衡量基礎(chǔ)模型在每個任務(wù)中的響應(yīng)與最大規(guī)模開源預(yù)訓練語料庫DOLMA之間的重合度。

結(jié)果表明，那些在RL訓練后幾乎沒有提升的任務(wù)，其創(chuàng)造力指數(shù)普遍較低——

尤其是一些數(shù)學和編程任務(wù)（圖中用圓圈標出）。

這表明基礎(chǔ)模型在預(yù)訓練期間已經(jīng)接觸過大量相似內(nèi)容，因而對這些任務(wù)「熟悉」，也更難通過RL獲得進一步提升。

圖3：左：在基礎(chǔ)模型最初難以應(yīng)對的任務(wù)上，ProRL最能有效地擴展模型的推理邊界。右：圓圈中標出的那些經(jīng)過強化學習（RL）后收益最小的任務(wù)通常具有較低的創(chuàng)造力指數(shù)

解構(gòu)ProRL的推理邊界

他們逐一分析了各個評估基準任務(wù)的訓練表現(xiàn)，并根據(jù)訓練過程中pass@k的變化趨勢，把它們分類。

結(jié)果表明，強化學習確實能夠顯著擴展模型的推理能力，尤其是在那些超出基礎(chǔ)模型原有能力范圍的高難度任務(wù)上。

具體來說：

一些任務(wù)在訓練初期就出現(xiàn)了性能飽和甚至推理能力退化的現(xiàn)象；
但也有不少任務(wù)展現(xiàn)出隨著訓練持續(xù)而不斷提升的趨勢，說明ProRL能幫助模型不斷探索并掌握更復雜的推理策略。

最顯著的例子是代碼生成任務(wù)，在這一領(lǐng)域，ProRL能夠帶來持續(xù)性的性能提升。這表明，延長訓練時間使模型有機會深入探索，并逐步內(nèi)化更復雜的推理模式。

整體來看，這些結(jié)果說明：在合適的訓練條件下，ProRL不僅能優(yōu)化模型當前的表現(xiàn)，還能突破基礎(chǔ)模型的推理上限，推動模型在推理能力上的持續(xù)進步。

在評估過程中發(fā)現(xiàn)，ProRL對不同任務(wù)的推理邊界影響存在顯著差異，主要可分為以下三類情況：

1. 推理邊界退化（Diminished Reasoning Boundary）

在部分任務(wù)中（尤其是數(shù)學領(lǐng)域），Nemotron-Research-Reasoning-Qwen-1.5B的推理能力相比基礎(chǔ)模型有所下降或保持不變，這一現(xiàn)象也與先前研究中的觀察結(jié)果一致。

2. RL收益早期飽和（Gains Plateau with RL）

對于這一類任務(wù)，RL訓練確實提升了pass@1和pass@128，說明推理能力有所增強。但這種提升大多出現(xiàn)在訓練初期。

比較中間訓練檢查點與最終模型可以看出，ProRL在訓練后期幾乎不再帶來額外收益，表明模型對這類任務(wù)的學習潛力已很快達到飽和。

3. 持續(xù)收益（Sustained Gains from ProRL）

與上述情況相反，部分任務(wù)——尤其是更復雜的任務(wù)，如代碼生成——在經(jīng)過長時間ProRL訓練后，推理能力持續(xù)提升。

這些任務(wù)通常需要模型在訓練過程中對多樣化問題進行充分探索，才能有效泛化到測試集。在此類任務(wù)上，ProRL顯著拓展了模型的推理邊界，展現(xiàn)出延長訓練在復雜任務(wù)上的巨大潛力。

ProRL提升分布外推理能力

ProRL如何增強模型在分布外（Out-of-Distribution, OOD）任務(wù)上的泛化能力?

延長強化學習訓練是否能夠顯著擴展模型的推理邊界，尤其是在面對結(jié)構(gòu)上新穎或語義上具有挑戰(zhàn)性、且在初始訓練階段未曾接觸過的任務(wù)時?

這次研究試圖單獨評估長期RL更新的作用，觀察其是否能促使模型學習到更抽象、通用的推理策略，從而在陌生任務(wù)中也能表現(xiàn)出色。這是驗證ProRL是否具備「超出經(jīng)驗學習」能力的重要指標。

分布外（OOD）任務(wù)評估

在Reasoning Gym中選取了boxnet任務(wù)進行評估，該任務(wù)在訓練階段從未出現(xiàn)過，用于測試模型在完全陌生任務(wù)上的泛化能力。

如圖5所示：

基礎(chǔ)模型在該任務(wù)上完全無法作答，表現(xiàn)出明顯的能力缺失。
相比之下，經(jīng)過ProRL訓練的模型展現(xiàn)出明顯的解題能力，說明其推理邊界得到了實質(zhì)性的擴展，能夠推廣到訓練中未見的分布外任務(wù)。

進一步對比中期RL檢查點和最終延長訓練后的模型，研究者發(fā)現(xiàn)隨著訓練持續(xù)，模型在boxnet上的表現(xiàn)穩(wěn)步增強，且在所有pass@k值上均有提升。

這一結(jié)果強有力地支持了以下結(jié)論：ProRL不僅提升模型在已知任務(wù)上的表現(xiàn)，更促使模型內(nèi)化抽象的推理模式，具備超越具體訓練數(shù)據(jù)與任務(wù)復雜度的泛化能力。

難度提升下的泛化能力評估

研究者進一步在graph_color任務(wù)中評估模型在不同任務(wù)難度下的表現(xiàn)。

具體做法是通過生成不同節(jié)點數(shù)的圖結(jié)構(gòu)問題來調(diào)節(jié)任務(wù)難度：

訓練數(shù)據(jù)僅包含10個節(jié)點的圖
測試數(shù)據(jù)則使用更大規(guī)模的圖，以評估模型在超出訓練分布范圍下的泛化能力

圖6展示了不同模型在各個圖規(guī)模下的表現(xiàn)（pass@1為實線，pass@128為虛線）。結(jié)果顯示：

隨著圖規(guī)模增大，任務(wù)復雜度指數(shù)級上升，各模型性能均有一定下降，這是合理預(yù)期；
但延長ProRL訓練的模型在所有圖規(guī)模上始終顯著優(yōu)于基礎(chǔ)模型與中間檢查點模型，無論是pass@1還是pass@128。

這一發(fā)現(xiàn)表明：

ProRL不僅提升了模型在訓練分布內(nèi)的準確率
更增強了模型對更復雜、未見任務(wù)的穩(wěn)健性與泛化能力，即便任務(wù)的結(jié)構(gòu)復雜度大大超出原始訓練范圍，模型依然能保持較強表現(xiàn)。

訓練過程中pass@1分布如何演化？

已有研究表明：

提高平均pass@1（期望值）可以提升pass@k上界
而更高的方差則會削弱這個上限

與已有研究中觀察到的「訓練過程中pass@k隨時間下降」的現(xiàn)象不同，這次的實驗結(jié)果（圖1）顯示：

pass@1和pass@16均隨著訓練持續(xù)而持續(xù)提升;
這種趨勢重現(xiàn)了OpenAI o1的RL訓練中報告的scaling law。

ProRL方法在多個任務(wù)上帶來了顯著的性能提升。

圖7(a)和圖7(b)展示了在代碼任務(wù)和邏輯謎題任務(wù)中的pass@1分布變化：

訓練初期：模型輸出的pass@1分布主要集中在零附近，且呈現(xiàn)長尾分布
訓練后期：分布明顯整體右移，表明模型在更多樣本上的首個解答成功率大幅提升

具體案例：

Codeforces題目：訓練后分布更寬，準確率覆蓋面顯著擴大
family_relationships任務(wù)：作為一個新穎的推理任務(wù)，該任務(wù)最初幾乎全部為零準確率，但訓練后出現(xiàn)集中于滿分（100%）的顯著峰值，表明模型成功學會了解題思路，能夠在大多數(shù)提示下正確作答

這些明顯的分布變化由延長RL訓練驅(qū)動，說明：

ProRL不僅提高了平均pass@1，還足以彌補訓練中可能帶來的輸出方差增加，從而整體提升pass@k上限，推動推理能力的實質(zhì)躍升。

作者簡介

Mingjie Liu，現(xiàn)任英偉達研究科學家，專注于電子設(shè)計自動化（EDA）領(lǐng)域的前沿研究。

他的研究領(lǐng)域主要涵蓋：人工智能與機器學習、模擬與混合信號集成電路。

他于2022年獲得德克薩斯大學奧斯汀分校UT-Austin電子與計算機工程博士學位。

在2018年，他獲得密歇根大學電子與計算機工程碩士學位。

2012年-2016年，他就讀于北京大學微電子專業(yè)。

責任編輯：張燕妮來源：新智元

強化學習 AI 模型

分享到微信

微信掃碼分享

分享到微博

相關(guān)推薦

基于 DeepSeek GRPO 的 1.5B Rust 代碼生成模型訓練實戰(zhàn)
群組相對策略優(yōu)化（GRPO）如何讓小型專用模型在特定任務(wù)上實現(xiàn)性能提升？我們今天為大家?guī)淼倪@篇文章展示了如何使用GRPO，訓練一個僅有1.5B參數(shù)的Rust代碼生成模型，實現(xiàn)性能大幅提升。

2025-04-07 02:25:00

DeepSeek 模型訓練 GRPO

面對AMD英特爾微軟谷歌的挑戰(zhàn)，英偉達AI計算能否笑到最后？
英偉達高管知道競爭很激烈，他們強調(diào)，在AI芯片領(lǐng)域英偉達地位超然。如何保持優(yōu)勢？英偉達會加快研發(fā)速度，每年都會發(fā)布新品，而不是兩年一次。

2023-11-27 09:59:52

英偉達 AI芯片

Transformer，會笑到最后嗎？
在RAG的背景下，Cohere最近推出的CommandR+模型是第一個在聊天機器人領(lǐng)域擊敗GPT4的開放權(quán)重模型。CommandR+是最先進的RAG優(yōu)化模型，旨在為企業(yè)級工作流程提供支持。

2024-08-20 14:01:21

7B？13B？175B？解讀大模型的參數(shù)
在工程實踐中，理解大模型的參數(shù)是有意義的。參數(shù)在大模型中起著決定性的作用，它們定義了大模型的行為、性能、實現(xiàn)的成本以及對資源的需求。在工程上理解大模型的參數(shù)，就是要把握模型的復雜度、性能和能力之間的關(guān)系。

2024-06-03 10:43:34

英偉達AI奧賽奪冠，1.5B數(shù)學碾壓DeepSeek-R1！代碼全系開源，陶哲軒點贊
AIMO2冠軍「答卷」公布了！英偉達團隊NemoSkills拔得頭籌，開源了OpenMathNemotron系列AI模型，1.5B小模型擊敗14BDeepSeek「推理大模型」！

2025-04-27 08:54:00

英偉達開源模型

3B模型逆襲7B巨頭！Video-XL-Pro突破長視頻理解極限，大海撈針準確率超98%
來自上海交通大學、北京智源研究院、特倫托大學的聯(lián)合研究團隊推出了VideoXLPro，實現(xiàn)近一萬幀視頻的單卡處理，大海撈針準確率超98%。

2025-05-06 09:55:00

這個開源框架讓小模型“組團逆襲”，7B性能直追72B
上海人工智能實驗室聯(lián)合中國人民大學提出GRA框架（Generator–Reviewer–Adjudicator）。

2025-06-18 08:47:00

英偉達揭示RL Scaling魔力！訓練步數(shù)翻倍=推理能力質(zhì)變，小模型突破推理極限
這項來自NVIDIA的研究，讓我們重新認識了RL的真正潛力——不僅能優(yōu)化策略，還能擴展模型的能力邊界。

2025-06-04 13:56:06

英偉達訓練模型

ChatGPT參數(shù)規(guī)模被扒：只有7B
具體來說，南加大團隊三位作者破解出了未公布的gpt3.5turbo嵌入向量維度（embeddingsize）為4096或4608。而幾乎所有已知的開源大模型如Llama和Mistral，嵌入向量維度4096的時候都是約7B參數(shù)規(guī)模。

2024-03-18 07:01:42

逐鹿Linux市場:Mint能否笑到最后?
對于Linux愛好者來說，隨著LinuxMint近期的強勢表現(xiàn)，我相信很多人已經(jīng)動搖了對Ubuntu，DebianGNULinux，F(xiàn)edora，Gentoo等之前版本的忠心，開始了對LinuxMint產(chǎn)生了強大的興趣，也許有人已經(jīng)開始使用LinuxMint替代以前別的Linux發(fā)行版本了。

2011-11-24 09:51:13

Linux Mint

國家隊出手！DeepSeek上線國家超算互聯(lián)網(wǎng)平臺，免注冊開箱即用！
目前，國家超算互聯(lián)網(wǎng)平臺已推出DeepSeek–R1模型的1.5B、7B、8B、14B版本，后續(xù)還會在近期更新32B、70B等版本。

2025-02-05 23:21:32

4500美元復刻DeepSeek神話，1.5B戰(zhàn)勝o1-preview只用RL！訓練細節(jié)全公開
只用4500美元成本，就能成功復現(xiàn)DeepSeek？就在剛剛，UC伯克利團隊只用簡單的RL微調(diào)，就訓出了DeepScaleR1.5BPreview，15億參數(shù)模型直接吊打o1preview，震撼業(yè)內(nèi)。

2025-02-11 16:17:42

清華、上海AI Lab 23K數(shù)據(jù)讓1.5B小模型逆襲GPT-4o
清華大學聯(lián)合上海AILab提出生成式過程獎勵模型——GenPRM，將生成式思維鏈推理（CoT）與代碼驗證相結(jié)合，并引入測試時拓展機制，為過程監(jiān)督推理提供了新思路。

2025-04-15 09:19:00

模型 AI 數(shù)據(jù)

“云”vs“T” 惠普愛普生誰會笑到最后
商用噴墨打印機(一體機)，將一類打印產(chǎn)品定義了范圍應(yīng)用，更利于用戶針對選購使用，而針對激光更適商用一說，令商用噴墨打印機的發(fā)展不斷得到超越，以縮小與激光打印產(chǎn)品在應(yīng)用層面上的差距，以至現(xiàn)在，無論是打印質(zhì)量、速度、穩(wěn)定性，還是后期成本，商用噴墨打印機真正“商用”都不再是問題。

2011-06-08 14:09:59

噴墨打印機行情

Kindle Fire：誰將笑到最后
人們經(jīng)常會問一個問題：“是買一個iPad好還是為了節(jié)省點費用而買個KindleFire”同樣，在提到蘋果的iPad時，我們時常將其與亞馬遜的KindleFire作比較。隨著新iPad的推出，這些問題仍然是大家的一個熱門話題。

2012-03-22 13:36:11

iPad Kindle Fire

英偉達華人硬核AI神器，「描述一切」秒變細節(jié)狂魔！僅3B逆襲GPT-4o
視覺AI終極突破來了！英偉達等機構(gòu)推出超強多模態(tài)模型DAM，僅3B參數(shù)，就能精準描述圖像和視頻中的任何細節(jié)。

2025-04-27 09:54:48

利用MindsDB和Anyscale微調(diào)Mistral 7B模型
本文將討論MindsDB和AnyscaleEndpoints如何以一種經(jīng)濟高效且簡單的方式，將開源大模型與數(shù)據(jù)進行微調(diào)。同時會探討微調(diào)對模型行為的影響，以及微調(diào)與提示工程的關(guān)系。

2024-03-25 08:00:00

只激活3.8B參數(shù)，性能比肩同款7B模型！訓練微調(diào)都能用，來自微軟
在極大規(guī)模下，稀疏激活模型有可能達到與密集模型相當?shù)男阅?，為設(shè)計和訓練大規(guī)模稀疏激活模型提供了一個有用的參考。

2024-07-18 12:53:13

2022年L4自動駕駛年度答卷，真「無人」笑到最后
一半是寒冬。平臺型自動駕駛明星Aurora、背靠福特和大眾的Argo……今年都先后傳出裁員或破產(chǎn)的消息，還有不少之前專注Robotaxi的企業(yè)，轉(zhuǎn)軌做起了乘用車輔助駕駛。

2022-12-30 12:10:41

L4 自動駕駛破產(chǎn)

國產(chǎn)基礎(chǔ)軟件市場大熱，誰會笑到最后？
前陣子，一則太極股份5880萬元人民幣受讓金蝶中國與金蝶配套21%股份的公告引起了股民的興奮，引來了廣大民眾對國內(nèi)基礎(chǔ)軟件廠商的密切關(guān)注。筆者在想，近一年來，中國基礎(chǔ)軟件市場動作如此之多，是否預(yù)示著國產(chǎn)基礎(chǔ)軟件真的熱起來了

2015-07-27 15:31:06

國產(chǎn)基礎(chǔ)軟件東方通國產(chǎn)化

相似話題

機器學習
 2034內(nèi)容

深度學習
 1699內(nèi)容

自然語言處理
 110內(nèi)容

語音識別
 107內(nèi)容
全部話題

同話題下的熱門內(nèi)容

谷歌重磅開源Gemini CLI：免費AI工具，居然要干掉GitHub Copilot？第一次用Cursor？四步驟快速安裝＋五大功能界面說明 VSCode AI 編程必裝！五款DeepSeek集成插件，每款都讓開發(fā)效率飆升從OCR瓶頸到結(jié)構(gòu)化理解來有效提升RAG的效果七款 MCP 工具，徹底改變我用 AI 寫代碼的方式阿里發(fā)布信息檢索Agent，可自主上網(wǎng)查資料，GAIA基準超越GPT-4o OpenAI 停工一周，緊急調(diào)薪！Meta滅霸式天價挖8名OpenAI大佬！緊急回應(yīng)：我們被偷家了！與Meta沖突是支線任務(wù)！甭提靜態(tài)AI了，MIT新框架讓模型具備自學能力

相關(guān)專題更多

HarmonyOS NEXT 高效開發(fā)與創(chuàng)新實踐

馭浪者無疆：蛻變新生，以定馭變

2025-06-04 14:38:36

開發(fā)者成長學院 | 成長有徑 · 代碼有方

2025-04-23 08:49:09

我收藏的內(nèi)容

微博

QQ

微信

復制鏈接

微信掃碼分享

51CTO業(yè)務(wù)

媒體
51CTO CIOAge HC3i Techplur
社區(qū)
51CTO博客軟考社區(qū)鴻蒙開發(fā)者社區(qū)AI.x社區(qū)
教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

51CTO學堂

51CTO學堂企業(yè)版

51CTO官微

51CTO

關(guān)于我們&條款

關(guān)于我們

新聞動態(tài)

站點地圖

意見反饋

English

用戶協(xié)議

隱私協(xié)議

北京市海淀區(qū)中關(guān)村南1條甲1號ECO中科愛克大廈6-7層

北京市公安局海淀分局備案編號：110108002980號
營業(yè)執(zhí)照京ICP備09067568號

Copyright ? 2005-2025 51CTO.COM 京ICP證060544 版權(quán)所有未經(jīng)許可請勿轉(zhuǎn)載

營業(yè)執(zhí)照出版物經(jīng)營許可證

友情鏈接

新浪科技騰訊科技網(wǎng)易科技鳳凰科技驅(qū)動科技科技行者 TechWeb 艾瑞網(wǎng)站長之家速途網(wǎng)中國經(jīng)濟新聞網(wǎng)IT之家工聯(lián)網(wǎng)極客公園 236視頻會議中國IDC圈企業(yè)網(wǎng)D1Net 投資界次方元火山引擎

51CTO技術(shù)棧公眾號

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

在線客服

媒體
51CTO CIOAge HC3i

社區(qū)
51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育
51CTO學堂精培企業(yè)培訓 CTO訓練營

感谢您访问我们的网站，您可能还对以下资源感兴趣：
成人免费xxxxx在线视频软件|久久精品久久久|亚洲国产精品久久久|天天色天天色|亚洲人成一区|欧美一级欧美三级在线观看

主站蜘蛛池模板：国产高清精品一区二区三区 | 97精品国产一区二区三区 | 亚洲精品久久嫩草网站秘色 | 草b视频 | 亚洲免费一区二区 | 免费视频成人国产精品网站 | 国产精品久久久久久久久图文区 | 国产特一级黄色片 | 国产九九精品 | 在线午夜电影 | 国产精品三级久久久久久电影 | 国产精品久久片 | 美女精品一区 | 亚洲综合小视频 | 欧美区在线 | 懂色中文一区二区在线播放 | 国产一级一级毛片 | 国产盗摄视频 | 中日字幕大片在线播放 | 国产精品视频入口 | 888久久久| 综合色导航| 91亚洲欧美| 波多野结衣一二三区 | 亚洲性视频 | 玖玖国产 | 久久国产精品久久久久久 | 久久久91 | 久久综合一区 | 国产国语精品 | 国产视频二区 | 亚洲一区在线免费观看 | 91一区二区 | 亚洲91精品 | 国产精品美女久久久久aⅴ国产馆 | 欧美福利视频 | 波多野结衣二区 | 精品在线一区 | 中文字幕一区二区在线观看 | 久久亚洲一区 | 欧美第一区 |