DeepSeek用的GRPO有那么特別嗎？萬字長文分析四篇精品論文

2025-05-26 08:48:00

本文詳細(xì)解讀了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇論文中的創(chuàng)新點(diǎn)，讀完會對 GRPO 及其改進(jìn)算法有更深的理解，進(jìn)而啟發(fā)構(gòu)建推理模型的新思路。

隨著 DeepSeek R1 的持續(xù)爆火，推理和強(qiáng)化學(xué)習(xí)已經(jīng)成為 AI 領(lǐng)域的熱門詞匯。

短短幾個(gè)月的時(shí)間，我們已經(jīng)見證了太多的推理大模型，AI 更新迭代速度似乎已經(jīng)快進(jìn)到了以天為單位。

但在眾多研究成果中找到值得關(guān)注的內(nèi)容并不容易。

這有一篇價(jià)值非常高的博客，可以幫你梳理最近關(guān)于推理模型的研究，重點(diǎn)關(guān)注 DeepSeek R1 里用到的 GRPO 及后續(xù)的改進(jìn)算法，非常值得一讀。作者是來自 AI2 的 ML 科學(xué)家 Nathan Lambert，他博士畢業(yè)于 UC 伯克利，曾在 HuggingFace 領(lǐng)導(dǎo) RLHF 團(tuán)隊(duì)。

博客地址：https://www.interconnects.ai/p/papers-im-reading-base-model-rl-grpo

文章列舉了最近比較火的論文和大模型，包括：

Kimi k1.5：這是一個(gè)與 DeepSeek R1 同一天發(fā)布的推理模型，其技術(shù)報(bào)告非常詳細(xì)；
OpenReasonerZero：這是首次對基礎(chǔ)模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練的完整復(fù)現(xiàn)；
DAPO：這是首篇探討對 GRPO 進(jìn)行改進(jìn)以更好地適應(yīng)推理訓(xùn)練的論文（參見《超越 DeepSeek GRPO 的關(guān)鍵 RL 算法，字節(jié)、清華 AIR 開源 DAPO》）；
Dr. GRPO：這篇論文深入研究了從基礎(chǔ)模型開始的強(qiáng)化學(xué)習(xí)，并提出了對 GRPO 的改進(jìn)以提升學(xué)習(xí)效果（參見《揭秘 DeepSeek R1-Zero 訓(xùn)練方式，GRPO 還有極簡改進(jìn)方案》）。

此外，作者還給出了參考論文中重復(fù)看到的損失函數(shù)，我們不難發(fā)現(xiàn)這應(yīng)該是比較重要的損失函數(shù)：

是時(shí)候給 GRPO 降降溫了

現(xiàn)在很多人被 RL 在語言建模領(lǐng)域的表現(xiàn)所吸引，這給人一種錯(cuò)覺，彷佛 GRPO 和 DeepSeek R1（以及之前的模型）的工作已經(jīng)開啟了 RL 訓(xùn)練的全新時(shí)代。

但事實(shí)遠(yuǎn)非如此。

其實(shí) GRPO 并不是一種特殊的 RL 算法。

目前許多領(lǐng)先的研究工作和實(shí)驗(yàn)室并沒有使用 GRPO 進(jìn)行研究。

實(shí)際上，GRPO 與其他 RL 算法關(guān)系極為密切 —— 它源自 PPO（近端策略優(yōu)化），并且具有與 RLOO （REINFORCE Leave One Out）超級相似的計(jì)算優(yōu)勢。

GRPO 確實(shí)包含了巧妙的改進(jìn)，尤其是在推理訓(xùn)練（reasoning training）而非傳統(tǒng)的 RLHF 場景下。

傳統(tǒng) RLHF 實(shí)踐沿襲了早期 RL 文獻(xiàn)的做法，通常每個(gè)批次中每個(gè)提示詞僅采樣一個(gè)生成結(jié)果進(jìn)行訓(xùn)練。而在推理任務(wù)中，我們現(xiàn)在會生成多個(gè)答案。

若不深入技術(shù)細(xì)節(jié)，現(xiàn)代實(shí)現(xiàn)中 GRPO 和 RLOO 的優(yōu)勢值計(jì)算幾乎如出一轍 —— 這與 PPO 形成鮮明對比（PPO 的優(yōu)勢值來源于價(jià)值函數(shù)，通常采用 GAE 方法計(jì)算）。

因此，REINFORCE 與 GRPO 的唯一區(qū)別僅在于 PPO 的 clipping logic 機(jī)制 —— 它們本質(zhì)上都是同宗同源的策略梯度算法。與此同時(shí)，前 LLM 時(shí)代流行的另一個(gè) RL 算法 A2C，根據(jù)超參數(shù)設(shè)置的不同，也可以視為 PPO 的特殊變體。

這里需要把握的核心認(rèn)知是：當(dāng)前使用的所有 RL 算法在實(shí)現(xiàn)層面上是高度相似的。

因此，盡管 GRPO 是當(dāng)前最流行的算法，但如今 RL 算法的變革其實(shí)只聚焦在幾個(gè)核心維度：

價(jià)值函數(shù)的取舍：業(yè)界正逐漸轉(zhuǎn)向直接估計(jì)優(yōu)勢值（advantage），因?yàn)閮r(jià)值函數(shù)（value function）的建模往往較為困難；
DeepSeek 的研究成果引爆了這場變革，因此人們自然從其 GRPO 算法切入探索。但本質(zhì)上，這一浪潮的推動(dòng)力是強(qiáng)化學(xué)習(xí)范式的進(jìn)化，而非某個(gè)特定算法的突破。

Kimi k1.5

《Kimi k1.5》的報(bào)告內(nèi)容非常豐富，論文長達(dá) 25 頁。不過，其并未開放模型權(quán)重。

這篇論文報(bào)告了 Kimi k1.5 的訓(xùn)練實(shí)踐，這是 Kimi 團(tuán)隊(duì)最新多模態(tài)大語言模型（LLM），采用 RL 進(jìn)行訓(xùn)練，包括其強(qiáng)化學(xué)習(xí)訓(xùn)練技術(shù)、多模態(tài)數(shù)據(jù)配方以及基礎(chǔ)設(shè)施優(yōu)化。長上下文擴(kuò)展和改進(jìn)的策略優(yōu)化方法是 Kimi 團(tuán)隊(duì)方法的核心要素，他們建立了一個(gè)簡單而有效的強(qiáng)化學(xué)習(xí)框架，無需依賴蒙特卡洛樹搜索、價(jià)值函數(shù)和過程獎(jiǎng)勵(lì)模型等更復(fù)雜的技術(shù)。

論文標(biāo)題： KIMI K1.5: SCALING REINFORCEMENT LEARNING WITH LLMS
論文地址：https://arxiv.org/pdf/2501.12599

該模型在 o3-mini 發(fā)布之前就已經(jīng)推出，其評估結(jié)果非常出色。

數(shù)據(jù)分布

這篇論文（以及本文后面提到的《Open Reasoner Zero》）都包含了 01 和 R1 版本所沒有的對數(shù)據(jù)的討論。Kimi 團(tuán)隊(duì)強(qiáng)調(diào)了為 RL 進(jìn)行提示策劃（prompt curation）的重要性。這聽起來很簡單，但強(qiáng)化學(xué)習(xí)提示集的質(zhì)量和多樣性在確保強(qiáng)化學(xué)習(xí)的有效性方面起著關(guān)鍵作用。由此，團(tuán)隊(duì)人員指出了兩點(diǎn)與我們目前看到的大多數(shù)僅數(shù)學(xué)模型不同的地方：

多樣化覆蓋：提示應(yīng)涵蓋廣泛的學(xué)科，例如 STEM、編碼和一般推理，以增強(qiáng)模型的適應(yīng)性并確保在不同領(lǐng)域的廣泛適用性。
平衡難度：提示集應(yīng)包括分布均勻的易、中、難問題，以促進(jìn)漸進(jìn)學(xué)習(xí)并防止過度擬合到特定的復(fù)雜程度。

在任務(wù)難度方面，Kimi 團(tuán)隊(duì)采用了一種與推理模型相關(guān)的較新的方法：他們采用基于模型的方法，利用模型自身的能力來適應(yīng)性地評估每個(gè)提示的難度。具體來說，對于每個(gè)提示，一個(gè)經(jīng)過監(jiān)督微調(diào)（SFT）的模型使用相對較高的采樣溫度生成答案十次。然后計(jì)算通過率，并將其作為提示難度的代理（proxy）—— 通過率越低，難度越高。

此外，他們還移除了一些可能促使模型猜測而不是進(jìn)行推理的問題：經(jīng)驗(yàn)觀察表明，一些復(fù)雜的推理問題可能有相對簡單且容易猜測的答案，這會導(dǎo)致假陽性驗(yàn)證 —— 模型通過不正確的推理過程得出了正確答案。為了解決這一問題，他們排除了容易出現(xiàn)這種錯(cuò)誤的問題，例如選擇題、基于證明的問題。

訓(xùn)練方法

Kimi K1.5 的訓(xùn)練方案包含了許多有趣的細(xì)節(jié)，但隨著訓(xùn)練技術(shù)的成熟，這些方法可能不會成為長期推薦的最佳實(shí)踐。

例如，他們的初始階段與 DeepSeek R1 論文非常相似：采用 SFT（監(jiān)督微調(diào)）預(yù)熱，結(jié)合長思維鏈（CoT）和拒絕采樣（rejection sampling）。

又比如，他們重點(diǎn)關(guān)注數(shù)據(jù)中的行為模式，包括規(guī)劃（planning）、評估（evaluation）、反思（reflection）和探索（exploration），這些對最終性能提升至關(guān)重要。

進(jìn)入后續(xù)訓(xùn)練階段后，他們的方法變得更加有趣：未采用 GRPO，而是使用了一種在線策略鏡像下降（online policy mirror descent）的變體（仍屬于策略梯度算法家族）。

除此之外，他們未使用價(jià)值函數(shù)，而是采用蒙特卡洛獎(jiǎng)勵(lì)基線（Monte Carlo reward baseline），其核心思想與 GRPO 類似，但并非直接用于優(yōu)勢估計(jì)（advantage）。

為了提高模型訓(xùn)練的穩(wěn)定性和效果，研究者們采用了多種策略。其中一種策略是引入長度懲罰，即鼓勵(lì)生成較短的回答，并在正確回答中懲罰較長的回答，同時(shí)明確懲罰錯(cuò)誤答案中的長回答。這種策略有助于控制模型生成回答的長度，避免模型過度生成冗長且可能不準(zhǔn)確的內(nèi)容，從而提高訓(xùn)練的穩(wěn)定性。盡管這種方法在訓(xùn)練初期可能會減慢訓(xùn)練速度，但研究者們會逐漸在訓(xùn)練過程中引入這種獎(jiǎng)勵(lì)機(jī)制，以實(shí)現(xiàn)更好的訓(xùn)練效果。

此外，研究者們還采用了數(shù)據(jù)序列策略來輔助模型學(xué)習(xí)。這種方法類似于一種明確的教學(xué)大綱，即從較簡單的任務(wù)開始訓(xùn)練，并在訓(xùn)練過程中對模型表現(xiàn)不佳的任務(wù)進(jìn)行重新采樣，增加這些任務(wù)的訓(xùn)練頻率。這種策略類似于逐步引導(dǎo)模型學(xué)習(xí)，類似于人類學(xué)習(xí)過程中從易到難的逐步進(jìn)階。盡管這種方法可能會增加訓(xùn)練的復(fù)雜性，但它被視為一種有效的技巧，可以幫助模型在訓(xùn)練過程中逐步提升性能。

這些方法雖然在短期內(nèi)可能會增加訓(xùn)練的復(fù)雜性，但它們有助于模型在長期訓(xùn)練中保持穩(wěn)定性和一致性，從而提高模型的整體性能和泛化能力。

在關(guān)于模型大小的消融研究中（盡管沒有明確提及模型的具體大小），他們發(fā)現(xiàn)，盡管較大的模型在初始階段表現(xiàn)優(yōu)于較小的模型，但較小的模型通過利用強(qiáng)化學(xué)習(xí)（RL）優(yōu)化的更長的思維鏈（CoTs）也能達(dá)到相當(dāng)?shù)男阅堋Ｈ欢^大的模型通常在 token 效率方面表現(xiàn)得比小模型更好。

另外，這篇論文對模型最終實(shí)用性方面的總結(jié)非常有趣，也與近期許多強(qiáng)化學(xué)習(xí)（RL）文獻(xiàn)中的觀點(diǎn)一致：如果目標(biāo)是盡可能達(dá)到最佳性能，那么擴(kuò)大較大模型的上下文長度具有更高的上限，并且在 token 效率方面更具優(yōu)勢。然而，如果測試時(shí)計(jì)算資源有限，那么訓(xùn)練具有較大上下文長度的小型模型可能是可行的解決方案。

論文中還詳細(xì)介紹了他們的監(jiān)督微調(diào)（SFT）數(shù)據(jù)集、強(qiáng)化學(xué)習(xí)（RL）基礎(chǔ)設(shè)施、長思維鏈到短思維鏈的蒸餾過程。感興趣的讀者可以查看論文深入了解。

Open- reasoner - zero

這篇論文的主要貢獻(xiàn)在于，它是第一篇展示在基礎(chǔ)模型上通過 RL 取得非常出色結(jié)果的研究。

論文地址：https://github.com/Open-Reasoner-Zero/Open-Reasoner-Zero/blob/main/ORZ_paper.pdf

事實(shí)上，他們使用 Qwen-32B 基座模型時(shí)，能夠達(dá)到 DeepSeek 論文在其蒸餾部分提到的 Qwen-32B 強(qiáng)化學(xué)習(xí)（RL）模型的性能。不過，DeepSeek 論文中提到的這個(gè) RL 模型并未引起太多討論，因?yàn)橥槐砀耧@示，DeepSeek 發(fā)現(xiàn)在這種規(guī)模的模型中，蒸餾推理能力（而非從強(qiáng)化學(xué)習(xí)開始）能帶來更顯著的性能提升。

R1 論文：https://arxiv.org/pdf/2501.12948

這里，問題在于并非所有的 RL 步驟都是等價(jià)的。它在很大程度上取決于：

用于 RL 的批次大小，更大的批次大小意味著更少的步驟；
每個(gè)步驟中使用的梯度步驟數(shù)，更多的梯度步驟可以導(dǎo)致更多的學(xué)習(xí)，但同時(shí)也可能導(dǎo)致更多的不穩(wěn)定性；
數(shù)據(jù)集與特定模型的匹配程度，DeepSeek 可能使用了與 DeepSeek 基礎(chǔ)模型相同的數(shù)據(jù)集，這可能不太適合 Qwen 模型（學(xué)習(xí)速度更慢）。

數(shù)據(jù)分布

這項(xiàng)工作的核心成功之處在于，它非常清晰地展示了數(shù)據(jù)對于學(xué)習(xí)的重要性。

他們從各種來源收集公開數(shù)據(jù)，包括 AIME（截至 2023 年）、MATH、Numina-Math 數(shù)據(jù)集、Tulu3 MATH 以及其他開源數(shù)據(jù)集。根據(jù)數(shù)據(jù)來源和問題難度，他們提取了 AMC、AIME、數(shù)學(xué)、奧林匹克競賽以及 AoPS 論壇的相關(guān)部分，作為難度較高的提示，以確保數(shù)據(jù)集的難度水平適當(dāng)。

該研究還通過程序化方法合成額外的推理任務(wù)，以擴(kuò)充數(shù)據(jù)集。此外，他們還對數(shù)據(jù)集進(jìn)行格式篩選等一系列操作。

此外，研究者排除了那些難以用基于規(guī)則獎(jiǎng)勵(lì)函數(shù)進(jìn)行評估的問題，例如選擇題和證明題，以確保在訓(xùn)練過程中獎(jiǎng)勵(lì)計(jì)算的準(zhǔn)確性和一致性。

訓(xùn)練消融

《OpenReasonerZero》是另一篇發(fā)現(xiàn) GRPO 對他們不起作用的論文。作者使用了帶 GAE（Generalized Advantage Estimation）的 PPO 算法來對一組響應(yīng)進(jìn)行估計(jì)，這也進(jìn)一步證實(shí)了文章之前提到的 GRPO 并非有特別之處。

在訓(xùn)練過程中，他們沒有使用任何復(fù)雜的長度或格式 token（例如 < answer>token）來構(gòu)建獎(jiǎng)勵(lì)函數(shù)，而是發(fā)現(xiàn)僅正確性是必要的。此外，他們還移除了所有的 KL 懲罰，這對于允許模型在響應(yīng)長度上進(jìn)行顯著變化以及學(xué)習(xí)新行為至關(guān)重要，這些行為有助于下游性能的提升。

實(shí)驗(yàn)結(jié)果表明，移除 KL 損失和 KL 懲罰能夠?qū)崿F(xiàn)最優(yōu)的訓(xùn)練穩(wěn)定性和最終性能。

這篇論文的附錄里還有更多有趣的消融實(shí)驗(yàn)，比如調(diào)整 RL 訓(xùn)練時(shí)的采樣溫度、修改 RL 超參數(shù)，或是調(diào)整批次大小和更新規(guī)則等，感興趣的讀者可以查看原文章。

DAPO：一個(gè)大規(guī)模開源 LLM 強(qiáng)化學(xué)習(xí)系統(tǒng)

在開始討論接下來的兩篇論文前，我們需要了解一些背景，以便理解機(jī)器學(xué)習(xí)特別是強(qiáng)化學(xué)習(xí)中的算法進(jìn)步。有一個(gè)經(jīng)驗(yàn)法則是，如果你看到一篇論文中提出的方法沒有提高到基準(zhǔn)方法的 2 倍左右，那么這個(gè)解決方案的成功很可能主要?dú)w功于超參數(shù)調(diào)整或其他混淆變量。這是對語言模型新型強(qiáng)化學(xué)習(xí)算法應(yīng)持有的適當(dāng)懷疑態(tài)度。

讀這些論文時(shí)，你很容易想到「哇，我的項(xiàng)目現(xiàn)在就能順利運(yùn)行了」。實(shí)際情況遠(yuǎn)非如此。這些論文是學(xué)習(xí) GRPO 損失函數(shù)復(fù)雜細(xì)節(jié)的絕佳練習(xí)。多年來，這類論文積累起來會帶來巨大的直覺增益。但目前在訓(xùn)練真正的 SOTA 模型時(shí)，大多數(shù)改變在代碼復(fù)雜性上可能會過于繁重，相比之下，專注于調(diào)整數(shù)據(jù)分布（如上述論文所討論的）更為重要。

讓我們來看看 DAPO—— 這是對之前 Twitter 上簡短介紹的擴(kuò)展版本。

論文標(biāo)題：DAPO: An Open-Source LLM Reinforcement Learning System at Scale
論文鏈接：https://arxiv.org/pdf/2503.14476

他們展示的學(xué)習(xí)曲線不錯(cuò)，但有些混亂，因?yàn)椤窪eepSeek R1 Zero Qwen 32B」模型的訓(xùn)練步驟精確比較實(shí)際上并不存在（如上所述），尤其是，x 軸是有誤導(dǎo)性的。再強(qiáng)調(diào)一遍，DeepSeek 所做的工作并非不可復(fù)制。

這是一篇非常整潔的關(guān)于推理的強(qiáng)化學(xué)習(xí)論文。我們將介紹的 GRPO 改進(jìn)包括：

1. 兩個(gè)不同的裁剪超參數(shù)，使正向裁剪能夠更多地提升意外的 token。

2. 動(dòng)態(tài)采樣 —— 從批次中移除具有平坦獎(jiǎng)勵(lì)的樣本以提高效率。

3. 使用每個(gè) token 的損失（而非每個(gè)回應(yīng)（per-response）的損失）來改善學(xué)習(xí)動(dòng)態(tài)。

4. 在損失函數(shù)中管理過長生成以獲得更好的穩(wěn)定性。

我希望這篇論文，正如我將在下面討論 Dr. GRPO 論文時(shí)提到的，能做更多關(guān)于最終性能的比較。我們關(guān)心的是評估結(jié)果，所以在算法變化帶來性能提升之前，我很難說這些是關(guān)鍵的實(shí)現(xiàn)決策。

總之，DAPO 看起來如下：

像現(xiàn)在的許多論文一樣，他們也建議從 GRPO 中移除 KL 散度懲罰以幫助學(xué)習(xí)。許多人表示，如果沒有要過度優(yōu)化的獎(jiǎng)勵(lì)模型，這個(gè)懲罰就不是必要的。對于基礎(chǔ)模型的強(qiáng)化學(xué)習(xí)，我同意這一點(diǎn)，因?yàn)槟Ｐ屯ǔＰ枰蟮淖兓拍艹蔀橥暾耐评砟Ｐ汀５绻麑χ噶钅Ｐ瓦M(jìn)行可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（RLVR），KL 懲罰可能仍然有用。

GRPO 改進(jìn)點(diǎn) 1：更高的裁剪 / 分離裁剪超參數(shù)

PPO 和 GRPO 有一個(gè)控制更新步長的裁剪超參數(shù)。這是 PPO 和 TRPO 相比 REINFORCE 或普通策略梯度的核心思想。DAPO 將其改為兩個(gè)超參數(shù)，這樣上限 / 正向?qū)?shù)比率步長可以更大。這是為了增加 token 的概率，比如推理鏈中令人驚訝的新 token。

PPO/GRPO 更新是基于對數(shù)比率的，所以概率較小但正在增加可能性的不太可能的 token 會變成更大的對數(shù)比率，比可能性已經(jīng)很高的 token 更容易被裁剪。這對于提升效果來說是一個(gè)相當(dāng)復(fù)雜的變化，但它很好地說明了裁剪如何影響學(xué)習(xí)動(dòng)態(tài)。

這篇論文對他們的改進(jìn)做了很好的消融實(shí)驗(yàn)！如下圖（右）所示，他們顯示模型在訓(xùn)練過程中保持了更高的熵（即探索 / 隨機(jī)性）。不錯(cuò)。

GRPO 改進(jìn)點(diǎn) 2：從批次中移除不必要的樣本

本質(zhì)上，在 GRPO 中，如果批次中針對一個(gè)提示的所有樣本具有相同的獎(jiǎng)勵(lì)，則沒有學(xué)習(xí)信號，因?yàn)槊總€(gè)答案的優(yōu)勢是計(jì)算為該答案與批次中組平均值的差異。移除它們可以通過計(jì)算更少的梯度來提高學(xué)習(xí)速度。

這實(shí)際上是 GRPO 的一個(gè)簡單事實(shí)。從理論上講，當(dāng)批次中的答案沒有信號時(shí)，它們不會影響模型，但這也與為什么更大的模型可能通過強(qiáng)化學(xué)習(xí)學(xué)習(xí)得更好有關(guān)。更大模型的強(qiáng)化學(xué)習(xí)步驟不太可能無意中傷害模型中不在學(xué)習(xí)批次中的其他區(qū)域，因?yàn)樗鼈兊哪芰Ψ植荚诟鄥?shù)上。

GRPO 改進(jìn)點(diǎn) 3：token 級策略梯度

論文作者表示，token 級損失有助于減輕非常長的推理鏈中的重復(fù)行為，同時(shí)仍然鼓勵(lì)模型從正向的長上下文示例中學(xué)習(xí)。這與標(biāo)準(zhǔn) RLHF 實(shí)現(xiàn)不同（見下文關(guān)于 Dr. GRPO 的討論）。他們的改變比我們稍后討論的更為溫和。

作者的直覺很好，我們將在接下來的論文中看到很多關(guān)于這種權(quán)衡的討論：

由于所有樣本在損失計(jì)算中被賦予相同的權(quán)重，較長回應(yīng)中的 token（包含更多 token）對整體損失的貢獻(xiàn)可能不成比例地低，這可能導(dǎo)致兩種不良影響。首先，對于高質(zhì)量的長樣本，這種效果可能阻礙模型學(xué)習(xí)其中與推理相關(guān)的模式的能力。其次，我們觀察到過長的樣本通常表現(xiàn)出低質(zhì)量的模式，如胡言亂語和重復(fù)詞匯。因此，樣本級損失計(jì)算由于無法有效懲罰長樣本中那些不受歡迎的模式，導(dǎo)致熵和回應(yīng)長度的不健康增加。

將長度歸一化 1/|o | 移到組總和之外，使得損失計(jì)算僅通過對兩個(gè)總和內(nèi)部的 token 求和來完成。

在這里，答案組是按照該提示的總體 token 計(jì)數(shù)歸一化的。默認(rèn) GRPO 只對 token 所對應(yīng)的回應(yīng)進(jìn)行每 token 損失歸一化。

這很酷，但需要更多的復(fù)制！見下面的討論。在他們的設(shè)置中，他們看到了相當(dāng)不同的行為。

這個(gè)想法是為了能更好地從長答案中學(xué)習(xí)。好的長答案應(yīng)該得到充分獎(jiǎng)勵(lì)，而重復(fù)的、糟糕的長答案需要被懲罰。

GRPO 改進(jìn)點(diǎn) 4：避免截?cái)嗟莫?jiǎng)勵(lì)塑造

這是 DAPO 中最微小的改變。本質(zhì)上，他們添加了一個(gè)柔性然后是一個(gè)嚴(yán)格的懲罰，當(dāng)模型生成長度超過限制時(shí)。對于最大上下文長度為 16k token 的模型，他們在 12k token 開始應(yīng)用懲罰，并線性增加到 16k。這種長度控制機(jī)制感覺將會過時(shí)，或者在未來只是一個(gè)非常小的技巧。

參考一下，許多強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)已經(jīng)包含了一些更大的懲罰，如果模型截?cái)嘧陨恚磸牟簧?EOS token 或答案）。

他們稱之為解耦裁剪和動(dòng)態(tài)采樣策略優(yōu)化（DAPO）算法。稱其為新算法似乎足夠公平，這在強(qiáng)化學(xué)習(xí)中一直如此，但實(shí)際上這基本上是 GRPO++。

訓(xùn)練專注于 AIME，所以最終模型并不超級有趣，但它們陳述了一個(gè)永恒真理：即使是初始條件的微小變化，如數(shù)據(jù)和超參數(shù)的變化，也可以通過迭代強(qiáng)化學(xué)習(xí)過程放大，產(chǎn)生實(shí)質(zhì)性的結(jié)果偏差。

Dr. GRPO

論文標(biāo)題：Understanding R1-Zero-Like Training: A Critical Perspective
論文鏈接：https://arxiv.org/pdf/2503.20783

這是我們獲得的第二篇關(guān)于修改 GRPO 以使其更適合推理訓(xùn)練（實(shí)際上，就是讓它更有效）的論文。該論文還包括一些優(yōu)秀的實(shí)驗(yàn)，幫助理解不同基礎(chǔ)模型如何影響學(xué)習(xí)到的推理行為。

論文的核心圖表如下：

論文的核心思想是，通過修改 GRPO，他們可以改善學(xué)習(xí)動(dòng)態(tài)，使得在生成長度增加較少的情況下實(shí)現(xiàn)更強(qiáng)的性能。這是每個(gè)人都應(yīng)該想要的！

他們假設(shè)默認(rèn)的 GRPO 實(shí)現(xiàn)實(shí)際上設(shè)置了一個(gè)偏置，使生成長度增加的程度超過了實(shí)際有用的范圍。

關(guān)于 GRPO 的修改

他們提出的核心修改有些微妙，與 GRPO 實(shí)現(xiàn)的常見做法密切相關(guān)。GRPO 實(shí)現(xiàn)的一個(gè)核心步驟在 DeepSeekMath 論文中有詳細(xì)說明：

「結(jié)果監(jiān)督在每個(gè)輸出??_??的末尾提供歸一化的獎(jiǎng)勵(lì)，并將輸出中所有 token 的優(yōu)勢???_(i,t)設(shè)置為歸一化獎(jiǎng)勵(lì)...」

本質(zhì)上，不是只在驗(yàn)證結(jié)果的最終 token 上分配優(yōu)勢，而是批次中的每個(gè) token 都被分配了優(yōu)勢。然后使用這些策略梯度算法計(jì)算每個(gè) token 的損失。

要了解這是如何工作的，讓我們重新回顧論文中的損失函數(shù)：

這里發(fā)生的事情是，第一個(gè)求和管理問題的回應(yīng)組 G，內(nèi)部求和管理每個(gè) token 的損失。作者正在糾正學(xué)習(xí)中的兩種行為：

偏愛短而正確的答案。對于正向優(yōu)勢，即一組中正確且更好的回應(yīng)，原始損失會獎(jiǎng)勵(lì)短回應(yīng)。要理解這一點(diǎn)，考慮一組中兩個(gè)都是正確的答案，一個(gè)有 10 個(gè) token，一個(gè)有 1000 個(gè)。這兩個(gè)都有相同的優(yōu)勢，但較短答案的概率會增加更多，因?yàn)閾p失近似于優(yōu)勢 / 長度。如果這仍然令人困惑，可以考慮 EOS token，它出現(xiàn)在每個(gè)回應(yīng)的最后一個(gè) token —— 對于短回應(yīng)，這個(gè) token 將被增加得更多。
不懲罰長、重復(fù)、錯(cuò)誤的答案。這一點(diǎn)更簡單，如果優(yōu)勢是負(fù)面的，歸一化因子 1/|o | 通過減少每個(gè) token 上優(yōu)勢的有效大小來減少對較長答案的學(xué)習(xí)信號。較小的懲罰意味著它比錯(cuò)誤、短答案的可能性更大。

這些合在一起，有點(diǎn)與我們想要的相反（與 DAPO 的想法非常相關(guān)）。我們希望在推理時(shí)有更長的正確答案以提高擴(kuò)展性，并且不想浪費(fèi) token。個(gè)人而言，我更喜歡 DAPO 的解決方案，將長度歸一化移到組外，而不是完全去除它。

他們提出的第二個(gè)修改非常聰明（已在 TRL 中實(shí)現(xiàn)）—— 移除問題級難度偏置。當(dāng)執(zhí)行像 GRPO 這樣的更新（例如也用 PPO）時(shí)，優(yōu)勢的大小影響梯度更新的大小。在這里，相對于更容易解決（或失敗）的問題，具有高方差的問題會受到懲罰 —— 從直覺上講，這甚至可能與我們想要的相反！較難的問題，特別是在學(xué)習(xí)的關(guān)鍵階段，將有更高的方差。作者也解釋了與之前的強(qiáng)化學(xué)習(xí)實(shí)踐的關(guān)系：

雖然優(yōu)勢歸一化在強(qiáng)化學(xué)習(xí)中是一種常見技巧，但它通常是在整個(gè)批次中計(jì)算的。

實(shí)際上，這種變化的影響可以完全被高質(zhì)量的數(shù)據(jù)工程所吸收，正如上面其他論文中討論的那樣，批次中問題難度的分布是均勻的。

不過，這些變化也沒有免費(fèi)的午餐 —— 我的同事 Costa Huang 提醒我，低方差問題可能是我們模型學(xué)習(xí)的關(guān)鍵。在模型 9 次回答錯(cuò)誤、只有 1 次正確的情況下，移除標(biāo)準(zhǔn)差會降低那一個(gè)正確答案的權(quán)重。這可能是模型需要學(xué)習(xí)的關(guān)鍵！

他們將這兩個(gè)變化稱為「GRPO Done Right」，即 Dr. GRPO。當(dāng)他們將這些結(jié)合在一起時(shí)，模型顯示了他們預(yù)期的輸出長度變化 —— 總體上更短，特別是錯(cuò)誤答案更短。這里的缺點(diǎn)是，他們實(shí)際上沒有展示更好的下游最終性能。最終性能是目標(biāo)，很可能更多地來自數(shù)據(jù)。

關(guān)于為強(qiáng)化學(xué)習(xí)更換基礎(chǔ)模型

論文作者比較了來自 Qwen 2.5、Llama 3.1 和 DeepSeek 的基礎(chǔ)模型，看它們?nèi)绾位卮?MATH 問題。對于這些模型，它們使用 R1 模板、Qwen MATH 模板和無模板。當(dāng)模型已經(jīng)通過帶有推理 / CoT 軌跡的中間訓(xùn)練時(shí)，這些模板起著至關(guān)重要的作用：

模板 1（R1 模板）：A conversation between User and Assistant. The User asks a question, and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer.
The reasoning process is enclosed within <think> </think> and answer is enclosed within <answer> </answer> tags, respectively, i.e., <think> reasoning process here </think> <answer> answer here </answer>.
模板 2（Qwen-Math 模板）： <|im_start|>system Please reason step by step, and put your final answer within \boxed {}. <|im_end|> <|im_start|>user {question} <|im_end|> <|im_start|>assistant
模板 3（無模板）：{question}

他們發(fā)現(xiàn) Llama 和 DeepSeek 使用 R1 模板能夠最好地遵循指令，而 Qwen 在沒有模板的情況下效果最好。記住這些基礎(chǔ)模型在不同的「微調(diào)」機(jī)制下有多大差異是至關(guān)重要的。格式合規(guī)性的比較如下所示。

中間圖顯示了數(shù)學(xué)問題的 pass@8 率，可以理解為「如果我對 1 個(gè)問題采樣 8 個(gè)答案，正確答案出現(xiàn)的頻率是多少？」這是衡量模型在訓(xùn)練開始時(shí)學(xué)習(xí)難易程度的指標(biāo)。Qwen 再次表現(xiàn)最佳，溫度的影響比我想象的要小。

最右邊他們顯示，更大的 Qwen 模型在任何強(qiáng)化學(xué)習(xí)訓(xùn)練之前就已經(jīng)有反思行為！如果你正在使用這些模型，這并不令人驚訝，但這是一個(gè)很好的數(shù)據(jù)點(diǎn)，可以淡化強(qiáng)化學(xué)習(xí)訓(xùn)練中「啊哈時(shí)刻」的作用。這些模型主要是在放大，而不是學(xué)習(xí)新東西。

論文還有其他不錯(cuò)的結(jié)果，例如在更多領(lǐng)域特定的數(shù)學(xué)數(shù)據(jù)上繼續(xù)預(yù)訓(xùn)練可以提高強(qiáng)化學(xué)習(xí)性能，很多人通過在 Qwen-MATH 模型上訓(xùn)練的容易程度也能看到這一點(diǎn)。

與 GRPO 訓(xùn)練失敗的關(guān)系

在我們早期的研究中看到的一些失敗，我也從其他實(shí)驗(yàn)室聽到過，是 GRPO 可能會失敗，開始生成非常重復(fù)和長的回應(yīng)。答案的序列長度膨脹到訓(xùn)練設(shè)置中允許的最大值，下游評估的性能降至 0。這些潛在的干預(yù)措施，對于 Dr. GRPO 和 DAPO 來說，都有助于緩解這種情況。我們很快就會有獨(dú)立的復(fù)制實(shí)驗(yàn)了！

與現(xiàn)有 RLHF 基礎(chǔ)設(shè)施的關(guān)系

在過去幾周里，我參與了許多關(guān)于 RLHF 基礎(chǔ)設(shè)施中每批次使用總和損失還是平均損失的討論。其中的核心問題是：強(qiáng)化學(xué)習(xí)應(yīng)該平等地對待每個(gè) token（即從批次中較長的答案學(xué)習(xí)更多）還是應(yīng)該相對于問題對它們進(jìn)行歸一化？我的基本觀點(diǎn)是，基于每個(gè)問題的歸一化更有意義，因?yàn)槟Ｐ托枰槍Σ煌瑔栴}學(xué)習(xí)不同的行為，但這種學(xué)習(xí)動(dòng)態(tài)很微妙。

這篇論文對目前所有流行的開源強(qiáng)化學(xué)習(xí)工具提出了批評，稱 per-response 的方式偏向于更糟糕的情況。實(shí)際情況比這復(fù)雜得多 ——per-response 求和肯定是標(biāo)準(zhǔn)做法。

區(qū)別在于從像 TRL 這樣的庫中的 masked_mean 變?yōu)樽髡呤褂玫?masked_sum。