Qwen&清華團(tuán)隊(duì)顛覆常識：大模型強(qiáng)化學(xué)習(xí)僅用20%關(guān)鍵token，比用全部token訓(xùn)練還好

2025-06-06 09:13:00

人工智能新聞

在強(qiáng)化學(xué)習(xí)訓(xùn)練大模型推理能力時，僅僅20%的高熵token就能撐起整個訓(xùn)練效果，甚至比用全部token訓(xùn)練還要好。

近期arxiv最熱門論文，Qwen&清華LeapLab團(tuán)隊(duì)最新成果：

在強(qiáng)化學(xué)習(xí)訓(xùn)練大模型推理能力時，僅僅20%的高熵token就能撐起整個訓(xùn)練效果，甚至比用全部token訓(xùn)練還要好。

團(tuán)隊(duì)用這個發(fā)現(xiàn)在Qwen3-32B上創(chuàng)造了新的SOTA記錄：AIME’24上達(dá)到63.5分，AIME’25上達(dá)到56.7分，

這是600B參數(shù)以下直接從base模型訓(xùn)練的最高分。

最大響應(yīng)長度從20k延長到29k，AIME’24的分?jǐn)?shù)更是飆升到了68.1分。

經(jīng)典的二八法則（或帕累托法則）指出，通常80%的結(jié)果由20%的關(guān)鍵因素驅(qū)動，但剩下80%也是不能輕易舍棄的。

但是在大模型強(qiáng)化學(xué)習(xí)這里，80%低熵token不僅可以舍棄，甚至還可能起副作用，所以這篇論文被命名為“超越二八法則”。

此外，團(tuán)隊(duì)還從token熵的角度探究了RL對LLM的主要影響，并進(jìn)一步討論了RL與SFT的區(qū)別、LLM RL的特殊性與clip-higher相較于entropy bonus的優(yōu)勢。

揭開Chain-of-Thought的熵分布密碼

要理解這項(xiàng)研究，需要先從一個有趣的觀察說起：

團(tuán)隊(duì)發(fā)現(xiàn)，當(dāng)大模型進(jìn)行鏈?zhǔn)剿伎迹–hain-of-Thought）推理時，token的熵分布呈現(xiàn)出一個獨(dú)特的模式：大部分token的熵都很低，只有少數(shù)token表現(xiàn)出高熵特征。

具體來說，超過50%的token熵值低于0.01，而只有20%的token熵值大于0.672。

更有意思的是，這些高熵token和低熵token在功能上有著本質(zhì)區(qū)別。高熵token通常扮演著“邏輯連接器”的角色，比如“wait”、“however”、“thus”這些詞，它們在推理過程中起到轉(zhuǎn)折、遞進(jìn)或因果連接的作用。

在數(shù)學(xué)推導(dǎo)中，“suppose”、“assume”、“given”這些引入假設(shè)或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數(shù)學(xué)表達(dá)式的組成部分，這些內(nèi)容具有很高的確定性。

團(tuán)隊(duì)形象地把這些高熵token稱為分叉token（forking tokens），如果將思維鏈比做走山路，高熵token就像分叉路口（fork），決定了接下來的方向；低熵token就像一面是山一面是懸崖的小路，只能沿著既定方向走下去。

為了驗(yàn)證這些分叉token的重要性，團(tuán)隊(duì)還設(shè)計(jì)了這樣的實(shí)驗(yàn)：給不同的token設(shè)置不同的解碼溫度。

結(jié)果發(fā)現(xiàn)，適度提高高熵token的溫度能改善推理性能，而降低它們的溫度則會導(dǎo)致性能下降。這進(jìn)一步證實(shí)了保持這些關(guān)鍵位置的高熵對推理的重要性。

只用20%的token，效果反而更好

既然發(fā)現(xiàn)了這些分叉token的特殊性，那么如果在強(qiáng)化學(xué)習(xí)訓(xùn)練時只關(guān)注這些關(guān)鍵的少數(shù)token會怎樣？

在RLVR（Reinforcement Learning with Verifiable Rewards）訓(xùn)練中，只保留top 20%高熵token的策略梯度，把剩下80%的梯度全部屏蔽掉。

結(jié)果Qwen3-32B上，這種方法不僅沒有降低性能，反而帶來了顯著提升：AIME’24分?jǐn)?shù)提升7.71分，AIME’25分?jǐn)?shù)提升11.04分，平均響應(yīng)長度增加約1378個token。

在Qwen3-14B上也有類似的提升效果，而在較小的Qwen3-8B上，性能也保持穩(wěn)定。

更有趣的是反向?qū)嶒?yàn)的結(jié)果：如果只用80%的低熵token訓(xùn)練，模型性能急劇下降。

這說明低熵token對推理能力的提升貢獻(xiàn)微乎其微，甚至可能起到負(fù)面作用。

團(tuán)隊(duì)分析認(rèn)為，這可能與路徑探索有關(guān)。高熵token由于其不確定性，能夠幫助模型探索不同的推理路徑。而低熵token過于確定，反而限制了模型的探索能力。

從訓(xùn)練過程中的整體熵變化也能看出端倪：使用20%高熵token訓(xùn)練時，模型保持了較高的整體熵水平，而使用全部token或只用低熵token時，整體熵水平都會下降。

另一個重要發(fā)現(xiàn)是這種方法存在明顯的規(guī)模效應(yīng)：模型越大，只用高熵token訓(xùn)練的優(yōu)勢就越明顯。在32B模型上的提升最大，14B次之，8B模型提升最小。這可能是因?yàn)楦蟮哪Ｐ陀懈鼜?qiáng)的能力利用增強(qiáng)的探索性。

更令人驚喜的是，這種方法訓(xùn)練出的模型在域外任務(wù)上也表現(xiàn)優(yōu)異。團(tuán)隊(duì)在數(shù)學(xué)數(shù)據(jù)集上訓(xùn)練的模型，在編程任務(wù)LiveCodeBench上測試時，僅用20%高熵token訓(xùn)練的模型依然大幅超越了使用全部token訓(xùn)練的版本。

這暗示著高熵token可能與模型的泛化能力密切相關(guān)。通過聚焦這些關(guān)鍵的決策點(diǎn)，模型學(xué)到的可能是更本質(zhì)的推理模式，而不是死記硬背特定領(lǐng)域的知識。

重新理解大模型強(qiáng)化學(xué)習(xí)

這項(xiàng)研究的意義不止于提升訓(xùn)練效率，在深入研究RLVR（Reinforcement Learning with Verifiable Rewards）訓(xùn)練過程后，團(tuán)隊(duì)發(fā)現(xiàn)了一個令人意外的現(xiàn)象：RLVR并不是推倒重來，而是在base model的基礎(chǔ)上做精細(xì)調(diào)整。

通過追蹤訓(xùn)練過程中熵模式的演變，發(fā)現(xiàn)即使在訓(xùn)練收斂后（第1360步），模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預(yù)訓(xùn)練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。

更有意思的是，RLVR的調(diào)整策略相當(dāng)”偏心”。團(tuán)隊(duì)計(jì)算了不同熵水平token在訓(xùn)練前后的變化，發(fā)現(xiàn)了一個清晰的規(guī)律：

初始熵越高的token，在RLVR訓(xùn)練后熵的增幅越大。而那些原本就很確定的低熵token，整個訓(xùn)練過程中幾乎紋絲不動。

從熵的百分位變化圖中可以看到，越是高熵的token（比如90%、95%分位），訓(xùn)練過程中的波動范圍越大；而低熵token（比如0%、5%分位）的變化微乎其微。

最后，基于以上所有這些發(fā)現(xiàn)，團(tuán)隊(duì)還提出了幾個有趣的討論：

討論1：高熵token可能是解釋為什么強(qiáng)化學(xué)習(xí)能泛化而監(jiān)督微調(diào)傾向于記憶而過擬合的關(guān)鍵。

強(qiáng)化學(xué)習(xí)傾向于保持甚至增加分叉token的熵，維持推理路徑的靈活性。而監(jiān)督微調(diào)會把輸出logits推向one-hot分布，導(dǎo)致分叉token熵降低，失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務(wù)的關(guān)鍵因素。

討論2：與傳統(tǒng)強(qiáng)化學(xué)習(xí)不同，大模型推理需整合先驗(yàn)知識，且必須生成可讀性輸出。因此，大模型思維鏈（CoT）包含低熵的多數(shù)標(biāo)記與高熵的少數(shù)標(biāo)記，而傳統(tǒng)強(qiáng)化學(xué)習(xí)可假設(shè)整個過程中動作熵是均勻分布的。

討論3：在強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎勵算法（RLVR）中，熵獎勵（entropy bonus）可能并非最優(yōu)選擇，因?yàn)樗鼤黾拥挽囟鄶?shù)標(biāo)記的熵值。相比之下，clip-higher方法能有效提升高熵少數(shù)標(biāo)記的熵值。

論文
https://arxiv.org/abs/2506.01939

項(xiàng)目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

責(zé)任編輯：張燕妮來源：量子位