成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Qwen&清華團(tuán)隊(duì)顛覆常識:大模型強(qiáng)化學(xué)習(xí)僅用20%關(guān)鍵token,比用全部token訓(xùn)練還好

人工智能 新聞
在強(qiáng)化學(xué)習(xí)訓(xùn)練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓(xùn)練效果,甚至比用全部token訓(xùn)練還要好。

近期arxiv最熱門論文,Qwen&清華LeapLab團(tuán)隊(duì)最新成果:

在強(qiáng)化學(xué)習(xí)訓(xùn)練大模型推理能力時,僅僅20%的高熵token就能撐起整個訓(xùn)練效果,甚至比用全部token訓(xùn)練還要好。

圖片

團(tuán)隊(duì)用這個發(fā)現(xiàn)在Qwen3-32B上創(chuàng)造了新的SOTA記錄:AIME’24上達(dá)到63.5分,AIME’25上達(dá)到56.7分,

這是600B參數(shù)以下直接從base模型訓(xùn)練的最高分。

圖片

最大響應(yīng)長度從20k延長到29k,AIME’24的分?jǐn)?shù)更是飆升到了68.1分。

經(jīng)典的二八法則(或帕累托法則)指出,通常80%的結(jié)果由20%的關(guān)鍵因素驅(qū)動,但剩下80%也是不能輕易舍棄的。

但是在大模型強(qiáng)化學(xué)習(xí)這里,80%低熵token不僅可以舍棄,甚至還可能起副作用,所以這篇論文被命名為“超越二八法則”。

此外,團(tuán)隊(duì)還從token熵的角度探究了RL對LLM的主要影響,并進(jìn)一步討論了RL與SFT的區(qū)別、LLM RL的特殊性與clip-higher相較于entropy bonus的優(yōu)勢。

圖片

揭開Chain-of-Thought的熵分布密碼

要理解這項(xiàng)研究,需要先從一個有趣的觀察說起:

團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)大模型進(jìn)行鏈?zhǔn)剿伎迹–hain-of-Thought)推理時,token的熵分布呈現(xiàn)出一個獨(dú)特的模式:大部分token的熵都很低,只有少數(shù)token表現(xiàn)出高熵特征

具體來說,超過50%的token熵值低于0.01,而只有20%的token熵值大于0.672。

圖片

更有意思的是,這些高熵token和低熵token在功能上有著本質(zhì)區(qū)別。高熵token通常扮演著“邏輯連接器”的角色,比如“wait”、“however”、“thus”這些詞,它們在推理過程中起到轉(zhuǎn)折、遞進(jìn)或因果連接的作用。

在數(shù)學(xué)推導(dǎo)中,“suppose”、“assume”、“given”這些引入假設(shè)或條件的詞也屬于高熵token。而低熵token則往往是詞綴、代碼片段或數(shù)學(xué)表達(dá)式的組成部分,這些內(nèi)容具有很高的確定性。

團(tuán)隊(duì)形象地把這些高熵token稱為分叉token(forking tokens),如果將思維鏈比做走山路,高熵token就像分叉路口(fork),決定了接下來的方向;低熵token就像一面是山一面是懸崖的小路,只能沿著既定方向走下去。

圖片

為了驗(yàn)證這些分叉token的重要性,團(tuán)隊(duì)還設(shè)計(jì)了這樣的實(shí)驗(yàn):給不同的token設(shè)置不同的解碼溫度。

結(jié)果發(fā)現(xiàn),適度提高高熵token的溫度能改善推理性能,而降低它們的溫度則會導(dǎo)致性能下降。這進(jìn)一步證實(shí)了保持這些關(guān)鍵位置的高熵對推理的重要性。

圖片

只用20%的token,效果反而更好

既然發(fā)現(xiàn)了這些分叉token的特殊性,那么如果在強(qiáng)化學(xué)習(xí)訓(xùn)練時只關(guān)注這些關(guān)鍵的少數(shù)token會怎樣?

在RLVR(Reinforcement Learning with Verifiable Rewards)訓(xùn)練中,只保留top 20%高熵token的策略梯度,把剩下80%的梯度全部屏蔽掉

結(jié)果Qwen3-32B上,這種方法不僅沒有降低性能,反而帶來了顯著提升:AIME’24分?jǐn)?shù)提升7.71分,AIME’25分?jǐn)?shù)提升11.04分,平均響應(yīng)長度增加約1378個token。

在Qwen3-14B上也有類似的提升效果,而在較小的Qwen3-8B上,性能也保持穩(wěn)定。

圖片

更有趣的是反向?qū)嶒?yàn)的結(jié)果:如果只用80%的低熵token訓(xùn)練,模型性能急劇下降。

這說明低熵token對推理能力的提升貢獻(xiàn)微乎其微,甚至可能起到負(fù)面作用。

圖片

團(tuán)隊(duì)分析認(rèn)為,這可能與路徑探索有關(guān)。高熵token由于其不確定性,能夠幫助模型探索不同的推理路徑。而低熵token過于確定,反而限制了模型的探索能力。

從訓(xùn)練過程中的整體熵變化也能看出端倪:使用20%高熵token訓(xùn)練時,模型保持了較高的整體熵水平,而使用全部token或只用低熵token時,整體熵水平都會下降。

圖片

另一個重要發(fā)現(xiàn)是這種方法存在明顯的規(guī)模效應(yīng):模型越大,只用高熵token訓(xùn)練的優(yōu)勢就越明顯。在32B模型上的提升最大,14B次之,8B模型提升最小。這可能是因?yàn)楦蟮哪P陀懈鼜?qiáng)的能力利用增強(qiáng)的探索性。

更令人驚喜的是,這種方法訓(xùn)練出的模型在域外任務(wù)上也表現(xiàn)優(yōu)異。團(tuán)隊(duì)在數(shù)學(xué)數(shù)據(jù)集上訓(xùn)練的模型,在編程任務(wù)LiveCodeBench上測試時,僅用20%高熵token訓(xùn)練的模型依然大幅超越了使用全部token訓(xùn)練的版本。

這暗示著高熵token可能與模型的泛化能力密切相關(guān)。通過聚焦這些關(guān)鍵的決策點(diǎn),模型學(xué)到的可能是更本質(zhì)的推理模式,而不是死記硬背特定領(lǐng)域的知識。

圖片

重新理解大模型強(qiáng)化學(xué)習(xí)

這項(xiàng)研究的意義不止于提升訓(xùn)練效率,在深入研究RLVR(Reinforcement Learning with Verifiable Rewards)訓(xùn)練過程后,團(tuán)隊(duì)發(fā)現(xiàn)了一個令人意外的現(xiàn)象:RLVR并不是推倒重來,而是在base model的基礎(chǔ)上做精細(xì)調(diào)整。

通過追蹤訓(xùn)練過程中熵模式的演變,發(fā)現(xiàn)即使在訓(xùn)練收斂后(第1360步),模型與base model在高熵token位置上的重疊率仍然保持在86.67%以上。這意味著RLVR基本保留了預(yù)訓(xùn)練模型對”哪些地方該猶豫、哪些地方該確定”的判斷。

圖片

更有意思的是,RLVR的調(diào)整策略相當(dāng)”偏心”。團(tuán)隊(duì)計(jì)算了不同熵水平token在訓(xùn)練前后的變化,發(fā)現(xiàn)了一個清晰的規(guī)律:

初始熵越高的token,在RLVR訓(xùn)練后熵的增幅越大。而那些原本就很確定的低熵token,整個訓(xùn)練過程中幾乎紋絲不動。

從熵的百分位變化圖中可以看到,越是高熵的token(比如90%、95%分位),訓(xùn)練過程中的波動范圍越大;而低熵token(比如0%、5%分位)的變化微乎其微。

圖片

最后,基于以上所有這些發(fā)現(xiàn),團(tuán)隊(duì)還提出了幾個有趣的討論:

討論1:高熵token可能是解釋為什么強(qiáng)化學(xué)習(xí)能泛化而監(jiān)督微調(diào)傾向于記憶而過擬合的關(guān)鍵。

強(qiáng)化學(xué)習(xí)傾向于保持甚至增加分叉token的熵,維持推理路徑的靈活性。而監(jiān)督微調(diào)會把輸出logits推向one-hot分布,導(dǎo)致分叉token熵降低,失去了推理路徑的靈活性。這種靈活性可能正是推理模型能夠有效泛化到未見任務(wù)的關(guān)鍵因素。

討論2: 與傳統(tǒng)強(qiáng)化學(xué)習(xí)不同,大模型推理需整合先驗(yàn)知識,且必須生成可讀性輸出。因此,大模型思維鏈(CoT)包含低熵的多數(shù)標(biāo)記與高熵的少數(shù)標(biāo)記,而傳統(tǒng)強(qiáng)化學(xué)習(xí)可假設(shè)整個過程中動作熵是均勻分布的。

討論3:在強(qiáng)化學(xué)習(xí)與可驗(yàn)證獎勵算法(RLVR)中,熵獎勵(entropy bonus)可能并非最優(yōu)選擇,因?yàn)樗鼤黾拥挽囟鄶?shù)標(biāo)記的熵值。相比之下,clip-higher方法能有效提升高熵少數(shù)標(biāo)記的熵值。

論文
https://arxiv.org/abs/2506.01939

項(xiàng)目主頁
https://shenzhi-wang.github.io/high-entropy-minority-tokens-rlvr/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-11-01 13:30:56

2025-03-31 00:33:00

2025-06-12 08:46:00

2023-08-28 06:52:29

2025-01-17 13:41:24

2023-10-06 20:30:33

大模型LLMtoken

2025-04-27 09:23:00

模型訓(xùn)練AI

2023-10-14 13:07:52

訓(xùn)練模型

2025-04-01 09:00:00

模型訓(xùn)練開源

2025-06-05 08:40:00

2025-07-03 14:58:16

模型開源AI

2025-04-02 09:00:00

模型開源AI

2025-05-06 00:45:00

2025-06-09 09:32:35

2025-01-14 13:20:56

2025-06-18 08:51:28

2025-05-16 11:03:48

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2023-05-05 13:11:16

2025-06-25 13:44:09

開源訓(xùn)練模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 涩爱av一区二区三区 | 欧美黄色片 | 一级美国黄色片 | 日韩成人免费在线视频 | 久草在线在线精品观看 | 免费久久久 | 中文字幕日韩一区 | 91在线网站 | 日本一区二区三区在线观看 | 曰批视频在线观看 | h片在线看| 国产91在线播放 | 超级黄色一级片 | 免费成人在线网站 | 久久久久国产精品一区三寸 | 羞视频在线观看 | 亚洲 成人 在线 | 四虎av电影 | 中文字幕黄色大片 | 欧美极品少妇xxxxⅹ免费视频 | 中国一级大毛片 | 久久免费看 | 日本久久久久久 | 亚洲精品电影在线观看 | 久久精品com | 精品日韩一区二区三区av动图 | 蜜桃视频一区二区三区 | 一级免费视频 | 男人天堂网址 | 成人一区二区在线 | 亚洲视频免费在线观看 | 亚洲福利片 | 日韩最新网址 | 中文字幕亚洲一区二区三区 | 日韩在线播放网址 | 麻豆国产一区二区三区四区 | 国产精品视频导航 | 日韩国产精品一区二区三区 | 国产色婷婷 | 一级毛片视频 | 中文字幕一区二区三区乱码在线 |