更長(zhǎng)思維并不等于更強(qiáng)推理性能,強(qiáng)化學(xué)習(xí)可以很簡(jiǎn)潔
今天早些時(shí)候,著名研究者和技術(shù)作家 Sebastian Raschka 發(fā)布了一條推文,解讀了一篇來(lái)自 Wand AI 的強(qiáng)化學(xué)習(xí)研究,其中分析了推理模型生成較長(zhǎng)響應(yīng)的原因。
他寫(xiě)到:「眾所周知,推理模型通常會(huì)生成較長(zhǎng)的響應(yīng),這會(huì)增加計(jì)算成本。現(xiàn)在,這篇新論文表明,這種行為源于強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程,而并非更高的準(zhǔn)確度實(shí)際需要更長(zhǎng)的答案。當(dāng)模型獲得負(fù)獎(jiǎng)勵(lì)時(shí),強(qiáng)化學(xué)習(xí)損失函數(shù)就傾向于生成較長(zhǎng)的響應(yīng),我認(rèn)為這能解釋純強(qiáng)化學(xué)習(xí)訓(xùn)練為什么會(huì)導(dǎo)致出現(xiàn)頓悟時(shí)刻和更長(zhǎng)思維鏈。」
也就是說(shuō),如果模型獲得負(fù)獎(jiǎng)勵(lì)(即答案是錯(cuò)的),PPO 背后的數(shù)學(xué)原理會(huì)導(dǎo)致響應(yīng)變長(zhǎng),這樣平均每個(gè) token 的損失就更小一些。因此,模型會(huì)間接地收到鼓勵(lì),從而使其響應(yīng)更長(zhǎng)。即使這些額外的 token 對(duì)解決問(wèn)題沒(méi)有實(shí)際幫助,也會(huì)出現(xiàn)這種情況。
響應(yīng)長(zhǎng)度與損失有什么關(guān)系呢?當(dāng)使用負(fù)獎(jiǎng)勵(lì)時(shí),更長(zhǎng)的響應(yīng)可以稀釋每個(gè) token 的懲罰,從而讓損失值更低(即更好 —— 即使模型仍然會(huì)得出錯(cuò)誤的答案。
因此,模型會(huì)「學(xué)習(xí)」到:即使較長(zhǎng)的回答對(duì)正確性沒(méi)有幫助,也能減少懲罰。
此外,研究人員還表明,第二輪強(qiáng)化學(xué)習(xí)(僅使用一些有時(shí)可解的問(wèn)題)可以縮短回答時(shí)間,同時(shí)保持甚至提高準(zhǔn)確度。這對(duì)部署效率具有重大意義。
以下是該論文得到的三大關(guān)鍵發(fā)現(xiàn):
- 簡(jiǎn)潔性與準(zhǔn)確度之間的相關(guān)性:該團(tuán)隊(duì)證明,在推理和非推理模型的推斷(inference)過(guò)程中,簡(jiǎn)潔的推理往往與更高的準(zhǔn)確度密切相關(guān)。
- 對(duì) PPO 損失函數(shù)的動(dòng)態(tài)分析:該團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析,建立了響應(yīng)正確性與 PPO 損失函數(shù)之間的聯(lián)系。具體而言,研究表明,錯(cuò)誤的答案往往會(huì)導(dǎo)致響應(yīng)較長(zhǎng),而正確的答案則傾向于簡(jiǎn)潔。
- 有限的數(shù)據(jù):該團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,即使在非常小的數(shù)據(jù)集上,強(qiáng)化學(xué)習(xí)的后訓(xùn)練階段仍然有效,這一結(jié)果與文獻(xiàn)中的當(dāng)前趨勢(shì)相悖,并且強(qiáng)化學(xué)習(xí)后訓(xùn)練在資源受限的場(chǎng)景下也是可行的。
有研究者認(rèn)為這項(xiàng)研究揭示了強(qiáng)化學(xué)習(xí)存在的一個(gè)普遍問(wèn)題:訓(xùn)練的目標(biāo)只是為了獲得獎(jiǎng)勵(lì),而并非是解決問(wèn)題。
下面我們就來(lái)具體看看這篇論文。
- 論文標(biāo)題:Concise Reasoning via Reinforcement Learning
- 論文地址:https://arxiv.org/abs/2504.05185
響應(yīng)更長(zhǎng)≠性能更好
下表展示了使用不同模型在不同基準(zhǔn)測(cè)試上,答案正確或錯(cuò)誤時(shí)的平均響應(yīng)長(zhǎng)度。藍(lán)色小字表示用于計(jì)算所得平均值的樣本數(shù)。
由此可知,更長(zhǎng)響應(yīng)不一定能帶來(lái)更好的性能。
于是問(wèn)題來(lái)了:使用 RL 訓(xùn)練的 LLM 傾向于在什么時(shí)候增加響應(yīng)長(zhǎng)度?原因又是為何?
每個(gè)推理問(wèn)題都是一個(gè) MDP
從根本上講,每個(gè)推理問(wèn)題(例如,數(shù)學(xué)問(wèn)題)都構(gòu)成了一個(gè)馬爾可夫決策過(guò)程 (MDP),而不僅僅是一個(gè)靜態(tài)樣本。
MDP 由狀態(tài)空間 S、動(dòng)作空間 A、轉(zhuǎn)換函數(shù) T、獎(jiǎng)勵(lì)函數(shù) R、初始狀態(tài)分布 P_0 和折扣因子 γ 組成。
在語(yǔ)言建模中,每個(gè) token 位置 k 處的狀態(tài)由直到 k 為止并包括 k 的所有 token(或其嵌入)組成,另外還包括上下文信息(例如問(wèn)題陳述)。動(dòng)作空間對(duì)應(yīng)于可能 token 的詞匯表。轉(zhuǎn)換函數(shù)可確定性地將新的 token 附加到序列中。除了最后一步之外,所有步驟的獎(jiǎng)勵(lì)函數(shù)都為零。在最后一步,正確性根據(jù)最終答案和格式進(jìn)行評(píng)估。初始狀態(tài)取決于提示詞,其中可能包含問(wèn)題陳述和指令(例如,「逐步求解并將最終答案放入方框中」)。強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化預(yù)期回報(bào),預(yù)期回報(bào)定義為根據(jù) γ 折扣后的未來(lái)獎(jiǎng)勵(lì)之和。在 LLM 的后訓(xùn)練中,通常將 γ 設(shè)置為 1。
為了在僅提供最終答案的情況下解決問(wèn)題,需要一個(gè)能夠偶爾得出正確答案的基礎(chǔ)模型。在對(duì)多個(gè)問(wèn)題進(jìn)行訓(xùn)練時(shí),整體 MDP 由多個(gè)初始狀態(tài)和更新的獎(jiǎng)勵(lì)函數(shù)組成。添加更多問(wèn)題會(huì)修改 P_0 和 R,但會(huì)保留基本的 MDP 結(jié)構(gòu)。
這會(huì)引入兩個(gè)重要的考慮因素:(1) 更大的問(wèn)題集會(huì)增加 MDP 的復(fù)雜性,但這可能會(huì)使所學(xué)技術(shù)具有更高的泛化能力。(2) 原理上看,即使是單個(gè)問(wèn)題(或一小組問(wèn)題)也足以使強(qiáng)化學(xué)習(xí)訓(xùn)練生效,盡管這可能會(huì)引發(fā)過(guò)擬合的問(wèn)題。
過(guò)擬合是監(jiān)督學(xué)習(xí)中的一個(gè)問(wèn)題,因?yàn)槟P蜁?huì)記住具體的例子,而不是進(jìn)行泛化。相比之下,在線強(qiáng)化學(xué)習(xí)則不會(huì)受到這個(gè)問(wèn)題的影響。與依賴(lài)靜態(tài)訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)不同,在線強(qiáng)化學(xué)習(xí)會(huì)持續(xù)生成新的響應(yīng)軌跡,從而使模型能夠動(dòng)態(tài)地改進(jìn)其推理能力。此外,在線強(qiáng)化學(xué)習(xí)不僅僅是模仿預(yù)先定義的解答;它還會(huì)主動(dòng)探索各種推理策略,并強(qiáng)化那些能夠得出正確答案的策略。
兩種關(guān)鍵機(jī)制促成了這種穩(wěn)健性:(1) 采樣技術(shù)(例如非零溫度)可確保生成的響應(yīng)具有變化性;(2) 訓(xùn)練期間持續(xù)的模型更新會(huì)隨著時(shí)間的推移引入新的響應(yīng)分布,從而防止訓(xùn)練停滯和過(guò)擬合。
這能解釋在小規(guī)模問(wèn)題集上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)保持有效性的原因。該團(tuán)隊(duì)表示,之前還沒(méi)有人報(bào)告過(guò)將強(qiáng)化學(xué)習(xí)訓(xùn)練應(yīng)用于極小數(shù)據(jù)集的研究,這也是本研究的貢獻(xiàn)之一。
除了數(shù)據(jù)大小的考慮之外,需要強(qiáng)調(diào)的是,強(qiáng)化學(xué)習(xí)的唯一目標(biāo)是最小化損失,這也就相當(dāng)于最大化預(yù)期回報(bào)。從這個(gè)角度來(lái)看,強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中響應(yīng)長(zhǎng)度的任何顯著變化都必然是由損失最小化驅(qū)動(dòng)的,而非模型進(jìn)行更廣泛推理的固有傾向。
為了進(jìn)一步研究這一點(diǎn),該團(tuán)隊(duì)基于 DeepSeek-R1-Distill-Qwen-1.5B 基礎(chǔ)模型,使用近端策略?xún)?yōu)化 (PPO) 算法進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練數(shù)據(jù)是從 OlympiadBench 數(shù)據(jù)集中選擇的四個(gè)問(wèn)題。
之所以特意選擇這些問(wèn)題,是因?yàn)榧词惯M(jìn)行了廣泛的采樣,基礎(chǔ)模型也始終無(wú)法解決這些問(wèn)題,導(dǎo)致終端獎(jiǎng)勵(lì)恒定為 -0.5。其上下文大小限制為 20K token,該團(tuán)隊(duì)繪制了策略損失與響應(yīng)長(zhǎng)度的關(guān)系圖(參見(jiàn)圖 1)。
結(jié)果清楚地表明,響應(yīng)長(zhǎng)度和損失之間存在很強(qiáng)的相關(guān)性:隨著響應(yīng)長(zhǎng)度的增加,損失持續(xù)下降。這直接證明:損失最小化(而非模型產(chǎn)生更長(zhǎng)響應(yīng)的內(nèi)在趨勢(shì))才是驅(qū)動(dòng)響應(yīng)長(zhǎng)度增長(zhǎng)的主要?jiǎng)恿Α?/span>
對(duì)于 PPO 對(duì)響應(yīng)長(zhǎng)度的影響,該團(tuán)隊(duì)也從數(shù)學(xué)角度進(jìn)行了解釋。詳見(jiàn)原論文。
一種兩階段強(qiáng)化學(xué)習(xí)策略
該團(tuán)隊(duì)的分析突出了幾個(gè)要點(diǎn)。
- 當(dāng)在極其困難的問(wèn)題訓(xùn)練時(shí),響應(yīng)長(zhǎng)度往往會(huì)增加,因?yàn)檩^長(zhǎng)的響應(yīng)更有可能受到 PPO 的青睞,因?yàn)槟P碗y以獲得正回報(bào)。
- 當(dāng)在偶爾可解的問(wèn)題上訓(xùn)練時(shí),響應(yīng)長(zhǎng)度預(yù)計(jì)會(huì)縮短。
- 在大規(guī)模訓(xùn)練場(chǎng)景中,響應(yīng)長(zhǎng)度的動(dòng)態(tài)會(huì)變得非常復(fù)雜,并會(huì)受到底層問(wèn)題難度的巨大影響。
該團(tuán)隊(duì)認(rèn)為,由于大多數(shù)問(wèn)題至少偶爾可解,因此平均響應(yīng)長(zhǎng)度最終會(huì)減少。值得注意的是,該團(tuán)隊(duì)目前的分析不適用于 GRPO,對(duì)此類(lèi)方法的精確分析還留待未來(lái)研究。盡管如此,由于簡(jiǎn)潔性與更高準(zhǔn)確度之間的相關(guān)性,該團(tuán)隊(duì)推測(cè):如果訓(xùn)練持續(xù)足夠長(zhǎng)的時(shí)間,這種增長(zhǎng)最終可能會(huì)停止并開(kāi)始逆轉(zhuǎn)。
如果數(shù)據(jù)集包含過(guò)多無(wú)法解決的問(wèn)題,那么從「鼓勵(lì)響應(yīng)更長(zhǎng)」到「鼓勵(lì)簡(jiǎn)潔性」的轉(zhuǎn)變可能會(huì)大幅延遲且成本高昂。
為了解決這個(gè)問(wèn)題,該團(tuán)隊(duì)提出了一種新方法:通過(guò)一個(gè)后續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練階段來(lái)強(qiáng)制實(shí)現(xiàn)簡(jiǎn)潔性,該階段使用了偶爾可解問(wèn)題的數(shù)據(jù)集。于是,就能得到一種兩階段的強(qiáng)化學(xué)習(xí)訓(xùn)練方法:
在第一階段,用高難度問(wèn)題訓(xùn)練模型。此階段的目標(biāo)是增強(qiáng)模型解決問(wèn)題的能力,由于 PPO 主要會(huì)遇到負(fù)獎(jiǎng)勵(lì),從而促使模型產(chǎn)生更長(zhǎng)的響應(yīng),因此響應(yīng)長(zhǎng)度預(yù)計(jì)會(huì)增加。值得注意的是,第一階段也可被視為現(xiàn)有推理模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。
在第二階段,使用非零 p_a(偶爾可解)的問(wèn)題繼續(xù)訓(xùn)練。此階段能在保持甚至提高準(zhǔn)確度的同時(shí)提升簡(jiǎn)潔性。值得注意的是,正如后面將看到的,它還能顯著提高模型對(duì)降低溫度值的穩(wěn)健性 —— 即使在有限的采樣量下也能確保卓越的性能。
從 MDP 的角度,該團(tuán)隊(duì)得到了一個(gè)關(guān)鍵洞察:即使問(wèn)題集很小,也可以實(shí)現(xiàn)有效的強(qiáng)化學(xué)習(xí)訓(xùn)練,盡管這可能會(huì)降低泛化能力。尤其要指出,在訓(xùn)練的第二階段 —— 此時(shí)模型已經(jīng)具備泛化能力,即使僅有只包含少量問(wèn)題的極小數(shù)據(jù)集也可使用 PPO。
實(shí)驗(yàn)結(jié)果
該團(tuán)隊(duì)也通過(guò)實(shí)驗(yàn)檢驗(yàn)了新提出的兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練方法。
問(wèn)題難度如何影響準(zhǔn)確度-響應(yīng)長(zhǎng)度的相關(guān)性
圖 2 給出了準(zhǔn)確度和響應(yīng)長(zhǎng)度隨訓(xùn)練步數(shù)的變化。
可以看到,在所有問(wèn)題集中,準(zhǔn)確度的提高與響應(yīng)長(zhǎng)度的縮短相一致 —— 這表明隨著模型準(zhǔn)確度的提高,其響應(yīng)長(zhǎng)度也隨之縮短。此外,對(duì)于更簡(jiǎn)單的問(wèn)題集,響應(yīng)長(zhǎng)度縮短得更快。最后,對(duì)于最難的數(shù)據(jù)集,由于問(wèn)題很少能夠解決,因此響應(yīng)長(zhǎng)度有所增加。
響應(yīng)長(zhǎng)度減少
圖 3 展示了在不同的測(cè)試數(shù)據(jù)集(AIME 2024、AMC 2023 和 MATH-500)上,經(jīng)過(guò)后訓(xùn)練的 1.5B 和 7B 模型的準(zhǔn)確度和響應(yīng)長(zhǎng)度隨訓(xùn)練步數(shù)的變化情況。
可以看到,新提出的兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練方法會(huì)讓響應(yīng)長(zhǎng)度顯著下降,同時(shí)準(zhǔn)確度會(huì)保持穩(wěn)定。而右圖在 MMLU_STEM 上的結(jié)果更是表明:僅使用 8 個(gè)樣本,強(qiáng)化學(xué)習(xí)后訓(xùn)練也能帶來(lái)準(zhǔn)確度提升。
性能和穩(wěn)健性的提升
前面的實(shí)驗(yàn)結(jié)果已經(jīng)證明:進(jìn)一步的強(qiáng)化學(xué)習(xí)后訓(xùn)練可以在保持準(zhǔn)確度的同時(shí)縮短響應(yīng)長(zhǎng)度。該團(tuán)隊(duì)進(jìn)一步研究發(fā)現(xiàn):進(jìn)一步的強(qiáng)化學(xué)習(xí)后訓(xùn)練也能提升模型的穩(wěn)健性和性能。
為了評(píng)估模型的穩(wěn)健性,該團(tuán)隊(duì)檢查了它們對(duì)溫度設(shè)置的敏感性。將溫度設(shè)置為零會(huì)大幅降低 R1 等推理模型的準(zhǔn)確度。然而,諸如 pass@1 之類(lèi)的標(biāo)準(zhǔn)指標(biāo)依賴(lài)于非零溫度下的多個(gè)樣本,這通常會(huì)掩蓋在小型數(shù)據(jù)集上進(jìn)行二次強(qiáng)化學(xué)習(xí)后訓(xùn)練的優(yōu)勢(shì)。
該團(tuán)隊(duì)使用 0 和 0.6 的溫度值進(jìn)行了實(shí)驗(yàn),結(jié)果見(jiàn)表 3。
可以看到,當(dāng)溫度設(shè)置為 0 時(shí),經(jīng)過(guò)后訓(xùn)練的模型的表現(xiàn)顯著優(yōu)于基線模型,這表明經(jīng)過(guò)后訓(xùn)練的模型與基線模型相比更加穩(wěn)健。
該團(tuán)隊(duì)還表明,在有限數(shù)量的樣本上進(jìn)行進(jìn)一步的強(qiáng)化學(xué)習(xí)訓(xùn)練可以顯著提升準(zhǔn)確度。這種效果取決于先前在類(lèi)似(甚至相同)問(wèn)題上進(jìn)行過(guò)的強(qiáng)化學(xué)習(xí)訓(xùn)練程度。如果模型已經(jīng)進(jìn)行過(guò)大量強(qiáng)化學(xué)習(xí)訓(xùn)練,可能就更難以進(jìn)一步提升準(zhǔn)確度。
為了探究這一點(diǎn),該團(tuán)隊(duì)基于 Qwen-Math-v2.5 使用了在線強(qiáng)化學(xué)習(xí)進(jìn)行實(shí)驗(yàn),訓(xùn)練樣本是來(lái)自 MATH 數(shù)據(jù)集的 4 個(gè)樣本。不同于 R1,該模型之前并沒(méi)有經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,而是僅在大量數(shù)學(xué)數(shù)據(jù)上進(jìn)行了 token completion 訓(xùn)練。結(jié)果見(jiàn)表 4。
可以看到,提升很驚人!在 1.5B 模型上,提升高達(dá) 30%。這表明,就算僅使用 4 個(gè)問(wèn)題進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練,也能得到顯著的準(zhǔn)確度提升,尤其是當(dāng)模型之前未進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)推理優(yōu)化訓(xùn)練時(shí)。