成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

更長(zhǎng)思維并不等于更強(qiáng)推理性能,強(qiáng)化學(xué)習(xí)可以很簡(jiǎn)潔

人工智能 新聞
第二輪強(qiáng)化學(xué)習(xí)(僅使用一些有時(shí)可解的問(wèn)題)可以縮短回答時(shí)間,同時(shí)保持甚至提高準(zhǔn)確度。這對(duì)部署效率具有重大意義。

今天早些時(shí)候,著名研究者和技術(shù)作家 Sebastian Raschka 發(fā)布了一條推文,解讀了一篇來(lái)自 Wand AI 的強(qiáng)化學(xué)習(xí)研究,其中分析了推理模型生成較長(zhǎng)響應(yīng)的原因。

他寫(xiě)到:「眾所周知,推理模型通常會(huì)生成較長(zhǎng)的響應(yīng),這會(huì)增加計(jì)算成本。現(xiàn)在,這篇新論文表明,這種行為源于強(qiáng)化學(xué)習(xí)的訓(xùn)練過(guò)程,而并非更高的準(zhǔn)確度實(shí)際需要更長(zhǎng)的答案。當(dāng)模型獲得負(fù)獎(jiǎng)勵(lì)時(shí),強(qiáng)化學(xué)習(xí)損失函數(shù)就傾向于生成較長(zhǎng)的響應(yīng),我認(rèn)為這能解釋純強(qiáng)化學(xué)習(xí)訓(xùn)練為什么會(huì)導(dǎo)致出現(xiàn)頓悟時(shí)刻和更長(zhǎng)思維鏈。」

圖片

也就是說(shuō),如果模型獲得負(fù)獎(jiǎng)勵(lì)(即答案是錯(cuò)的),PPO 背后的數(shù)學(xué)原理會(huì)導(dǎo)致響應(yīng)變長(zhǎng),這樣平均每個(gè) token 的損失就更小一些。因此,模型會(huì)間接地收到鼓勵(lì),從而使其響應(yīng)更長(zhǎng)。即使這些額外的 token 對(duì)解決問(wèn)題沒(méi)有實(shí)際幫助,也會(huì)出現(xiàn)這種情況。

響應(yīng)長(zhǎng)度與損失有什么關(guān)系呢?當(dāng)使用負(fù)獎(jiǎng)勵(lì)時(shí),更長(zhǎng)的響應(yīng)可以稀釋每個(gè) token 的懲罰,從而讓損失值更低(即更好 —— 即使模型仍然會(huì)得出錯(cuò)誤的答案。

圖片

因此,模型會(huì)「學(xué)習(xí)」到:即使較長(zhǎng)的回答對(duì)正確性沒(méi)有幫助,也能減少懲罰。

此外,研究人員還表明,第二輪強(qiáng)化學(xué)習(xí)(僅使用一些有時(shí)可解的問(wèn)題)可以縮短回答時(shí)間,同時(shí)保持甚至提高準(zhǔn)確度。這對(duì)部署效率具有重大意義。

以下是該論文得到的三大關(guān)鍵發(fā)現(xiàn):

  • 簡(jiǎn)潔性與準(zhǔn)確度之間的相關(guān)性:該團(tuán)隊(duì)證明,在推理和非推理模型的推斷(inference)過(guò)程中,簡(jiǎn)潔的推理往往與更高的準(zhǔn)確度密切相關(guān)。
  • 對(duì) PPO 損失函數(shù)的動(dòng)態(tài)分析:該團(tuán)隊(duì)通過(guò)數(shù)學(xué)分析,建立了響應(yīng)正確性與 PPO 損失函數(shù)之間的聯(lián)系。具體而言,研究表明,錯(cuò)誤的答案往往會(huì)導(dǎo)致響應(yīng)較長(zhǎng),而正確的答案則傾向于簡(jiǎn)潔。
  • 有限的數(shù)據(jù):該團(tuán)隊(duì)通過(guò)實(shí)驗(yàn)證明,即使在非常小的數(shù)據(jù)集上,強(qiáng)化學(xué)習(xí)的后訓(xùn)練階段仍然有效,這一結(jié)果與文獻(xiàn)中的當(dāng)前趨勢(shì)相悖,并且強(qiáng)化學(xué)習(xí)后訓(xùn)練在資源受限的場(chǎng)景下也是可行的。

有研究者認(rèn)為這項(xiàng)研究揭示了強(qiáng)化學(xué)習(xí)存在的一個(gè)普遍問(wèn)題:訓(xùn)練的目標(biāo)只是為了獲得獎(jiǎng)勵(lì),而并非是解決問(wèn)題。

圖片

下面我們就來(lái)具體看看這篇論文。

圖片

  • 論文標(biāo)題:Concise Reasoning via Reinforcement Learning 
  • 論文地址:https://arxiv.org/abs/2504.05185

響應(yīng)更長(zhǎng)≠性能更好

下表展示了使用不同模型在不同基準(zhǔn)測(cè)試上,答案正確或錯(cuò)誤時(shí)的平均響應(yīng)長(zhǎng)度。藍(lán)色小字表示用于計(jì)算所得平均值的樣本數(shù)。

圖片

由此可知,更長(zhǎng)響應(yīng)不一定能帶來(lái)更好的性能。

于是問(wèn)題來(lái)了:使用 RL 訓(xùn)練的 LLM 傾向于在什么時(shí)候增加響應(yīng)長(zhǎng)度?原因又是為何?

每個(gè)推理問(wèn)題都是一個(gè) MDP

從根本上講,每個(gè)推理問(wèn)題(例如,數(shù)學(xué)問(wèn)題)都構(gòu)成了一個(gè)馬爾可夫決策過(guò)程 (MDP),而不僅僅是一個(gè)靜態(tài)樣本。

MDP 由狀態(tài)空間 S、動(dòng)作空間 A、轉(zhuǎn)換函數(shù) T、獎(jiǎng)勵(lì)函數(shù) R、初始狀態(tài)分布 P_0 和折扣因子 γ 組成。

在語(yǔ)言建模中,每個(gè) token 位置 k 處的狀態(tài)由直到 k 為止并包括 k 的所有 token(或其嵌入)組成,另外還包括上下文信息(例如問(wèn)題陳述)。動(dòng)作空間對(duì)應(yīng)于可能 token 的詞匯表。轉(zhuǎn)換函數(shù)可確定性地將新的 token 附加到序列中。除了最后一步之外,所有步驟的獎(jiǎng)勵(lì)函數(shù)都為零。在最后一步,正確性根據(jù)最終答案和格式進(jìn)行評(píng)估。初始狀態(tài)取決于提示詞,其中可能包含問(wèn)題陳述和指令(例如,「逐步求解并將最終答案放入方框中」)。強(qiáng)化學(xué)習(xí)的目標(biāo)是最大化預(yù)期回報(bào),預(yù)期回報(bào)定義為根據(jù) γ 折扣后的未來(lái)獎(jiǎng)勵(lì)之和。在 LLM 的后訓(xùn)練中,通常將 γ 設(shè)置為 1。

為了在僅提供最終答案的情況下解決問(wèn)題,需要一個(gè)能夠偶爾得出正確答案的基礎(chǔ)模型。在對(duì)多個(gè)問(wèn)題進(jìn)行訓(xùn)練時(shí),整體 MDP 由多個(gè)初始狀態(tài)和更新的獎(jiǎng)勵(lì)函數(shù)組成。添加更多問(wèn)題會(huì)修改 P_0 和 R,但會(huì)保留基本的 MDP 結(jié)構(gòu)。

這會(huì)引入兩個(gè)重要的考慮因素:(1) 更大的問(wèn)題集會(huì)增加 MDP 的復(fù)雜性,但這可能會(huì)使所學(xué)技術(shù)具有更高的泛化能力。(2) 原理上看,即使是單個(gè)問(wèn)題(或一小組問(wèn)題)也足以使強(qiáng)化學(xué)習(xí)訓(xùn)練生效,盡管這可能會(huì)引發(fā)過(guò)擬合的問(wèn)題。

過(guò)擬合是監(jiān)督學(xué)習(xí)中的一個(gè)問(wèn)題,因?yàn)槟P蜁?huì)記住具體的例子,而不是進(jìn)行泛化。相比之下,在線強(qiáng)化學(xué)習(xí)則不會(huì)受到這個(gè)問(wèn)題的影響。與依賴(lài)靜態(tài)訓(xùn)練數(shù)據(jù)的監(jiān)督學(xué)習(xí)不同,在線強(qiáng)化學(xué)習(xí)會(huì)持續(xù)生成新的響應(yīng)軌跡,從而使模型能夠動(dòng)態(tài)地改進(jìn)其推理能力。此外,在線強(qiáng)化學(xué)習(xí)不僅僅是模仿預(yù)先定義的解答;它還會(huì)主動(dòng)探索各種推理策略,并強(qiáng)化那些能夠得出正確答案的策略。

兩種關(guān)鍵機(jī)制促成了這種穩(wěn)健性:(1) 采樣技術(shù)(例如非零溫度)可確保生成的響應(yīng)具有變化性;(2) 訓(xùn)練期間持續(xù)的模型更新會(huì)隨著時(shí)間的推移引入新的響應(yīng)分布,從而防止訓(xùn)練停滯和過(guò)擬合。

這能解釋在小規(guī)模問(wèn)題集上進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練會(huì)保持有效性的原因。該團(tuán)隊(duì)表示,之前還沒(méi)有人報(bào)告過(guò)將強(qiáng)化學(xué)習(xí)訓(xùn)練應(yīng)用于極小數(shù)據(jù)集的研究,這也是本研究的貢獻(xiàn)之一。

除了數(shù)據(jù)大小的考慮之外,需要強(qiáng)調(diào)的是,強(qiáng)化學(xué)習(xí)的唯一目標(biāo)是最小化損失,這也就相當(dāng)于最大化預(yù)期回報(bào)。從這個(gè)角度來(lái)看,強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中響應(yīng)長(zhǎng)度的任何顯著變化都必然是由損失最小化驅(qū)動(dòng)的,而非模型進(jìn)行更廣泛推理的固有傾向。

為了進(jìn)一步研究這一點(diǎn),該團(tuán)隊(duì)基于 DeepSeek-R1-Distill-Qwen-1.5B 基礎(chǔ)模型,使用近端策略?xún)?yōu)化 (PPO) 算法進(jìn)行了強(qiáng)化學(xué)習(xí)訓(xùn)練。訓(xùn)練數(shù)據(jù)是從 OlympiadBench 數(shù)據(jù)集中選擇的四個(gè)問(wèn)題。

之所以特意選擇這些問(wèn)題,是因?yàn)榧词惯M(jìn)行了廣泛的采樣,基礎(chǔ)模型也始終無(wú)法解決這些問(wèn)題,導(dǎo)致終端獎(jiǎng)勵(lì)恒定為 -0.5。其上下文大小限制為 20K token,該團(tuán)隊(duì)繪制了策略損失與響應(yīng)長(zhǎng)度的關(guān)系圖(參見(jiàn)圖 1)。

圖片

結(jié)果清楚地表明,響應(yīng)長(zhǎng)度和損失之間存在很強(qiáng)的相關(guān)性:隨著響應(yīng)長(zhǎng)度的增加,損失持續(xù)下降。這直接證明:損失最小化(而非模型產(chǎn)生更長(zhǎng)響應(yīng)的內(nèi)在趨勢(shì))才是驅(qū)動(dòng)響應(yīng)長(zhǎng)度增長(zhǎng)的主要?jiǎng)恿Α?/span>

對(duì)于 PPO 對(duì)響應(yīng)長(zhǎng)度的影響,該團(tuán)隊(duì)也從數(shù)學(xué)角度進(jìn)行了解釋。詳見(jiàn)原論文。

一種兩階段強(qiáng)化學(xué)習(xí)策略

該團(tuán)隊(duì)的分析突出了幾個(gè)要點(diǎn)。

  • 當(dāng)在極其困難的問(wèn)題訓(xùn)練時(shí),響應(yīng)長(zhǎng)度往往會(huì)增加,因?yàn)檩^長(zhǎng)的響應(yīng)更有可能受到 PPO 的青睞,因?yàn)槟P碗y以獲得正回報(bào)。
  • 當(dāng)在偶爾可解的問(wèn)題上訓(xùn)練時(shí),響應(yīng)長(zhǎng)度預(yù)計(jì)會(huì)縮短。
  • 在大規(guī)模訓(xùn)練場(chǎng)景中,響應(yīng)長(zhǎng)度的動(dòng)態(tài)會(huì)變得非常復(fù)雜,并會(huì)受到底層問(wèn)題難度的巨大影響。

該團(tuán)隊(duì)認(rèn)為,由于大多數(shù)問(wèn)題至少偶爾可解,因此平均響應(yīng)長(zhǎng)度最終會(huì)減少。值得注意的是,該團(tuán)隊(duì)目前的分析不適用于 GRPO,對(duì)此類(lèi)方法的精確分析還留待未來(lái)研究。盡管如此,由于簡(jiǎn)潔性與更高準(zhǔn)確度之間的相關(guān)性,該團(tuán)隊(duì)推測(cè):如果訓(xùn)練持續(xù)足夠長(zhǎng)的時(shí)間,這種增長(zhǎng)最終可能會(huì)停止并開(kāi)始逆轉(zhuǎn)。

如果數(shù)據(jù)集包含過(guò)多無(wú)法解決的問(wèn)題,那么從「鼓勵(lì)響應(yīng)更長(zhǎng)」到「鼓勵(lì)簡(jiǎn)潔性」的轉(zhuǎn)變可能會(huì)大幅延遲且成本高昂。

為了解決這個(gè)問(wèn)題,該團(tuán)隊(duì)提出了一種新方法:通過(guò)一個(gè)后續(xù)強(qiáng)化學(xué)習(xí)訓(xùn)練階段來(lái)強(qiáng)制實(shí)現(xiàn)簡(jiǎn)潔性,該階段使用了偶爾可解問(wèn)題的數(shù)據(jù)集。于是,就能得到一種兩階段的強(qiáng)化學(xué)習(xí)訓(xùn)練方法:

在第一階段,用高難度問(wèn)題訓(xùn)練模型。此階段的目標(biāo)是增強(qiáng)模型解決問(wèn)題的能力,由于 PPO 主要會(huì)遇到負(fù)獎(jiǎng)勵(lì),從而促使模型產(chǎn)生更長(zhǎng)的響應(yīng),因此響應(yīng)長(zhǎng)度預(yù)計(jì)會(huì)增加。值得注意的是,第一階段也可被視為現(xiàn)有推理模型的強(qiáng)化學(xué)習(xí)訓(xùn)練。

在第二階段,使用非零 p_a(偶爾可解)的問(wèn)題繼續(xù)訓(xùn)練。此階段能在保持甚至提高準(zhǔn)確度的同時(shí)提升簡(jiǎn)潔性。值得注意的是,正如后面將看到的,它還能顯著提高模型對(duì)降低溫度值的穩(wěn)健性 —— 即使在有限的采樣量下也能確保卓越的性能。

從 MDP 的角度,該團(tuán)隊(duì)得到了一個(gè)關(guān)鍵洞察:即使問(wèn)題集很小,也可以實(shí)現(xiàn)有效的強(qiáng)化學(xué)習(xí)訓(xùn)練,盡管這可能會(huì)降低泛化能力。尤其要指出,在訓(xùn)練的第二階段 —— 此時(shí)模型已經(jīng)具備泛化能力,即使僅有只包含少量問(wèn)題的極小數(shù)據(jù)集也可使用 PPO。

實(shí)驗(yàn)結(jié)果

該團(tuán)隊(duì)也通過(guò)實(shí)驗(yàn)檢驗(yàn)了新提出的兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練方法。

問(wèn)題難度如何影響準(zhǔn)確度-響應(yīng)長(zhǎng)度的相關(guān)性

圖 2 給出了準(zhǔn)確度和響應(yīng)長(zhǎng)度隨訓(xùn)練步數(shù)的變化。

圖片

可以看到,在所有問(wèn)題集中,準(zhǔn)確度的提高與響應(yīng)長(zhǎng)度的縮短相一致 —— 這表明隨著模型準(zhǔn)確度的提高,其響應(yīng)長(zhǎng)度也隨之縮短。此外,對(duì)于更簡(jiǎn)單的問(wèn)題集,響應(yīng)長(zhǎng)度縮短得更快。最后,對(duì)于最難的數(shù)據(jù)集,由于問(wèn)題很少能夠解決,因此響應(yīng)長(zhǎng)度有所增加。

響應(yīng)長(zhǎng)度減少

圖 3 展示了在不同的測(cè)試數(shù)據(jù)集(AIME 2024、AMC 2023 和 MATH-500)上,經(jīng)過(guò)后訓(xùn)練的 1.5B 和 7B 模型的準(zhǔn)確度和響應(yīng)長(zhǎng)度隨訓(xùn)練步數(shù)的變化情況。

圖片

可以看到,新提出的兩階段強(qiáng)化學(xué)習(xí)訓(xùn)練方法會(huì)讓響應(yīng)長(zhǎng)度顯著下降,同時(shí)準(zhǔn)確度會(huì)保持穩(wěn)定。而右圖在 MMLU_STEM 上的結(jié)果更是表明:僅使用 8 個(gè)樣本,強(qiáng)化學(xué)習(xí)后訓(xùn)練也能帶來(lái)準(zhǔn)確度提升。

性能和穩(wěn)健性的提升

前面的實(shí)驗(yàn)結(jié)果已經(jīng)證明:進(jìn)一步的強(qiáng)化學(xué)習(xí)后訓(xùn)練可以在保持準(zhǔn)確度的同時(shí)縮短響應(yīng)長(zhǎng)度。該團(tuán)隊(duì)進(jìn)一步研究發(fā)現(xiàn):進(jìn)一步的強(qiáng)化學(xué)習(xí)后訓(xùn)練也能提升模型的穩(wěn)健性和性能。

為了評(píng)估模型的穩(wěn)健性,該團(tuán)隊(duì)檢查了它們對(duì)溫度設(shè)置的敏感性。將溫度設(shè)置為零會(huì)大幅降低 R1 等推理模型的準(zhǔn)確度。然而,諸如 pass@1 之類(lèi)的標(biāo)準(zhǔn)指標(biāo)依賴(lài)于非零溫度下的多個(gè)樣本,這通常會(huì)掩蓋在小型數(shù)據(jù)集上進(jìn)行二次強(qiáng)化學(xué)習(xí)后訓(xùn)練的優(yōu)勢(shì)。

該團(tuán)隊(duì)使用 0 和 0.6 的溫度值進(jìn)行了實(shí)驗(yàn),結(jié)果見(jiàn)表 3。

圖片

可以看到,當(dāng)溫度設(shè)置為 0 時(shí),經(jīng)過(guò)后訓(xùn)練的模型的表現(xiàn)顯著優(yōu)于基線模型,這表明經(jīng)過(guò)后訓(xùn)練的模型與基線模型相比更加穩(wěn)健。

該團(tuán)隊(duì)還表明,在有限數(shù)量的樣本上進(jìn)行進(jìn)一步的強(qiáng)化學(xué)習(xí)訓(xùn)練可以顯著提升準(zhǔn)確度。這種效果取決于先前在類(lèi)似(甚至相同)問(wèn)題上進(jìn)行過(guò)的強(qiáng)化學(xué)習(xí)訓(xùn)練程度。如果模型已經(jīng)進(jìn)行過(guò)大量強(qiáng)化學(xué)習(xí)訓(xùn)練,可能就更難以進(jìn)一步提升準(zhǔn)確度。

為了探究這一點(diǎn),該團(tuán)隊(duì)基于 Qwen-Math-v2.5 使用了在線強(qiáng)化學(xué)習(xí)進(jìn)行實(shí)驗(yàn),訓(xùn)練樣本是來(lái)自 MATH 數(shù)據(jù)集的 4 個(gè)樣本。不同于 R1,該模型之前并沒(méi)有經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,而是僅在大量數(shù)學(xué)數(shù)據(jù)上進(jìn)行了 token completion 訓(xùn)練。結(jié)果見(jiàn)表 4。

圖片

可以看到,提升很驚人!在 1.5B 模型上,提升高達(dá) 30%。這表明,就算僅使用 4 個(gè)問(wèn)題進(jìn)行強(qiáng)化學(xué)習(xí)后訓(xùn)練,也能得到顯著的準(zhǔn)確度提升,尤其是當(dāng)模型之前未進(jìn)行過(guò)強(qiáng)化學(xué)習(xí)推理優(yōu)化訓(xùn)練時(shí)。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2025-04-21 09:07:00

2012-02-03 14:39:12

Java

2025-04-27 09:19:00

強(qiáng)化學(xué)習(xí)模型AI

2024-08-16 14:15:00

AI訓(xùn)練

2021-09-17 12:54:05

AI 數(shù)據(jù)人工智能

2015-08-12 10:04:24

2025-06-04 08:35:00

2024-12-09 13:40:26

2024-11-21 14:00:00

模型AI

2024-12-02 12:37:42

2021-09-06 15:29:16

大數(shù)據(jù)防疫信息安全

2010-04-28 14:38:26

云計(jì)算

2025-04-07 09:00:00

數(shù)據(jù)測(cè)試工具

2023-11-30 18:25:57

數(shù)據(jù)訓(xùn)練

2017-02-28 16:26:52

網(wǎng)易云新東方精雕細(xì)刻

2017-06-29 08:45:06

MySQLNOT INNOT EXISTS

2010-10-18 10:51:00

蘋(píng)果

2022-11-07 07:28:39

大腦創(chuàng)傷功能

2022-12-01 08:00:00

2025-06-04 03:25:00

Java浮點(diǎn)數(shù)數(shù)學(xué)缺陷
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 国产精品视频在线免费观看 | 先锋影音资源网站 | 欧美视频在线播放 | 久久激情视频 | 国产精品网页 | 黄a免费看| 精品日韩在线 | 观看av| 亚洲国产一区二区在线 | 最新中文在线视频 | 91色在线| 国产精品一区二区在线免费观看 | 本道综合精品 | 一级片网址 | 午夜成人免费视频 | 久久国产美女视频 | 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 精一区二区 | 台湾av在线 | 国产精品一区二区久久精品爱微奶 | 国产成人99久久亚洲综合精品 | 99视频在线| 国产精品日韩欧美一区二区三区 | 91视视频在线观看入口直接观看 | 日韩成人在线播放 | 精品91视频| 国产成人在线播放 | 超碰免费观看 | 国产一区二区 | 久久久久精 | 精品伊人| 免费亚洲视频 | 亚洲狠狠 | 亚洲免费观看 | 韩国毛片一区二区三区 | 亚洲国产日韩一区 | 久久99网站| av一二三区 | 久久精品国产亚洲一区二区 | 韩日视频在线观看 | 国产我和子的乱视频网站 |