成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

無(wú)需數(shù)據(jù)標(biāo)注:RLSC 如何用“自我信心”優(yōu)化語(yǔ)言模型

人工智能
RLSC 作為一種強(qiáng)化學(xué)習(xí)微調(diào)方法,它無(wú)需外部標(biāo)簽、偏好模型或手動(dòng)獎(jiǎng)勵(lì)設(shè)計(jì),僅通過(guò)模型自身的“信心”作為獎(jiǎng)勵(lì)信號(hào),就能顯著提升性能。這一創(chuàng)新方法不僅為L(zhǎng)LM的優(yōu)化提供了新思路,且訓(xùn)練高效、成本較低。

大家好,我是肆〇柒。當(dāng)下,大型語(yǔ)言模型(LLM)如 ChatGPT、Qwen 等展現(xiàn)出了卓越的推理能力,能夠在多種任務(wù)中提供高質(zhì)量的解決方案。然而,盡管這些模型具有強(qiáng)大的基礎(chǔ)能力,但要使其行為與特定任務(wù)目標(biāo)精準(zhǔn)對(duì)齊,后訓(xùn)練優(yōu)化仍然是不可或缺的關(guān)鍵步驟。現(xiàn)有的強(qiáng)化學(xué)習(xí)(RL)方法,如 RLHF(Reinforcement Learning from Human Feedback)、TTRL(Test-Time Reinforcement Learning)等,往往依賴于昂貴的人工標(biāo)注數(shù)據(jù)或復(fù)雜的外部獎(jiǎng)勵(lì)模型,這不僅增加了成本,還限制了它們的廣泛應(yīng)用。

為突破這一瓶頸,RLSC(Reinforcement Learning via Self-Confidence)被 Airi 與 Skoltech Moscow 的研究人員提出。作為一種創(chuàng)新的強(qiáng)化學(xué)習(xí)微調(diào)方法,RLSC 是利用模型自身對(duì)輸出的信心作為獎(jiǎng)勵(lì)信號(hào),無(wú)需借助外部標(biāo)簽、偏好模型或繁瑣的手動(dòng)獎(jiǎng)勵(lì)設(shè)計(jì),為 LLM 的優(yōu)化開(kāi)辟了一條高效、低成本的新路徑。這一方法在論文《CONFIDENCE IS ALL YOU NEED: FEW-SHOT RL FINE-TUNING OF LANGUAGE MODELS》中得到了詳細(xì)闡述,下面我們一起來(lái)了解一下。

為啥提出 RLSC 方法

在探索 LLM 優(yōu)化方法的過(guò)程中,研究者們發(fā)現(xiàn)現(xiàn)有 RL 方法存在諸多局限。以 TTRL 為例,它需要為每個(gè)問(wèn)題生成大量樣本(通常至少 64 個(gè)),并依賴多數(shù)投票機(jī)制生成偽標(biāo)簽。雖然這種方法能在一定程度上提升模型性能,但其計(jì)算開(kāi)銷(xiāo)極為龐大,且對(duì)數(shù)據(jù)預(yù)處理要求極高,需要清晰分離答案與推理痕跡,這在實(shí)際應(yīng)用中往往難以實(shí)現(xiàn)。

鑒于此,RLSC 的提出動(dòng)機(jī)便是尋找一種更高效、更經(jīng)濟(jì)的微調(diào)方案。它直接利用模型自身的內(nèi)部信息,摒棄對(duì)外部監(jiān)督的依賴,從而在保證性能提升的同時(shí),大幅降低成本與資源消耗,使微調(diào)過(guò)程更加簡(jiǎn)潔、靈活,便于在不同場(chǎng)景和資源約束下應(yīng)用。

圖片


通過(guò)增強(qiáng)“自信心”實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的工作流程圖

上圖展示了 RLSC 方法的工作流程,通過(guò)自我信心的強(qiáng)化來(lái)優(yōu)化模型的輸出分布,使模型在訓(xùn)練過(guò)程中逐漸集中于高置信度的答案。

RLSC 的理論基礎(chǔ)

RLSC 的核心思想聚焦于模型輸出分布的眾數(shù)銳化。也就是在模型針對(duì)同一問(wèn)題生成的多個(gè)樣本中,通過(guò)優(yōu)化使輸出更傾向于集中在最可能正確的答案上。其背后的原理在于:當(dāng)兩個(gè)獨(dú)立樣本的輸出相同時(shí),模型對(duì)這一輸出的信心最強(qiáng)。因此,最大化這種相同輸出概率的期望,就能提升模型對(duì)正確答案的確定性。

這一公式可以提升模型對(duì)同一問(wèn)題不同樣本輸出一致性的概率,從而增強(qiáng)其對(duì)正確答案的信心。例如,在一個(gè)簡(jiǎn)單的文本分類(lèi)任務(wù)中,若模型對(duì)某段文本屬于 “正面情感” 類(lèi)別的判斷輸出分布較為分散,經(jīng)過(guò) RLSC 優(yōu)化后,其輸出將更傾向于集中在 “正面情感” 這一正確答案上,概率值顯著提高,體現(xiàn)出更強(qiáng)的自信。

圖片

訓(xùn)練前后的概率分布

如上圖所示,經(jīng)過(guò) RLSC 優(yōu)化后,模型的輸出概率分布更加集中于高置信度的答案,從而顯著提升了模型的推理能力和穩(wěn)定性。

RLSC 的損失函數(shù)與梯度計(jì)算

平滑項(xiàng) α 的引入是為了應(yīng)對(duì) Pold 出現(xiàn)高度尖銳或稀疏分布的情況。當(dāng) α 取較小正值(如 0.1)時(shí),它能有效穩(wěn)定優(yōu)化過(guò)程,提升模型收斂的平穩(wěn)性與泛化能力。以圖像分類(lèi)任務(wù)中的長(zhǎng)尾分布問(wèn)題類(lèi)比,某些類(lèi)別樣本極少,模型對(duì)其初始判斷可能極為不自信,分布稀疏且不均勻。此時(shí),α 的加入相當(dāng)于給這些小概率類(lèi)別輸出提供了一定的基礎(chǔ)權(quán)重,使模型在更新時(shí)不會(huì)過(guò)度忽略它們,從而有助于整體性能的均衡提升。

在梯度計(jì)算方面,通過(guò)對(duì)損失函數(shù)求梯度并利用反向傳播算法,即可實(shí)現(xiàn)模型參數(shù) θ 的更新。具體推導(dǎo)中,借助 log-trick 技巧,將梯度表達(dá)式轉(zhuǎn)化為易于計(jì)算的形式,從而高效地指導(dǎo)模型優(yōu)化方向。

損失函數(shù)的適用場(chǎng)景與選擇策略

在實(shí)際應(yīng)用中,選擇合適的損失函數(shù)至關(guān)重要。當(dāng)模型的輸出分布較為均勻,即各個(gè)可能輸出的概率相對(duì)接近時(shí),L1 損失函數(shù)能夠有效地引導(dǎo)模型逐漸集中注意力于高置信度的輸出上。然而,在模型輸出分布已經(jīng)較為尖銳,即存在少數(shù)高概率輸出的情況下,L2 損失函數(shù)的優(yōu)勢(shì)便凸顯出來(lái)。平滑項(xiàng) α 可以防止模型過(guò)于自信于當(dāng)前的輸出分布,避免陷入局部最優(yōu),同時(shí)有助于提升模型對(duì)未見(jiàn)過(guò)樣本的泛化能力。

例如,在對(duì) Qwen2.5-Math-7B 模型進(jìn)行微調(diào)時(shí),若初始階段模型對(duì)數(shù)學(xué)問(wèn)題的答案輸出呈現(xiàn)多樣化且無(wú)明顯主導(dǎo)答案,此時(shí)采用 L1 損失函數(shù)能夠快速篩選出潛在的正確答案方向。隨著訓(xùn)練的推進(jìn),當(dāng)模型逐漸傾向于某些特定答案但尚未完全穩(wěn)定時(shí),切換至 L2 損失函數(shù),并結(jié)合適當(dāng)?shù)?α 值(如 0.1),可進(jìn)一步精細(xì)化模型的輸出分布,增強(qiáng)其對(duì)正確答案的穩(wěn)定性。

log-trick 技巧的深入解析

log-trick 技巧是 RLSC 梯度計(jì)算中的關(guān)鍵環(huán)節(jié)。其核心思想在于將期望梯度的計(jì)算轉(zhuǎn)換為更易處理的形式。根據(jù)期望的性質(zhì):

而通過(guò)引入對(duì)數(shù)概率,可以巧妙地將梯度計(jì)算與模型的生成過(guò)程相結(jié)合:

這一轉(zhuǎn)換在數(shù)學(xué)上更加優(yōu)雅,而且在實(shí)際計(jì)算中具有顯著優(yōu)勢(shì)。首先,它將梯度計(jì)算轉(zhuǎn)化為對(duì)模型輸出概率的簡(jiǎn)單加權(quán)求和,避免了直接對(duì)高維概率分布進(jìn)行復(fù)雜求導(dǎo)。其次,利用對(duì)數(shù)概率的形式,能夠更有效地利用自動(dòng)微分工具進(jìn)行計(jì)算,在深度學(xué)習(xí)框架中實(shí)現(xiàn)高效的梯度傳播。

以一個(gè)簡(jiǎn)單的文本生成任務(wù)為例,假設(shè)模型需要生成單詞序列作為答案。在計(jì)算梯度時(shí),對(duì)于每個(gè)可能的單詞輸出,只需獲取其對(duì)數(shù)概率以及對(duì)應(yīng)的梯度信息,然后通過(guò)加權(quán)求和的方式即可得到整體梯度。這一過(guò)程提高了計(jì)算效率,還增強(qiáng)了數(shù)值穩(wěn)定性,避免了直接操作概率值可能導(dǎo)致的下溢或上溢問(wèn)題。

RLSC 的訓(xùn)練設(shè)置

在實(shí)際應(yīng)用 RLSC 進(jìn)行微調(diào)時(shí),以 Qwen2.5-Math-7B 模型為例,訓(xùn)練過(guò)程如下:首先,采用基礎(chǔ)模型為每個(gè)訓(xùn)練樣本生成 16 個(gè)候選完成,生成溫度固定,確保多樣性與穩(wěn)定性兼具。這些樣本被視為從舊模型分布 Pold 中獨(dú)立抽取的樣本點(diǎn)。

接下來(lái),對(duì)于每個(gè)生成樣本,計(jì)算其在更新后模型  下的對(duì)數(shù)概率。通過(guò)對(duì)比不同樣本的對(duì)數(shù)概率,結(jié)合損失函數(shù)(L1 或 L2),評(píng)估當(dāng)前模型參數(shù)的優(yōu)劣。隨后,利用標(biāo)準(zhǔn)的自回歸解碼和訓(xùn)練流程,包括對(duì)問(wèn)題和答案對(duì)的標(biāo)記化處理、應(yīng)用助手掩碼鎖定答案標(biāo)記、計(jì)算掩碼標(biāo)記的對(duì)數(shù)概率之和以獲取響應(yīng)的對(duì)數(shù)似然度等步驟,精準(zhǔn)計(jì)算損失值并反向傳播更新模型參數(shù)。

整個(gè)訓(xùn)練過(guò)程僅在 AIME2024 數(shù)據(jù)集上進(jìn)行 10 或 20 步迭代,借助 8 塊 NVIDIA A100 GPU(80GB)的強(qiáng)大算力,并采用 AdamW 優(yōu)化器,設(shè)置學(xué)習(xí)率為 1X10-5,配合常規(guī)權(quán)重衰減策略,生成序列長(zhǎng)度上限為 3072 token。在這一輕量化、高效的訓(xùn)練設(shè)置下,無(wú)需輔助數(shù)據(jù)集、指令調(diào)優(yōu)或偏好模型,即可實(shí)現(xiàn)零標(biāo)簽的強(qiáng)化學(xué)習(xí)微調(diào),充分挖掘模型潛力。

圖片

RLSC 方法

上述算法展示了 RLSC 方法在 LLM 中的具體實(shí)現(xiàn)步驟,通過(guò)生成樣本、計(jì)算概率和更新模型參數(shù)來(lái)實(shí)現(xiàn)自我信心的強(qiáng)化。

實(shí)驗(yàn)與結(jié)果

實(shí)驗(yàn)設(shè)置

為全面評(píng)估 RLSC 的性能,研究者們選用了多個(gè)極具挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集,涵蓋數(shù)學(xué)推理任務(wù),如 AIME2024、MATH500、AMC23、GSM8K,以及 GPQADiamond 問(wèn)答基準(zhǔn)等。這些數(shù)據(jù)集涵蓋了從基礎(chǔ)數(shù)學(xué)問(wèn)題到復(fù)雜科學(xué)問(wèn)題的廣泛領(lǐng)域,能夠充分檢驗(yàn)?zāi)P驮诓煌瑘?chǎng)景下的推理與泛化能力。

在評(píng)估指標(biāo)方面,采用準(zhǔn)確率(Acc)作為核心衡量標(biāo)準(zhǔn),其定義為正確回答樣本數(shù)與總評(píng)估樣本數(shù)的比值。同時(shí),也計(jì)算 Pass@1 分?jǐn)?shù),即綜合考慮多個(gè)可能答案后,模型正確回答的概率。這些指標(biāo)從不同角度反映了模型的實(shí)際性能,確保評(píng)估結(jié)果的全面性與客觀性。

實(shí)驗(yàn)結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果顯示,RLSC 調(diào)優(yōu)后的模型在各項(xiàng)基準(zhǔn)測(cè)試中均取得了顯著的性能提升。以下是在不同數(shù)據(jù)集上的提升情況:

  • AIME2024:從 13.3% 提升至 26.7%(+13.4%)
  • MATH500:從 51.4% 提升至 72.6%(+21.2%)
  • AMC23:從 45.0% 提升至 54.7%(+9.7%)
  • GPQA:從 21.4% 提升至 24.1%(+2.7%)
  • Olympiadbench:從 15.1% 提升至 35.9%(+20.8%)
  • Minerva Math:從 10.7% 提升至 32.4%(+21.7%)
  • MMLU Stem:從 52.3% 提升至 57.6%(+5.3%)

圖片

基線版本的Qwen2.5模型及其經(jīng)過(guò)RLSC調(diào)整的變體在推理基準(zhǔn)測(cè)試中的準(zhǔn)確率

上表直觀地展示了 RLSC 調(diào)優(yōu)前后模型在各個(gè)基準(zhǔn)測(cè)試上的準(zhǔn)確率對(duì)比,突出了 RLSC 在多個(gè)數(shù)據(jù)集上取得的顯著提升。

結(jié)果分析

RLSC 取得如此優(yōu)異成果的關(guān)鍵在于其獨(dú)特的自我信心強(qiáng)化機(jī)制。通過(guò)直接利用模型自身的輸出分布信息,無(wú)需外部監(jiān)督,便能精準(zhǔn)地引導(dǎo)模型優(yōu)化方向。這種內(nèi)在驅(qū)動(dòng)的優(yōu)化方式使模型在學(xué)習(xí)過(guò)程中更加聚焦于高頻正確答案,不斷增強(qiáng)對(duì)這些答案的信心,從而在實(shí)際推理任務(wù)中能夠更穩(wěn)定、更準(zhǔn)確地輸出正確結(jié)果。

尤其值得一提的是,RLSC 的高效性使其在資源受限環(huán)境下表現(xiàn)出色。相較于依賴大規(guī)模數(shù)據(jù)和算力的微調(diào)方法,RLSC 僅需極少量的訓(xùn)練樣本和計(jì)算步驟即可達(dá)成顯著性能提升,這對(duì)于在邊緣設(shè)備或計(jì)算資源有限場(chǎng)景中部署 LLM 具有重要意義,極大地拓展了其應(yīng)用場(chǎng)景和實(shí)用價(jià)值。

案例分析與效果展示

案例 1:AIME2024 數(shù)學(xué)問(wèn)題求解

在 AIME2024 數(shù)學(xué)問(wèn)題中,給定分段函數(shù) f(x),要求找出使得 y = f(x) 圖像與水平線 y = 2017 至少相交兩次的最小 a 值。原始 Qwen2.5-Math-7B 模型在解答時(shí)陷入了復(fù)雜的符號(hào)推導(dǎo),最終得出了錯(cuò)誤答案 。而經(jīng)過(guò) RLSC 調(diào)優(yōu)后的模型則展現(xiàn)出截然不同的推理過(guò)程。

它首先對(duì)函數(shù) f(x) 的兩部分分別進(jìn)行分析:對(duì)于 x ≥ a 時(shí)的 ax2,確定其取值范圍為 [a3, ∞);對(duì)于 x < a 時(shí)的 ax + 2a,明確其取值范圍為 (?∞, a2 + 2a)。為了滿足圖像與水平線 y = 2017 至少相交兩次的條件,這兩個(gè)范圍必須存在重疊,即 a3 ≤ a2 + 2a。通過(guò)巧妙地變形和因式分解該不等式,得到 a(a ? 2)(a + 1) ≤ 0,進(jìn)而求得滿足條件的 a 的區(qū)間為 (?∞, ?1] ∪ [0, 2]。由于題目要求最小的 a 值,模型精準(zhǔn)地得出 a 的最大可能值為 2,這一結(jié)果,邏輯嚴(yán)謹(jǐn)、條理清晰,并且正確。

為了進(jìn)一步驗(yàn)證答案的正確性,調(diào)優(yōu)后的模型還提供了 Python 代碼實(shí)現(xiàn),通過(guò)編程計(jì)算再次確認(rèn)了理論推導(dǎo)的準(zhǔn)確性。這一案例生動(dòng)地體現(xiàn)了 RLSC 在優(yōu)化模型推理能力方面的顯著效果,使其能夠避開(kāi)原始模型的冗長(zhǎng)錯(cuò)誤路徑,直接、準(zhǔn)確地抵達(dá)正確答案。

圖片

 案例 1:模型輸出結(jié)果的比較

上面這個(gè)用例展示了 RLSC 調(diào)優(yōu)前后模型在 AIME2024 數(shù)學(xué)問(wèn)題上的輸出對(duì)比,突出了調(diào)優(yōu)后模型的準(zhǔn)確性和邏輯性。

案例 2:幾何問(wèn)題求解

在求解兩點(diǎn) (2, ?6) 和 (?4, 3) 間距離的幾何問(wèn)題中,原始模型僅給出了錯(cuò)誤答案 10,未提供任何有效的推理過(guò)程。相比之下,RLSC 調(diào)優(yōu)后的模型則詳細(xì)地展示了正確的解題步驟。

這一案例凸顯了 RLSC 在提升模型幾何問(wèn)題求解能力方面的優(yōu)勢(shì),使其能夠正確運(yùn)用公式進(jìn)行計(jì)算,并以清晰的邏輯呈現(xiàn)完整的推理過(guò)程,避免了原始模型的盲目猜測(cè)和錯(cuò)誤輸出。

圖片

案例 2: 模型輸出結(jié)果的比較

上面這個(gè)用例展示了 RLSC 調(diào)優(yōu)前后模型在幾何問(wèn)題上的輸出對(duì)比,突出了調(diào)優(yōu)后模型的正確性和詳細(xì)推理過(guò)程。

案例 3:AIME 風(fēng)格博弈論問(wèn)題求解

面對(duì)一個(gè)典型的 AIME 風(fēng)格博弈論問(wèn)題,即 Alice 和 Bob 輪流取令牌的游戲,要求找出在 n ≤ 2024 的正整數(shù)中,Bob 有必勝策略的 n 的數(shù)量。RLSC 調(diào)優(yōu)后的模型展現(xiàn)了卓越的復(fù)雜問(wèn)題求解能力。

它首先定義了游戲中的位置狀態(tài)為 “獲勝態(tài)” 或 “失敗態(tài)”,并引入函數(shù) f(n) 來(lái)描述這一狀態(tài)關(guān)系。根據(jù)游戲規(guī)則,遞推地構(gòu)建了 f(n) 的邏輯表達(dá)式,即若 n ? 1 或 n ? 4 為失敗態(tài),則當(dāng)前 n 為獲勝態(tài),否則為失敗態(tài)。通過(guò)迭代計(jì)算所有 1 ≤ n ≤ 2024 的狀態(tài),模型精準(zhǔn)地統(tǒng)計(jì)出失敗態(tài)的數(shù)量為 809,這直接對(duì)應(yīng)了 Bob 能夠必勝的 n 的數(shù)量。

為確保結(jié)果的準(zhǔn)確性,模型還提供了相應(yīng)的 Python 驗(yàn)證代碼,通過(guò)動(dòng)態(tài)規(guī)劃的方法重新計(jì)算并驗(yàn)證了這一結(jié)果。這一案例充分展示了 RLSC 在處理復(fù)雜博弈論問(wèn)題時(shí)的推理深度和精確性,能夠?qū)?shí)際問(wèn)題轉(zhuǎn)化為數(shù)學(xué)模型,并高效求解,體現(xiàn)了其在多領(lǐng)域問(wèn)題求解中的強(qiáng)大適應(yīng)性。

圖片

模型輸出(正確答案):Qwen2.5在AIME風(fēng)格的博弈論問(wèn)題上的表現(xiàn)

上面展示了 RLSC 調(diào)優(yōu)后模型在 AIME 風(fēng)格博弈論問(wèn)題上的正確輸出,體現(xiàn)了其在復(fù)雜問(wèn)題求解中的優(yōu)勢(shì)。

案例 4:對(duì)數(shù)方程組求解問(wèn)題

在一個(gè)涉及對(duì)數(shù)方程組的數(shù)學(xué)問(wèn)題中,要求求解未知數(shù) x、y、z 滿足的對(duì)數(shù)關(guān)系,并最終得到表達(dá)式 log?(x?y3z2) 的值。RLSC 調(diào)優(yōu)后的模型靈活地運(yùn)用對(duì)數(shù)性質(zhì),將原始方程組巧妙地轉(zhuǎn)化為線性方程組。

通過(guò)變量替換 a = log?(x)、b = log?(y)、c = log?(z),模型將復(fù)雜的對(duì)數(shù)方程組簡(jiǎn)化為線性方程組:

接著,通過(guò)對(duì)方程組進(jìn)行整體求和,得出 a + b + c = ?13/12。再分別求解各變量,得到 a = ?7/24、b = ?3/8、c = ?5/12。最終,模型代入這些值計(jì)算目標(biāo)表達(dá)式,得出 log?(x?y3z2) = 4a + 3b + 2c = ?25/8,即其絕對(duì)值為 25/8,因此 m = 25、n = 8,m + n = 33。

整個(gè)推理過(guò)程邏輯嚴(yán)密、步驟清晰,從對(duì)數(shù)方程組的轉(zhuǎn)換到線性方程組的求解,再到最終結(jié)果的代入計(jì)算,環(huán)環(huán)相扣,毫無(wú)破綻。這一案例再次印證了 RLSC 在優(yōu)化模型數(shù)學(xué)問(wèn)題求解能力方面的顯著成效,使其能夠精準(zhǔn)地處理復(fù)雜的對(duì)數(shù)運(yùn)算和方程求解任務(wù),為解決各類(lèi)數(shù)學(xué)難題提供了可靠的保障。

圖片

模型輸出(正確答案),Qwen2.5-Math-7B帶強(qiáng)化學(xué)習(xí)自我糾正

上面展示了 RLSC 調(diào)優(yōu)后模型在對(duì)數(shù)方程組求解問(wèn)題上的正確輸出,體現(xiàn)了其在數(shù)學(xué)問(wèn)題求解中的精確性和邏輯性。

與同類(lèi)工作的比較

強(qiáng)化學(xué)習(xí)在推理任務(wù)中的應(yīng)用

強(qiáng)化學(xué)習(xí)在提升 LLM 推理能力方面發(fā)揮了至關(guān)重要的作用。眾多前沿模型紛紛借助強(qiáng)化學(xué)習(xí)的力量來(lái)增強(qiáng)自身的推理技能。例如,DeepSeek-R1 通過(guò)分解復(fù)雜問(wèn)題為多個(gè)中間步驟,并在每一步都進(jìn)行深度思考與權(quán)衡,從而有效提升了模型的推理深度和準(zhǔn)確性;ChatGPT 憑借其強(qiáng)大的語(yǔ)言理解和生成能力,在與用戶的交互過(guò)程中不斷學(xué)習(xí)和優(yōu)化推理策略,能夠針對(duì)不同領(lǐng)域的問(wèn)題給出合理且具有邏輯性的回答;QwQ 則專(zhuān)注于特定領(lǐng)域的推理任務(wù),通過(guò)強(qiáng)化學(xué)習(xí)精細(xì)調(diào)優(yōu)模型參數(shù),使其在專(zhuān)業(yè)領(lǐng)域內(nèi)展現(xiàn)出卓越的推理性能。

這些模型的共同點(diǎn)在于,它們都借助強(qiáng)化學(xué)習(xí)的框架,以不同的方式激勵(lì)模型探索更優(yōu)的推理路徑,從而在復(fù)雜任務(wù)中取得突破。然而,它們大多依賴于外部的獎(jiǎng)勵(lì)信號(hào)或大量的標(biāo)注數(shù)據(jù)來(lái)指導(dǎo)學(xué)習(xí)過(guò)程,這在一定程度上限制了強(qiáng)化學(xué)習(xí)在推理任務(wù)中的廣泛應(yīng)用,特別是在資源受限或難以獲取高質(zhì)量標(biāo)注數(shù)據(jù)的場(chǎng)景中。

基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí)(RLHF)

RLHF 作為一種經(jīng)典的強(qiáng)化學(xué)習(xí)方法,其核心在于利用人類(lèi)標(biāo)注的數(shù)據(jù)或偏好模型來(lái)生成獎(jiǎng)勵(lì)信號(hào),進(jìn)而引導(dǎo)模型行為與人類(lèi)偏好相匹配。具體來(lái)說(shuō),RLHF 通常需要收集大量人類(lèi)對(duì)模型生成結(jié)果的評(píng)價(jià)數(shù)據(jù),如評(píng)分、排名等,然后訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型來(lái)預(yù)測(cè)人類(lèi)對(duì)不同回答的偏好程度。在模型訓(xùn)練過(guò)程中,將這個(gè)獎(jiǎng)勵(lì)模型的輸出作為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào),指導(dǎo)模型優(yōu)化策略,使模型生成的回答更符合人類(lèi)的期望。

然而,RLHF 的局限性也十分明顯。因?yàn)楂@取人類(lèi)標(biāo)注數(shù)據(jù)的成本極高,這需要耗費(fèi)大量的人力和時(shí)間,還可能受到標(biāo)注者主觀因素的影響,導(dǎo)致標(biāo)注數(shù)據(jù)的不一致性。另外,訓(xùn)練獎(jiǎng)勵(lì)模型本身也是一個(gè)復(fù)雜的任務(wù),需要大量的計(jì)算資源和專(zhuān)業(yè)的數(shù)據(jù)處理技巧。此外,由于依賴于人類(lèi)標(biāo)注的靜態(tài)數(shù)據(jù),RLHF 在面對(duì)新領(lǐng)域或新任務(wù)時(shí),往往需要重新收集數(shù)據(jù)和訓(xùn)練獎(jiǎng)勵(lì)模型,缺乏靈活性和適應(yīng)性。

可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(RLVR)

RLVR 則另辟蹊徑,試圖擺脫對(duì)人工標(biāo)注的依賴。它的核心思想是僅基于問(wèn)題 - 答案對(duì)本身來(lái)計(jì)算可驗(yàn)證的獎(jiǎng)勵(lì)。例如,在數(shù)學(xué)問(wèn)題求解中,可以通過(guò)將模型生成的答案與已知的正確答案進(jìn)行比較,從而確定獎(jiǎng)勵(lì)值。這種方法的優(yōu)勢(shì)在于,無(wú)需額外的標(biāo)注數(shù)據(jù),只要問(wèn)題本身具有明確的驗(yàn)證標(biāo)準(zhǔn),就能為模型提供即時(shí)的反饋信號(hào)。

盡管如此,RLVR 也存在一些局限。它要求問(wèn)題具有明確且易于驗(yàn)證的正確答案,這在許多實(shí)際場(chǎng)景中并不總是滿足,例如開(kāi)放性問(wèn)題、創(chuàng)造性任務(wù)等。其次,對(duì)于一些需要評(píng)估中間推理過(guò)程質(zhì)量的任務(wù),RLVR 難以提供有效的獎(jiǎng)勵(lì)信號(hào),因?yàn)樗鼉H關(guān)注最終答案的正確性。此外,RLVR 仍然需要一定量的人工標(biāo)注的問(wèn)答對(duì)來(lái)進(jìn)行初始的模型訓(xùn)練和驗(yàn)證,這在一定程度上限制了其完全擺脫人工干預(yù)的可能性。

測(cè)試時(shí)訓(xùn)練(TTT)方法

TTT 作為強(qiáng)化學(xué)習(xí)領(lǐng)域的新興方向,聚焦于在模型推理階段進(jìn)行實(shí)時(shí)優(yōu)化。其中,SelfPlay Critic(SPC)和 Absolute Zero Reasoner(AZR)等方法借鑒了博弈論中的對(duì)抗學(xué)習(xí)思想。在 SPC 中,兩個(gè)模型相互對(duì)抗:一個(gè)模型負(fù)責(zé)生成可能的推理步驟或答案,另一個(gè)模型則扮演 “批評(píng)者” 角色,試圖找出其中的錯(cuò)誤或薄弱環(huán)節(jié)。通過(guò)這種對(duì)抗訓(xùn)練,兩個(gè)模型相互促進(jìn)、共同提升。AZR 則進(jìn)一步強(qiáng)化了這種對(duì)抗機(jī)制,使模型能夠在零樣本條件下通過(guò)自我博弈和推理,逐步構(gòu)建對(duì)問(wèn)題的理解和解決方案。

Test-Time Reinforcement Learning(TTRL)同樣是 TTT 領(lǐng)域的重要代表。它通過(guò)為每個(gè)問(wèn)題生成多個(gè)候選回答,并采用多數(shù)投票機(jī)制來(lái)確定偽標(biāo)簽,從而為模型更新提供獎(jiǎng)勵(lì)信號(hào)。這種基于投票的偽標(biāo)簽生成方法能夠在一定程度上減少錯(cuò)誤標(biāo)簽對(duì)模型訓(xùn)練的影響,提高模型的魯棒性。然而,TTRL 的不足之處在于需要為每個(gè)問(wèn)題生成大量的樣本(如 64 個(gè)),導(dǎo)致計(jì)算開(kāi)銷(xiāo)巨大,難以在實(shí)際應(yīng)用中大規(guī)模推廣,尤其對(duì)于大規(guī)模語(yǔ)言模型和復(fù)雜的任務(wù)來(lái)說(shuō),其計(jì)算成本更是令人望而卻步。

分析對(duì)比

RLSC 與 RLHF、RLVR、TTT 等方法的對(duì)比如下表所示:

方法

原理

依賴資源

優(yōu)點(diǎn)

缺點(diǎn)

RLHF

基于人類(lèi)標(biāo)注數(shù)據(jù)或偏好模型生成獎(jiǎng)勵(lì)信號(hào)

大量人工標(biāo)注數(shù)據(jù)、偏好模型訓(xùn)練

能有效使模型行為與人類(lèi)偏好一致

依賴人工標(biāo)注,成本高、靈活性差

RLVR

僅基于問(wèn)題 - 答案對(duì)計(jì)算可驗(yàn)證獎(jiǎng)勵(lì)

問(wèn)題的驗(yàn)證標(biāo)準(zhǔn)、少量標(biāo)注問(wèn)答對(duì)

無(wú)需大量標(biāo)注數(shù)據(jù),降低成本

適用于有限場(chǎng)景,對(duì)問(wèn)題答案可驗(yàn)證性要求高

TTT(如 SPC、AZR)

利用對(duì)抗學(xué)習(xí)或自我博弈在推理階段優(yōu)化模型

可能需要外部工具(如代碼執(zhí)行器)提供反饋

擺脫對(duì)人工監(jiān)督的依賴,提升模型推理能力

部分方法依賴外部工具,增加系統(tǒng)復(fù)雜性

TTRL

通過(guò)多數(shù)投票生成偽標(biāo)簽進(jìn)行強(qiáng)化學(xué)習(xí)

大量樣本生成(如 64 個(gè) / 問(wèn)題)

無(wú)需人工監(jiān)督,提高模型魯棒性

計(jì)算開(kāi)銷(xiāo)大,難以大規(guī)模應(yīng)用

RLSC

利用模型自身輸出分布的眾數(shù)銳化,最大化自我信心

無(wú)需標(biāo)注數(shù)據(jù)、偏好模型或大量樣本

高效、低成本,適用于資源受限環(huán)境

可能在某些需要多樣化輸出的任務(wù)中表現(xiàn)欠佳

上表對(duì)比可以看出,RLSC 在擺脫外部依賴、降低成本和提高效率方面具有顯著優(yōu)勢(shì),為 LLM 的微調(diào)提供了一種全新的思路。它巧妙地利用模型自身的內(nèi)部信息,避免了復(fù)雜的數(shù)據(jù)標(biāo)注流程和大規(guī)模的樣本生成,使得強(qiáng)化學(xué)習(xí)微調(diào)更加簡(jiǎn)潔、高效,易于在各種場(chǎng)景下實(shí)施。

總結(jié)認(rèn)知

RLSC 方法,其核心貢獻(xiàn)在于提出了一種無(wú)需依賴外部標(biāo)簽、偏好模型或手動(dòng)設(shè)計(jì)獎(jiǎng)勵(lì)信號(hào)的強(qiáng)化學(xué)習(xí)微調(diào)框架。通過(guò)巧妙地利用模型自身對(duì)輸出的信心作為內(nèi)在獎(jiǎng)勵(lì)信號(hào),RLSC 實(shí)現(xiàn)了在極少量訓(xùn)練數(shù)據(jù)和低計(jì)算成本下對(duì)模型性能的顯著提升,為 LLM 的優(yōu)化提供了一種高效、經(jīng)濟(jì)且實(shí)用的新途徑。

在多個(gè)權(quán)威基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果有力地證明了 RLSC 的有效性。它在數(shù)學(xué)推理等復(fù)雜任務(wù)中取得了性能提升,還展現(xiàn)出了強(qiáng)大的泛化能力和適應(yīng)性。尤其是在資源受限的環(huán)境中,RLSC 憑借其輕量級(jí)的訓(xùn)練設(shè)置和對(duì)計(jì)算資源的低需求,展現(xiàn)了巨大的應(yīng)用潛力,有望使更多研究者和開(kāi)發(fā)者能夠輕松地對(duì) LLM 進(jìn)行優(yōu)化和定制。

RLSC 的創(chuàng)新性

RLSC 的創(chuàng)新性則主要體現(xiàn)在以下幾個(gè)關(guān)鍵方面:

1. 自我信心驅(qū)動(dòng)的優(yōu)化機(jī)制 :首次將模型自身對(duì)輸出的信心轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào),開(kāi)創(chuàng)性地實(shí)現(xiàn)了完全基于模型內(nèi)部信息的自我監(jiān)督學(xué)習(xí)模式。這一機(jī)制摒棄了傳統(tǒng)方法對(duì)外部監(jiān)督數(shù)據(jù)的依賴,從根本上降低了數(shù)據(jù)獲取和處理成本,簡(jiǎn)化了微調(diào)流程。

2. 眾數(shù)銳化的理論突破 :通過(guò)深入分析多數(shù)投票機(jī)制的本質(zhì),首次從理論上揭示了其與模型輸出分布眾數(shù)銳化的內(nèi)在聯(lián)系,并將其轉(zhuǎn)化為可微分的優(yōu)化目標(biāo)。這種基于數(shù)學(xué)推導(dǎo)的創(chuàng)新方法為 RLSC 提供了堅(jiān)實(shí)的理論基礎(chǔ),還為未來(lái)類(lèi)似方法的研究提供了新的思路和方向。

3. 高效的訓(xùn)練策略 :設(shè)計(jì)了簡(jiǎn)潔高效的訓(xùn)練策略,僅需少量樣本和訓(xùn)練步驟即可實(shí)現(xiàn)顯著性能提升。例如,在 Qwen2.5-Math-7B 模型上,僅使用 16 個(gè)樣本和 10 至 20 步訓(xùn)練,即可在多個(gè)基準(zhǔn)測(cè)試中取得超過(guò) 10% 至 20% 的準(zhǔn)確率提升。這種高效的訓(xùn)練方式極大地提高了微調(diào)的可行性和實(shí)用性,特別適用于計(jì)算資源有限的場(chǎng)景。

RLSC 的局限性

盡管 RLSC 具備諸多優(yōu)勢(shì),但其也存在一些局限性。例如,在某些需要高度多樣化輸出的任務(wù)中,RLSC 可能會(huì)因?yàn)檫^(guò)度追求輸出一致性而導(dǎo)致模型生成結(jié)果的多樣性不足。此外,對(duì)于一些數(shù)據(jù)分布極為特殊或噪聲較大的任務(wù),RLSC 的自我信心強(qiáng)化機(jī)制可能需要進(jìn)一步調(diào)整和優(yōu)化才能發(fā)揮最佳效果。

針對(duì)這些局限性,未來(lái)可以嘗試以下下幾個(gè)方面:

  1. 增強(qiáng)輸出多樣性 :探索在 RLSC 框架中引入多樣性正則化項(xiàng)或采用多模態(tài)分布建模的方法,使模型在保持高置信度的同時(shí),能夠生成 更加豐富多樣的輸出結(jié)果,滿足不同任務(wù)對(duì)多樣性的需求。
  2. 適應(yīng)復(fù)雜數(shù)據(jù)分布 :研究如何結(jié)合數(shù)據(jù)增強(qiáng)技術(shù)或自適應(yīng)學(xué)習(xí)策略,提升 RLSC 在面對(duì)復(fù)雜、噪聲數(shù)據(jù)時(shí)的魯棒性和適應(yīng)性。例如,通過(guò)在訓(xùn)練過(guò)程中動(dòng)態(tài)調(diào)整平滑項(xiàng) α 或采用數(shù)據(jù)驅(qū)動(dòng)的采樣策略,使模型能夠更好地應(yīng)對(duì)不同類(lèi)型的分布變化。
  3. 與其他方法的融合 :進(jìn)一步探索 RLSC 與現(xiàn)有其他強(qiáng)化學(xué)習(xí)方法(如 RLHF、TTT 等)的融合方式,充分發(fā)揮各自的優(yōu)勢(shì),實(shí)現(xiàn)更強(qiáng)大的模型優(yōu)化效果。例如,在 RLSC 的基礎(chǔ)上,結(jié)合少量人工標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),或與其他測(cè)試時(shí)訓(xùn)練方法聯(lián)合使用,以進(jìn)一步提升模型性能。

綜上,RLSC 作為一種創(chuàng)新的強(qiáng)化學(xué)習(xí)微調(diào)方法,憑借其獨(dú)特的自我信心驅(qū)動(dòng)機(jī)制和高效的訓(xùn)練策略,在 LLM 的優(yōu)化領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法往往讓人聯(lián)想到復(fù)雜的標(biāo)注流程、龐大的計(jì)算資源需求以及繁瑣的外部模型依賴。RLSC 通過(guò)利用模型對(duì)輸出的信心,RLSC 讓模型在自我反思和自我強(qiáng)化中實(shí)現(xiàn)成長(zhǎng),這種內(nèi)在驅(qū)動(dòng)的優(yōu)化方式既優(yōu)雅,又具有創(chuàng)新性。

RLSC 給我的感覺(jué)有點(diǎn)像再次強(qiáng)化特定任務(wù)目標(biāo)的概率分布,它應(yīng)該是進(jìn)一步放大了特定任務(wù)的先驗(yàn)概率,使模型的輸出更穩(wěn)健。甚至,這個(gè)方法還激發(fā)了我對(duì) inference-time 時(shí) Agent 采樣的思考,通過(guò) Repeat 采樣,其實(shí)也可以實(shí)現(xiàn)類(lèi)似的效果,當(dāng)然這會(huì)消耗 inference-time 的算力。在這里要特別注意的是所強(qiáng)化的任務(wù)類(lèi)型。我的理解,具有強(qiáng)泛化、弱標(biāo)準(zhǔn)類(lèi)的任務(wù)(比如創(chuàng)作),RLSC 方法就未必適用;如果過(guò)度使用,反而可能會(huì)降低模型的泛化能力,發(fā)生在此類(lèi)任務(wù)上的過(guò)擬合現(xiàn)象,而導(dǎo)致模型性能下降。而如果任務(wù)具有確定解或者具有強(qiáng)標(biāo)準(zhǔn)的結(jié)果(比如數(shù)學(xué)或 SOP 等),則應(yīng)該很適合用 RLSC 方法進(jìn)行強(qiáng)化。所以,RLSC 這類(lèi)方法,用對(duì)任務(wù)場(chǎng)景很重要,且從 RFT 的 ROI 角度來(lái)看,它很高效。

責(zé)任編輯:龐桂玉 來(lái)源: 覺(jué)察流
相關(guān)推薦

2024-11-05 14:25:00

AI模型

2025-04-25 09:20:00

數(shù)據(jù)模型AI

2024-12-23 08:03:13

2014-06-10 15:07:19

Oracle數(shù)據(jù)庫(kù)優(yōu)化

2024-10-25 15:43:57

2024-05-14 11:58:09

2025-05-30 09:05:00

AI大模型推理

2010-04-20 14:06:56

Oracle SQL語(yǔ)

2025-01-20 09:43:00

AI算法

2015-04-07 13:23:09

2019-01-02 13:11:53

GO語(yǔ)言緩存

2025-03-31 09:46:00

2022-06-20 08:16:42

享元模式優(yōu)化系統(tǒng)內(nèi)存

2023-06-16 14:11:00

研究監(jiān)督

2020-07-10 09:49:53

數(shù)據(jù)清理數(shù)據(jù)分析查找異常

2009-12-02 09:36:53

IT企業(yè)IT人

2024-01-15 14:44:19

語(yǔ)言模型PaLMAI

2024-12-02 12:24:15

2017-01-04 16:12:23

Kano模型赫茨伯格用戶需求

2021-12-24 10:52:03

微軟操作系統(tǒng)Windows
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 久久99视频 | 成人精品一区二区三区中文字幕 | 久久精品一级 | 麻豆视频国产在线观看 | 亚洲永久在线 | 懂色av色香蕉一区二区蜜桃 | 日韩亚洲视频 | 蜜桃视频在线观看免费视频网站www | 国产免费一区二区三区 | 欧美极品在线观看 | 国产视频三级 | 久久久久久久av麻豆果冻 | 精品粉嫩aⅴ一区二区三区四区 | 欧美日韩国产欧美 | 国产精品亚洲精品日韩已方 | 久久综合久色欧美综合狠狠 | 国产精品特级毛片一区二区三区 | 亚洲女人天堂成人av在线 | 久久91 | 视频国产一区 | 国产剧情一区 | 国产色婷婷精品综合在线播放 | 欧洲国产精品视频 | 一区二区三区视频在线观看 | 欧美一区二区三区高清视频 | 亚洲成人一区二区 | 日韩一区二区三区视频 | 久久精品一区二区三区四区 | 亚洲国产精品久久久久秋霞不卡 | 国产精品99久久久久久宅男 | 国产精品久久国产精品 | 国产偷录视频叫床高潮对白 | 男人天堂国产 | 免费毛片网站在线观看 | jizz在线看片 | 久久免费国产 | 国产成人一区二区三区 | 欧美一区二区三区在线观看视频 | 国产一区中文字幕 | 免费观看一级毛片 | 欧美激情精品久久久久久 |