成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<button id="84c6e"></button>

<button id="84c6e"><menu id="84c6e"></menu></button>

<s id="84c6e"></s>

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫

賬號(hào)設(shè)置退出

同時(shí)監(jiān)督和強(qiáng)化的單階段大模型微調(diào)，告別“先背書再刷題”，推理泛化雙提升｜中科院&美團(tuán)等

2025-07-03 08:33:00

人工智能新聞

中國科學(xué)院自動(dòng)化研究所深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)聯(lián)合美團(tuán)，提出一種單階段監(jiān)督-強(qiáng)化微調(diào)方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動(dòng)態(tài)加權(quán)機(jī)制，將兩種訓(xùn)練范式結(jié)合。

通過單階段監(jiān)督微調(diào)與強(qiáng)化微調(diào)結(jié)合，讓大模型在訓(xùn)練時(shí)能同時(shí)利用專家演示和自我探索試錯(cuò)，有效提升大模型推理性能。

中國科學(xué)院自動(dòng)化研究所深度強(qiáng)化學(xué)習(xí)團(tuán)隊(duì)聯(lián)合美團(tuán)，提出一種單階段監(jiān)督-強(qiáng)化微調(diào)方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動(dòng)態(tài)加權(quán)機(jī)制，將兩種訓(xùn)練范式結(jié)合。

圖注：SRFT方法示意圖，展示了對探索試錯(cuò)（rollout）數(shù)據(jù)和演示（demonstration）數(shù)據(jù)的協(xié)同學(xué)習(xí)，以及平衡監(jiān)督和強(qiáng)化信號(hào)的熵感知策略更新。

在大語言模型（LLM）的推理能力提升上，監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)（RL，有時(shí)也稱作強(qiáng)化微調(diào)，RFT）是兩條核心技術(shù)路線。但它們各自都存在瓶頸：

SFT擅長模仿專家解題思路，類似“背書”，能快速為模型打下基礎(chǔ)，但缺點(diǎn)是容易陷入死記硬背，缺乏在新問題上靈活應(yīng)用和尋找最優(yōu)解的能力；

RFT/RL通過不斷試錯(cuò)來探索解題方法，類似“刷題”，能夠發(fā)現(xiàn)更優(yōu)解法，但其探索過程效率低下，容易面臨模式崩潰風(fēng)險(xiǎn)。

因此，目前研究者通常采用兩階段順序方法SFT→RFT/RL：先用SFT學(xué)習(xí)高質(zhì)量數(shù)據(jù)集，再用RFT/RL進(jìn)一步優(yōu)化對齊LLM策略（即先“背完書”再“去刷題”）。

然而，這種串行方式不僅影響學(xué)習(xí)效率，還常常導(dǎo)致模型在“刷題”時(shí)忘了“書本”上的知識(shí)，引發(fā)知識(shí)遺忘等問題，如何讓兩者在同一階段協(xié)同作用，做到“邊背邊練”，成為提升 LLM 推理能力的關(guān)鍵之一。

結(jié)果顯示，SRFT方法能夠同時(shí)從高質(zhì)量演示數(shù)據(jù)（demonstrations）與LLM自身的探索試錯(cuò)(rollouts)中學(xué)習(xí)，在5項(xiàng)數(shù)學(xué)推理任務(wù)中實(shí)現(xiàn)59.1%的平均準(zhǔn)確率，較zero-RL基線提升9.0% ；在三項(xiàng)分布外任務(wù)上取得62.5%的平均準(zhǔn)確率，較zero-RL基線提升10.9% ，展現(xiàn)了卓越的泛化能力。

△SRFT與其它算法的性能對比

分析：面向 LLM 推理的 SFT 和 RL

研究團(tuán)隊(duì)首先對SFT與RL在LLM微調(diào)中的作用進(jìn)行了分析，并深入探究了二者結(jié)合的有效路徑。

SFT和RL對LLM的作用：大錘vs.手術(shù)刀

圖注：LLM 微調(diào)前后分布可視化， (a) SFT 與 RL 前后分布改變示例 (b) 在5個(gè)數(shù)據(jù)集上統(tǒng)計(jì)了分布變化的頻率。

通過對微調(diào)前后模型對token概率的改變進(jìn)行可視化，仔細(xì)分析實(shí)驗(yàn)結(jié)果，可以得到以下發(fā)現(xiàn)：

SFT導(dǎo)致大部分 token （50%以上）的概率分布改變（粗粒度）
RL/RFT只對特定 token （少于2%）進(jìn)行有針對性的調(diào)整，同時(shí)保留了大部分內(nèi)容（細(xì)粒度）

從理論上看，SFT的目標(biāo)是最大化專家數(shù)據(jù)的似然，將專家演示的條件概率分布 “注入” 模型，類似人們通過“背書”學(xué)習(xí)，其梯度公式揭示了其內(nèi)在機(jī)制：

該公式表明，對單個(gè)樣本訓(xùn)練，SFT主要通過提高目標(biāo)標(biāo)記的概率，同時(shí)降低詞匯表中所有其他標(biāo)記的概率，這會(huì)銳化模型的分布，從而產(chǎn)生更具確定性的輸出。通過這種“一刀切”的方式，SFT強(qiáng)制模型去擬合專家數(shù)據(jù)，但也可能因此抑制模型的探索性和多樣性。

訓(xùn)練動(dòng)態(tài)可視化如下圖所示，數(shù)字表示訓(xùn)練后的準(zhǔn)確率。SRFT 通過在結(jié)合兩種方法實(shí)現(xiàn)直接優(yōu)化，到達(dá)與SFT→RL接近的區(qū)域，且無需兩階段轉(zhuǎn)換。

為了進(jìn)一步探究訓(xùn)練動(dòng)態(tài)，研究人員還從模型訓(xùn)練軌跡的角度對幾種微調(diào)方法進(jìn)行了可視化。論文提出了一種新穎的可視化方法。其核心思想是：

將不同模型看作高維空間中的點(diǎn)，通過計(jì)算它們在生成相同回復(fù)（response）時(shí)輸出token概率分布的“距離”，來描繪其在訓(xùn)練過程中的“移動(dòng)軌跡”。

具體而言，論文引入了三個(gè)參考模型——基礎(chǔ)模型（Qwen-2.5-Math-7B）、DeepSeek-R1和QwQ-32B作為坐標(biāo)系，通過模型與參考模型回復(fù)的 teacher forcing 距離來間接測量模型在不同微調(diào)步驟中的訓(xùn)練動(dòng)態(tài)（如果兩個(gè)模型對所有提示（prompt）中的所有回復(fù)token分配相似的概率，則認(rèn)為它們是接近的）。

結(jié)果表明，所有微調(diào)范式在提升性能的同時(shí)，均會(huì)偏離基礎(chǔ)模型空間，此外：

SFT使模型在概率空間中移動(dòng)的距離最遠(yuǎn)，印證了其“大錘”般的全局性影響。
SFT→RL的兩階段路徑揭示了一個(gè)問題：SFT可能將模型推得“過遠(yuǎn)”，后續(xù)的RL反而需要將其“拉回”到離基礎(chǔ)模型更近的區(qū)域才能達(dá)到最優(yōu)，這暗示了串行方法的低效性。
SRFT的單階段路徑則顯得更為直接和高效，它在學(xué)習(xí)專家知識(shí)的同時(shí)，沒有過度偏離初始模型，從而實(shí)現(xiàn)了更精準(zhǔn)的優(yōu)化。

結(jié)合兩種范式：從兩階段到單階段

熵是信息論中的一個(gè)重要概念，它衡量的是隨機(jī)變量的不確定性。在 LLM 的推理過程中，熵可以反映模型輸出分布的不確定性，近期的諸多工作也展示了熵在 LLM 訓(xùn)練中的重要性。

高熵表示模型的輸出分布較為均勻，不確定性較大；低熵則表示模型的輸出分布較為集中，不確定性較小。

圖注：兩種結(jié)合方式的性能、熵變化曲線

在該論文中，研究人員主要從SFT和RL結(jié)合的角度對熵展開了分析，如上圖所示。在RL后進(jìn)行SFT，會(huì)使模型的熵短暫增加，這表明模型在學(xué)習(xí)新的知識(shí)和模式時(shí)，其輸出分布變得更加不確定。

隨著訓(xùn)練的進(jìn)行，熵逐漸降低，模型逐漸收斂，輸出分布變得更加確定，最終提升模型性能。

相比之下，RL在訓(xùn)練過程中則會(huì)使熵顯著降低，模型的輸出分布變得更加集中。這是因?yàn)镽L通過獎(jiǎng)勵(lì)函數(shù)引導(dǎo)模型學(xué)習(xí)特定的策略，使模型更傾向于生成能夠獲得高獎(jiǎng)勵(lì)的輸出。然而，這種低熵的狀態(tài)也可能導(dǎo)致模型的可塑性降低，限制了后續(xù)訓(xùn)練的效果。

圖注：不同結(jié)合方式的訓(xùn)練效率

論文接著比較了純RL、不同SFT步數(shù)的順序SFT→RL方法，以及單階段SFT+RL方法。結(jié)果表明，與順序SFT→RL方法相比，單階段SFT+RL方法實(shí)現(xiàn)了更優(yōu)的訓(xùn)練效率。單階段SFT+RL方法通過統(tǒng)一優(yōu)化有效利用演示數(shù)據(jù)，提速2.28倍。這種方法能夠直接針對目標(biāo)進(jìn)行策略優(yōu)化，同時(shí)保留從數(shù)據(jù)集中通過監(jiān)督學(xué)習(xí)進(jìn)行知識(shí)蒸餾的優(yōu)勢。

方法：監(jiān)督強(qiáng)化微調(diào)（SRFT）

本論文提出SRFT (Supervised Reinforcement Fine-Tuning)，將監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)微調(diào)(RFT/RL)單階段結(jié)合。以下是對方法的描述：

核心思想

SRFT的核心在于其單階段學(xué)習(xí)機(jī)制：通過SFT實(shí)現(xiàn)粗粒度行為策略逼近，通過RL實(shí)現(xiàn)細(xì)粒度策略精化，借助于單階段訓(xùn)練，將微調(diào)同時(shí)應(yīng)用于演示數(shù)據(jù)和自生成的試錯(cuò)數(shù)據(jù)。

從演示數(shù)據(jù)(demonstration)中學(xué)習(xí)

分布不匹配緩解策略

其中：

正樣本目標(biāo)：類似于監(jiān)督微調(diào)，最大化正確響應(yīng)的似然
負(fù)樣本目標(biāo)：實(shí)施似然最小化，減少分配給錯(cuò)誤響應(yīng)的概率

單階段集成方法

統(tǒng)一損失函數(shù)

通過同時(shí)利用演示數(shù)據(jù)和自探索試錯(cuò)數(shù)據(jù)，SRFT有效平衡了SFT的粗粒度調(diào)整與RL的細(xì)粒度優(yōu)化。總損失函數(shù)結(jié)合了所有四個(gè)組件：

關(guān)鍵機(jī)制總結(jié)

1. 熵感知權(quán)重：兩種熵感知權(quán)重機(jī)制確保訓(xùn)練穩(wěn)定性

：當(dāng)策略展現(xiàn)高熵（不確定性）時(shí)，權(quán)值降低，減少SFT對訓(xùn)練的影響
：當(dāng)熵較高時(shí)，使RL訓(xùn)練中正樣本訓(xùn)練的權(quán)值上升，使熵下降，從而促進(jìn)熵的穩(wěn)定

2. 單階段優(yōu)化：直接朝著目標(biāo)函數(shù)優(yōu)化，同時(shí)保持來自數(shù)據(jù)集的監(jiān)督學(xué)習(xí)的知識(shí)蒸餾優(yōu)勢

這種方法使SRFT能夠同時(shí)從演示數(shù)據(jù)和自探索試錯(cuò)數(shù)據(jù)中受益，同時(shí)通過兩種熵感知權(quán)重機(jī)制保持穩(wěn)定的訓(xùn)練動(dòng)態(tài)。

結(jié)果：性能顯著優(yōu)于zero-RL方法，與其它結(jié)合方法相比提升明顯

關(guān)鍵發(fā)現(xiàn)

主要實(shí)驗(yàn)結(jié)果（包含5個(gè)數(shù)學(xué)推理基準(zhǔn)和3個(gè)非數(shù)學(xué)基準(zhǔn)）：

仔細(xì)分析SRFT與SFT、RL以及SFT與RL結(jié)合相關(guān)方法的性能比較，可以得到以下發(fā)現(xiàn)：

顯著性能提升：

SRFT在五個(gè)挑戰(zhàn)性競賽級(jí)推理基準(zhǔn)上取得了59.1%的平均準(zhǔn)確率
比最佳zero-RL基線方法提升了+9.0個(gè)百分點(diǎn)
比SFT方法提升了+4.8個(gè)百分點(diǎn)
比SFT+RL組合方法提升了+3.4個(gè)百分點(diǎn)

泛化能力優(yōu)秀：

平均分?jǐn)?shù): SRFT取得62.5分，比最佳基線提升+4.7個(gè)百分點(diǎn)
跨域表現(xiàn): 在所有三個(gè)分布外基準(zhǔn)上都表現(xiàn)出色

訓(xùn)練動(dòng)態(tài)分析：更穩(wěn)、更長、更高效

△訓(xùn)練動(dòng)態(tài)曲線（獎(jiǎng)勵(lì)、回復(fù)長度、熵）

訓(xùn)練獎(jiǎng)勵(lì)動(dòng)態(tài)

SRFT相比純RL實(shí)現(xiàn)了更快的性能改進(jìn)，提速2.33倍
兩種方法都顯示出訓(xùn)練獎(jiǎng)勵(lì)的上升趨勢
SRFT的收斂更加穩(wěn)定

響應(yīng)長度變化

RL：傾向于生成更簡潔的響應(yīng)
SRFT：顯示出響應(yīng)的逐步延長，表明發(fā)展出更全面詳細(xì)的推理過程
推理質(zhì)量：響應(yīng)長度的增加表明模型發(fā)展出更深入的推理過程

訓(xùn)練熵動(dòng)態(tài)

RL: 表現(xiàn)出快速的熵下降
SRFT: 維持更穩(wěn)定的熵，表明策略能夠在訓(xùn)練期間繼續(xù)探索
訓(xùn)練穩(wěn)定性: 熵感知權(quán)重機(jī)制的有效性得到驗(yàn)證

總結(jié)

該工作分析探究了SFT與RL在LLM推理任務(wù)中各自的特點(diǎn)與結(jié)合方式，提出的SRFT方法通過基于熵的權(quán)重機(jī)制實(shí)現(xiàn)了SFT與RL的單階段結(jié)合。SRFT成功地在單階段訓(xùn)練流程中實(shí)現(xiàn)了知識(shí)學(xué)習(xí)（SFT）與自主探索（RFT/RL）的動(dòng)態(tài)平衡 ，在多項(xiàng)任務(wù)上取得了推理性能和泛化性能雙提升。

更多研究細(xì)節(jié)，可參考原論文。

項(xiàng)目網(wǎng)頁: https://anonymous.4open.science/w/SRFT2025
論文鏈接: https://arxiv.org/abs/2506.19767
模型鏈接: https://huggingface.co/Yuqian-Fu/SRFT

責(zé)任編輯：張燕妮來源：量子位

AI 自動(dòng)化訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板： 99re在线视频观看 | 欧美视频第二页 | 亚洲日韩欧美一区二区在线 | 精品欧美一区二区三区久久久小说 | 亚洲一区二区精品视频 | 国产高清一区二区三区 | 欧美一级在线观看 | 久久精品小视频 | 亚洲男人天堂2024 | 九九免费视频 | 一区二区不卡高清 | 国产精品一区二区三区99 | 福利视频网站 | 亚洲午夜av久久乱码 | 性色av一区| 久久a久久 | 亚洲一区二区三区四区五区午夜 | 国产成人综合一区二区三区 | 日韩av手机在线观看 | 久国产| 国产在线激情视频 | 亚洲精品中文字幕 | 巨大黑人极品videos精品 | 高清国产一区二区 | 日韩一级电影免费观看 | 日本综合在线观看 | 天天影视亚洲综合网 | 欧美一二区 | 国产成人精品综合 | 精品国产乱码久久久久久丨区2区 | 中国免费黄色片 | 亚洲一区二区三区桃乃木香奈 | 殴美黄色录像 | 国产真实精品久久二三区 | 国产传媒| 免费观看一级视频 | 亚洲综合在线播放 | 美女三区| 99re热精品视频国产免费 | 中文字幕在线免费观看 | 精品乱人伦一区二区三区 |

<source id="qdaew"></source>

<abbr id="qdaew"></abbr>

<u id="qdaew"><tbody id="qdaew"><label id="qdaew"></label></tbody></u>

<u id="qdaew"><tbody id="qdaew"><s id="qdaew"></s></tbody></u>

<button id="qdaew"></button>

<mark id="qdaew"><option id="qdaew"><label id="qdaew"></label></option></mark>