成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力? 原創(chuàng)

發(fā)布于 2025-2-21 16:17
瀏覽
0收藏

?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。

監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù),像DeepSeek-R1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。

如何去設(shè)計(jì)訓(xùn)練步驟(先SFT再RL,還是直接RL)都需要對(duì)SFT和RL的能力有較深刻的了解。

本篇就以面經(jīng)的形式,探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對(duì)模型記憶與泛化能力的作用。

下面是一個(gè)快捷目錄。

一、SFT和RL分別對(duì)基座大模型的作用和影響是什么?

二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對(duì)不同視覺變體的泛化能力?

三、RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?

四、SFT 在 RL 訓(xùn)練中扮演什么角色?

五、驗(yàn)證迭代次數(shù)如何影響泛化能力

一、SFT和RL分別對(duì)基座大模型的作用和影響是什么?

1.  SFT

1)作用

通過在特定任務(wù),通常為指令格式的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型,使其適應(yīng)下游任務(wù)。

2)影響

  • SFT 傾向于記憶訓(xùn)練數(shù)據(jù),在基于規(guī)則的文本和視覺環(huán)境中都難以泛化到分布外的數(shù)據(jù)。
  • SFT 對(duì)于有效的 RL 訓(xùn)練仍然非常重要:SFT 可以穩(wěn)定模型的輸出格式,使得后續(xù)的 RL 能夠?qū)崿F(xiàn)性能的提升。

2. RL

1)作用

用于使模型與人類偏好對(duì)齊,或訓(xùn)練基礎(chǔ)模型來解決特定任務(wù)。

2)影響

  • RL在基于規(guī)則的文本和視覺環(huán)境中均能展現(xiàn)出泛化能力。
  • RL在復(fù)雜的、多模態(tài)任務(wù)中泛化能力強(qiáng),且可以提升模型潛在的視覺識(shí)別能力,有助于增強(qiáng)視覺領(lǐng)域泛化能力。

總結(jié)就是RL 泛化,SFT 記憶。

二、當(dāng)模型包含視覺組件時(shí),RL/SFT 如何影響其對(duì)不同視覺變體的泛化能力?

這塊其實(shí)主要看多模態(tài)大模型中,視覺變化對(duì)分布外(OOD)泛化的影響。

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

從上圖看,強(qiáng)化學(xué)習(xí)(RL)在規(guī)則變化中展現(xiàn)出泛化能力,而監(jiān)督微調(diào)(SFT)則呈現(xiàn)相反的趨勢(shì)。

3. RL/SFT 如何影響視覺語言模型(VLM)中的視覺識(shí)別能力?


大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

RL提高了視覺識(shí)別準(zhǔn)確率,這也是RL提高了泛化能力的表現(xiàn)。

而SFT降低了視覺識(shí)別準(zhǔn)確率和整體性能。

4. SFT 在 RL 訓(xùn)練中扮演什么角色?

實(shí)驗(yàn)流程是最好在 SFT 之后實(shí)例化 RL,特別是當(dāng)基座模型都還沒有學(xué)會(huì)模板指令的時(shí)候。

大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

上圖是一個(gè)示例,如果沒有 SFT,基礎(chǔ)模型會(huì)表現(xiàn)出較差的指令遵循能力,傾向于生成冗長(zhǎng)、離題且非結(jié)構(gòu)化的響應(yīng)。

這個(gè)問題使得檢索任務(wù)相關(guān)的信息和用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)變得不可能。

當(dāng)主干模型不遵循指令時(shí),SFT(監(jiān)督微調(diào))對(duì)于 RL(強(qiáng)化學(xué)習(xí))訓(xùn)練是必要的。

5. 驗(yàn)證迭代次數(shù)如何影響泛化能力


大模型面經(jīng):SFT和RL如何影響模型的泛化或記憶能力?-AI.x社區(qū)

驗(yàn)證是多步驟訓(xùn)練和評(píng)估流程中的一個(gè)關(guān)鍵組成部分,上圖表明隨著驗(yàn)證步驟的增加,強(qiáng)化學(xué)習(xí)的泛化能力表現(xiàn)更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結(jié)果跟DeepSeek以及o系列推理模型的訓(xùn)練報(bào)告都非常契合,特別是DeepSeek-R1的“SFT->RL->增強(qiáng)SFT->增強(qiáng)RL”這種左腳踩右腳直接起飛的操作。

看來循環(huán)利用SFT和RL,并結(jié)合一些reward模型設(shè)計(jì)、數(shù)據(jù)采用策略可以提升大模型水平,正式開始模型訓(xùn)練前需要儲(chǔ)備的各種經(jīng)驗(yàn)和trick也越來越多了,這塊后續(xù)有機(jī)會(huì)分享一下~

?

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所,作者:喜歡瓦力的卷卷

原文鏈接:??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: a级毛片免费高清视频 | 人妖无码 | 国产片侵犯亲女视频播放 | 91xxx在线观看 | 免费精品视频 | 自拍偷拍精品 | 久久久精彩视频 | 在线观看国产精品一区二区 | 丁香婷婷久久久综合精品国产 | 久久99精品国产 | 免费看一区二区三区 | 欧美日韩免费视频 | 一区二区三区视频 | 91久操网| 日韩在线视频一区 | 日本久久一区二区三区 | 久久69精品久久久久久久电影好 | 欧美一区二区三区国产精品 | 日韩成人av在线 | 91 在线 | 精品国产91久久久久久 | 天堂色| 久久99精品久久久久久国产越南 | 视频一区二区中文字幕 | 中文字幕日韩欧美一区二区三区 | 在线精品亚洲欧美日韩国产 | 小川阿佐美pgd-606在线 | 色综合久 | 久久不射网 | 国产丝袜一区二区三区免费视频 | 日本午夜一区二区三区 | а_天堂中文最新版地址 | 波多野结衣一区二区三区 | 成人免费网视频 | 懂色中文一区二区三区在线视频 | 中文字幕久久精品 | 91精品国产91久久久久久最新 | 国产精品久久久久免费 | 日日干日日色 | 精品一区二区三区不卡 | 日韩亚洲一区二区 |