大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？原創(chuàng)

發(fā)布于 2025-2-21 16:17

瀏覽

0收藏

?本篇分享SFT和RL在大模型訓(xùn)練中起到的作用。

監(jiān)督微調(diào) (SFT) 和強(qiáng)化學(xué)習(xí) (RL)都是目前大模型的基礎(chǔ)模型后訓(xùn)練技術(shù)，像DeepSeek-R1、kimi等的訓(xùn)練方法都將兩種技術(shù)應(yīng)用到了極致。

如何去設(shè)計(jì)訓(xùn)練步驟（先SFT再RL，還是直接RL）都需要對(duì)SFT和RL的能力有較深刻的了解。

本篇就以面經(jīng)的形式，探討SFT、RL兩種不同的后訓(xùn)練范式在基于文本規(guī)則和視覺變體的情況下對(duì)模型記憶與泛化能力的作用。

下面是一個(gè)快捷目錄。

一、SFT和RL分別對(duì)基座大模型的作用和影響是什么？

二、當(dāng)模型包含視覺組件時(shí)，RL/SFT 如何影響其對(duì)不同視覺變體的泛化能力？

三、RL/SFT 如何影響視覺語言模型（VLM）中的視覺識(shí)別能力？

四、SFT 在 RL 訓(xùn)練中扮演什么角色？

五、驗(yàn)證迭代次數(shù)如何影響泛化能力

一、SFT和RL分別對(duì)基座大模型的作用和影響是什么？

1. SFT

1）作用

通過在特定任務(wù)，通常為指令格式的數(shù)據(jù)集上訓(xùn)練預(yù)訓(xùn)練模型，使其適應(yīng)下游任務(wù)。

2）影響

SFT 傾向于記憶訓(xùn)練數(shù)據(jù)，在基于規(guī)則的文本和視覺環(huán)境中都難以泛化到分布外的數(shù)據(jù)。
SFT 對(duì)于有效的 RL 訓(xùn)練仍然非常重要：SFT 可以穩(wěn)定模型的輸出格式，使得后續(xù)的 RL 能夠?qū)崿F(xiàn)性能的提升。

2. RL

1）作用

用于使模型與人類偏好對(duì)齊，或訓(xùn)練基礎(chǔ)模型來解決特定任務(wù)。

2）影響

RL在基于規(guī)則的文本和視覺環(huán)境中均能展現(xiàn)出泛化能力。
RL在復(fù)雜的、多模態(tài)任務(wù)中泛化能力強(qiáng)，且可以提升模型潛在的視覺識(shí)別能力，有助于增強(qiáng)視覺領(lǐng)域泛化能力。

總結(jié)就是RL 泛化，SFT 記憶。

二、當(dāng)模型包含視覺組件時(shí)，RL/SFT 如何影響其對(duì)不同視覺變體的泛化能力？

這塊其實(shí)主要看多模態(tài)大模型中，視覺變化對(duì)分布外（OOD）泛化的影響。

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

從上圖看，強(qiáng)化學(xué)習(xí)（RL）在規(guī)則變化中展現(xiàn)出泛化能力，而監(jiān)督微調(diào)（SFT）則呈現(xiàn)相反的趨勢(shì)。

3. RL/SFT 如何影響視覺語言模型（VLM）中的視覺識(shí)別能力？

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

RL提高了視覺識(shí)別準(zhǔn)確率，這也是RL提高了泛化能力的表現(xiàn)。

而SFT降低了視覺識(shí)別準(zhǔn)確率和整體性能。

4. SFT 在 RL 訓(xùn)練中扮演什么角色？

實(shí)驗(yàn)流程是最好在 SFT 之后實(shí)例化 RL，特別是當(dāng)基座模型都還沒有學(xué)會(huì)模板指令的時(shí)候。

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

上圖是一個(gè)示例，如果沒有 SFT，基礎(chǔ)模型會(huì)表現(xiàn)出較差的指令遵循能力，傾向于生成冗長(zhǎng)、離題且非結(jié)構(gòu)化的響應(yīng)。

這個(gè)問題使得檢索任務(wù)相關(guān)的信息和用于 RL 訓(xùn)練的獎(jiǎng)勵(lì)變得不可能。

當(dāng)主干模型不遵循指令時(shí)，SFT（監(jiān)督微調(diào)）對(duì)于 RL（強(qiáng)化學(xué)習(xí)）訓(xùn)練是必要的。

5. 驗(yàn)證迭代次數(shù)如何影響泛化能力

大模型面經(jīng)：SFT和RL如何影響模型的泛化或記憶能力？-AI.x社區(qū)

驗(yàn)證是多步驟訓(xùn)練和評(píng)估流程中的一個(gè)關(guān)鍵組成部分，上圖表明隨著驗(yàn)證步驟的增加，強(qiáng)化學(xué)習(xí)的泛化能力表現(xiàn)更佳。

上述研究均來自谷歌新作《SFT Memorizes, RL Generalizes: AComparative Study of Foundation Model Post-training》。

目前看起來這篇論文的研究結(jié)果跟DeepSeek以及o系列推理模型的訓(xùn)練報(bào)告都非常契合，特別是DeepSeek-R1的“SFT->RL->增強(qiáng)SFT->增強(qiáng)RL”這種左腳踩右腳直接起飛的操作。

看來循環(huán)利用SFT和RL，并結(jié)合一些reward模型設(shè)計(jì)、數(shù)據(jù)采用策略可以提升大模型水平，正式開始模型訓(xùn)練前需要儲(chǔ)備的各種經(jīng)驗(yàn)和trick也越來越多了，這塊后續(xù)有機(jī)會(huì)分享一下~

文轉(zhuǎn)載自公眾號(hào)瓦力算法學(xué)研所，作者：喜歡瓦力的卷卷

原文鏈接：??https://mp.weixin.qq.com/s/lwdx98rNrAZ48jHPCM8QtQ??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

大模型

SFT

人工智能

贊

回復(fù)