大模型訓(xùn)練流程及 SFT、RLHF 作用簡述

發(fā)布于 2025-7-4 00:09

瀏覽

0收藏

一、大模型訓(xùn)練流程：從預(yù)訓(xùn)練到對齊的三階閉環(huán)

1.1 預(yù)訓(xùn)練階段

基于海量無標(biāo)注數(shù)據(jù)（如互聯(lián)網(wǎng)文本、多模態(tài)數(shù)據(jù)）進行自監(jiān)督學(xué)習(xí)，通過語言建模（LM）、對比學(xué)習(xí)等任務(wù)建立通用表征能力。典型參數(shù)規(guī)模為千億至萬億級別，需千卡級 GPU 集群訓(xùn)練數(shù)月。

1.2 監(jiān)督微調(diào)（SFT）階段

使用標(biāo)注數(shù)據(jù)（如領(lǐng)域問答、指令遵循）調(diào)整模型參數(shù)，使其適配下游任務(wù)。SFT 階段僅需 0.1%-1% 的預(yù)訓(xùn)練數(shù)據(jù)量即可顯著提升特定任務(wù)性能。

1.3 強化學(xué)習(xí)對齊（RLHF）階段

通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型（Reward Model），指導(dǎo)大模型生成符合倫理和安全規(guī)范的內(nèi)容。此階段可將有害輸出率降低 54%-78%。

二、SFT 與 RLHF 的核心作用

2.1 監(jiān)督微調(diào)（SFT）的雙向價值

任務(wù)適配：通過領(lǐng)域數(shù)據(jù)訓(xùn)練，使模型從 “通用知識理解” 轉(zhuǎn)向 “特定任務(wù)執(zhí)行”。例如在醫(yī)療問答中，SFT 可將模型準(zhǔn)確率從通用場景的 75% 提升至專業(yè)領(lǐng)域的 88%。
效率優(yōu)化：僅需少量標(biāo)注數(shù)據(jù)（預(yù)訓(xùn)練數(shù)據(jù)量的 0.1%-1%）即可實現(xiàn)性能提升，避免從頭訓(xùn)練的海量資源消耗。

2.2 強化學(xué)習(xí)對齊（RLHF）的三層優(yōu)化

倫理控制：通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型，將有害輸出率降低 54%-78%，確保模型輸出符合社會規(guī)范3。
偏好對齊：解決 SFT 的 “目標(biāo) mismatch” 問題 ——SFT 僅學(xué)習(xí) “正確回答” 的概率分布，而 RLHF 能讓模型理解 “人類偏好的回答”（如口語化表達 vs 學(xué)術(shù)化表達）。
動態(tài)進化：通過持續(xù)收集用戶反饋，RLHF 可迭代優(yōu)化模型策略，例如在客服場景中，模型可根據(jù)用戶滿意度反饋自動調(diào)整回答風(fēng)格。

三、關(guān)鍵技術(shù)對比

環(huán)節(jié)	核心目標(biāo)	技術(shù)特點	面試高頻考點
預(yù)訓(xùn)練	構(gòu)建通用語義表征	自監(jiān)督學(xué)習(xí)、萬億級數(shù)據(jù)訓(xùn)練	分布式訓(xùn)練架構(gòu)、數(shù)據(jù)清洗策略
SFT	適配具體任務(wù)	小樣本高效微調(diào)、領(lǐng)域知識注入	LoRA 等參數(shù)高效微調(diào)技術(shù)
RLHF	對齊人類價值觀	獎勵模型訓(xùn)練、PPO 等強化算法	偏好數(shù)據(jù)收集方法、KL 正則項作用