成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大模型訓(xùn)練流程及 SFT、RLHF 作用簡述

發(fā)布于 2025-7-4 00:09
瀏覽
0收藏

一、大模型訓(xùn)練流程:從預(yù)訓(xùn)練到對齊的三階閉環(huán)

1.1 預(yù)訓(xùn)練階段

基于海量無標(biāo)注數(shù)據(jù)(如互聯(lián)網(wǎng)文本、多模態(tài)數(shù)據(jù))進行自監(jiān)督學(xué)習(xí),通過語言建模(LM)、對比學(xué)習(xí)等任務(wù)建立通用表征能力。典型參數(shù)規(guī)模為千億至萬億級別,需千卡級 GPU 集群訓(xùn)練數(shù)月。

1.2 監(jiān)督微調(diào)(SFT)階段

使用標(biāo)注數(shù)據(jù)(如領(lǐng)域問答、指令遵循)調(diào)整模型參數(shù),使其適配下游任務(wù)。SFT 階段僅需 0.1%-1% 的預(yù)訓(xùn)練數(shù)據(jù)量即可顯著提升特定任務(wù)性能。

1.3 強化學(xué)習(xí)對齊(RLHF)階段

通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型(Reward Model),指導(dǎo)大模型生成符合倫理和安全規(guī)范的內(nèi)容。此階段可將有害輸出率降低 54%-78%。

二、SFT 與 RLHF 的核心作用

2.1 監(jiān)督微調(diào)(SFT)的雙向價值

  • 任務(wù)適配:通過領(lǐng)域數(shù)據(jù)訓(xùn)練,使模型從 “通用知識理解” 轉(zhuǎn)向 “特定任務(wù)執(zhí)行”。例如在醫(yī)療問答中,SFT 可將模型準(zhǔn)確率從通用場景的 75% 提升至專業(yè)領(lǐng)域的 88%。
  • 效率優(yōu)化:僅需少量標(biāo)注數(shù)據(jù)(預(yù)訓(xùn)練數(shù)據(jù)量的 0.1%-1%)即可實現(xiàn)性能提升,避免從頭訓(xùn)練的海量資源消耗。

2.2 強化學(xué)習(xí)對齊(RLHF)的三層優(yōu)化

  • 倫理控制:通過人類偏好數(shù)據(jù)訓(xùn)練獎勵模型,將有害輸出率降低 54%-78%,確保模型輸出符合社會規(guī)范3。
  • 偏好對齊:解決 SFT 的 “目標(biāo) mismatch” 問題 ——SFT 僅學(xué)習(xí) “正確回答” 的概率分布,而 RLHF 能讓模型理解 “人類偏好的回答”(如口語化表達 vs 學(xué)術(shù)化表達)。
  • 動態(tài)進化:通過持續(xù)收集用戶反饋,RLHF 可迭代優(yōu)化模型策略,例如在客服場景中,模型可根據(jù)用戶滿意度反饋自動調(diào)整回答風(fēng)格。

三、關(guān)鍵技術(shù)對比

環(huán)節(jié)

核心目標(biāo)

技術(shù)特點

面試高頻考點

預(yù)訓(xùn)練

構(gòu)建通用語義表征

自監(jiān)督學(xué)習(xí)、萬億級數(shù)據(jù)訓(xùn)練

分布式訓(xùn)練架構(gòu)、數(shù)據(jù)清洗策略

SFT

適配具體任務(wù)

小樣本高效微調(diào)、領(lǐng)域知識注入

LoRA 等參數(shù)高效微調(diào)技術(shù)

RLHF

對齊人類價值觀

獎勵模型訓(xùn)練、PPO 等強化算法

偏好數(shù)據(jù)收集方法、KL 正則項作用

問題:“SFT 為何不能替代 RLHF?” 

SFT 是 token 級學(xué)習(xí),無法解決 “價值觀對齊” 和 “用戶隱性偏好捕捉” 問題,而 RLHF 通過人類反饋機制填補了這一空白。

本文轉(zhuǎn)載自???????鴻煊的學(xué)習(xí)筆記???????,作者:乘風(fēng)破浪jxj

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 欧美精品在线免费观看 | 日韩国产在线观看 | 夜久久| h视频在线免费 | 99福利视频 | 亚洲在线高清 | 在线免费黄色 | 黄网站免费在线 | 午夜在线 | 伊人超碰 | 特级毛片爽www免费版 | 天天操精品视频 | 超碰人人91 | 国产毛片久久久久久久久春天 | 日韩一区二区免费视频 | av在线免费观看网站 | 久久成人国产 | 精品中文字幕久久 | 国产视频一区二区三区四区五区 | 国产成人免费视频 | 国产成人精品午夜 | 毛片a| 中文字幕第100页 | 91av在线看| 日韩一区二区三区在线观看 | 亚洲高清视频在线观看 | 91精品久久久久久久久 | 精品国产一区二区三区免费 | 在线国产一区 | www.婷婷| 精品美女在线观看视频在线观看 | 欧美自拍另类 | 欧美精品久久 | 亚洲视频免费在线观看 | 在线日韩精品视频 | 宅男伊人| 亚洲一区二区久久久 | 久久久久久精 | 国产xxxx岁13xxxxhd | 91精品久久久久久久久中文字幕 | 亚洲精品黑人 |