LLM 的 SFT 與 RL:差異幾何?
在大型語言模型(LLM)的訓練領域,監督微調(SFT)和強化學習(RL)是兩種備受矚目的訓練策略。盡管它們各自有著獨特的機制和側重點,但筆者經過深入研究和實踐觀察發現,二者之間的差別并非如表面上那般顯著,以下是具體的分析與對比。
一、核心原理的相近性
- SFT 的本質 :SFT 主要是利用標注好的數據集對預訓練的 LLM 進行進一步訓練,通過最小化模型輸出與標注答案之間的差異,來調整模型的參數。例如,在文本生成任務中,給定輸入 “請描述一下春天的景色”,標注數據可能是一段優美的描寫文字。模型通過對比自身生成的內容和標注內容,在交叉熵損失函數等的引導下,不斷優化自身對語言的組織和表達能力,使其更貼合人類的寫作風格和語義邏輯。
- RL 的核心 :RL 則是讓模型將輸出視為一系列的動作決策,根據預設的獎勵函數來評估每個動作(即生成的文本片段)的好壞,從而調整策略以獲取最大的長期獎勵。以對話系統為例,模型在與用戶交互時,每發出一條回復(動作),會根據用戶反饋(如回復的滿意度、對話的連貫性等)獲得獎勵信號。若用戶對某條回復表示滿意,模型就會強化生成類似回復的策略。從本質上看,這一過程其實也是在不斷拉近模型輸出與 “理想答案”(能獲得高獎勵的輸出)之間的距離,與 SFT 的目標優化方向有著異曲同工之妙。
二、數據利用方式的共通性
- SFT 的數據依賴 :SFT 高度依賴高質量、準確標注的數據。這些數據通常由領域專家或者經過嚴格篩選的標注人員生成,以確保模型能夠學習到正確的知識和模式。例如在法律文本生成任務中,需要專業的法律人士對大量的案例分析、法律條款解釋等文本進行標注,模型依據這些標注數據進行學習,逐步掌握法律語言的嚴謹表達和邏輯結構。
- RL 的數據拓展 :RL 雖然在訓練初期可能也參考一些初始的示例數據來初始化策略,但更重要的是在訓練過程中不斷與環境交互產生新的數據。這些交互數據基于模型當前的策略產出,又反過來影響策略的更新。然而,從宏觀層面來看,RL 也是在利用一種動態生成的 “數據”(包含了環境反饋信息),和 SFT 利用靜態標注數據一樣,都是為了給模型提供學習和改進的依據,讓模型在特定任務場景下生成更優質的文本內容,只是數據的來源和形式有所不同。
三、模型能力提升的相似表現
- 文本質量優化 :無論是經過 SFT 還是 RL 訓練的 LLM,在文本質量方面往往都能取得顯著提升。以新聞報道生成為例,經過 SFT 的模型能夠更準確地把握新聞事件的關鍵信息、遵循新聞寫作的規范格式和語言風格;而通過 RL 訓練的模型則在保持信息準確的基礎上,還能根據一些更具個性化的指標(如吸引讀者眼球的程度、標題的吸睛效果等)來優化生成的新聞內容,使文本在不同維度上都更符合任務要求和用戶的期望。
- 邏輯連貫性增強 :在處理需要較強邏輯推理的文本生成任務時,如學術論文摘要生成、故事續寫等,SFT 和 RL 都能幫助模型提升邏輯連貫性。SFT 通過大量的標注示例讓模型學習到正確的邏輯結構和行文脈絡;RL 則通過獎勵信號引導模型在生成過程中避免邏輯跳躍、前后矛盾等問題,使得生成文本的邏輯性更符合人類的認知和理解方式。
四、SFT 與 RL 的實際差異
- 優化重點與方式 :SFT 的優化重點在于精準匹配人工標注數據所體現的特定模式和答案。它直接以減少輸出與目標答案之間的差異為優化目標,采用梯度下降等傳統監督學習優化算法。例如,在法律文書生成任務中,SFT 嚴格按照標準法律條文表述和格式進行訓練,生成的文本在格式和內容準確性上與標準答案高度一致。而 RL 更關注整體任務的完成效果,如在生成長篇故事創作中,其不僅考慮每一步生成的合理性,更注重整個故事的吸引力、連貫性和主題契合度等綜合因素,通過不斷嘗試和調整策略來平衡局部和全局的優化效果,采用如策略梯度等強化學習算法進行優化,這與 SFT 的直接匹配優化形成鮮明對比。
- 獎勵信號的來源與復雜性 :SFT 中的 “獎勵信號” 實際上是明確的、基于人工標注且相對簡單的損失函數計算結果,直接反映了當前輸出與目標的差異。而 RL 的獎勵信號來源多樣且復雜,除了人工設計的獎勵函數外,還可以來自環境交互中各種動態因素。例如在智能客服對話場景下,RL 的獎勵信號可以是客戶對回復的滿意度反饋(如好評、差評等)、對話時長是否合理、問題解決率等多個維度綜合而成,這些復雜的獎勵信號使得 RL 在訓練過程中面臨更多的不確定性,需要更復雜的機制來平衡不同獎勵因素之間的關系,以達到最優策略。
- 模型表現的多樣性與風險性 :SFT 由于緊密遵循人工標注數據,其生成結果通常比較穩定、可預測,在特定任務中的表現較為可靠,但容易受限于標注數據的多樣性和質量,可能在面對新穎場景或問題時出現生搬硬套的情況。例如,在醫學診斷文本生成任務中,如果 SFT 的訓練數據主要集中在常見病癥,對于罕見病癥的診斷描述可能就顯得不夠靈活和準確。而 RL 由于其探索型的學習方式,有機會生成更多樣化的文本,但也存在一定的風險。比如在創意寫作領域,RL 可能生成一些極具創新性但又略顯不符合常規邏輯的內容,需要后續的驗證和篩選機制來確保其質量達到預期標準。
五、結合案例的深度對比
以機器翻譯任務為例,從 SFT 角度出發,我們收集大量專業翻譯人員翻譯的人工標注句子對。模型通過 SFT 學習源語言句子到目標語言句子的轉換模式,像學習將 “hello” 翻譯為 “你好”,通過不斷調整參數,使得翻譯結果在語法、詞匯搭配、語義準確性等方面逐步趨近于人工翻譯標準,其優化過程較為直接且穩定,重點解決的是如何準確將一種語言的表達精確轉換為另一種語言對應的常見標準表達。
而從 RL 角度,在機器翻譯中可以設計獎勵信號,如翻譯結果的流暢性(由語言模型評估其在目標語言中的語言流暢程度)、忠實度(與源語言相比,是否準確傳達了原意)等綜合指標。模型在生成翻譯文本時,不是單純地追求與固定人工翻譯的一致,而是根據這些獎勵信號,嘗試在多輪生成和反饋中,找到在流暢性和忠實度之間達到最佳平衡的翻譯策略,可能生成與人工翻譯稍有不同的表達,但整體質量更優,更具且適應不同語言風格和語境的能力。