當大語言模型遇上強化學習:一文讀懂強化預訓練(RPT)如何重塑LLM的推理基因
在大語言模型(LLMs)的發(fā)展歷程中,「規(guī)模效應」始終是性能提升的核心驅(qū)動力。從GPT-3的1750億參數(shù)到GPT-4的萬億級架構(gòu),模型通過海量文本 的「下一個token預測」任務(NTP)學習語言規(guī)律,但這種純粹的自監(jiān)督訓練逐漸暴露出局限性:模型更擅長「記憶」而非「推理」,面對復雜問題時容易陷入「模式匹配」而非邏輯推導。
與此同時,強化學習(RL)在對齊人類偏好(如RLHF)和提升推理能力上展現(xiàn)潛力,但傳統(tǒng)RL依賴昂貴的人工標注或領(lǐng)域特定獎勵函數(shù),難以在大規(guī)模預訓練中應用。如何讓RL突破數(shù)據(jù)瓶頸,與自監(jiān)督預訓練的 scalability 結(jié)合?微軟研究院聯(lián)合北大、清華提出的強化預訓練(Reinforcement Pre-Training, RPT) 給出了全新答案。
一、RPT的核心思想:從「預測」到「推理」的范式升級
1. 重構(gòu)任務:讓token預測成為推理過程
RPT的核心創(chuàng)新在于將標準的下一個token預測轉(zhuǎn)化為「推理任務」:模型在預測token前,需要生成一段「思維鏈」(chain-of-thought, CoT),通過邏輯推導驗證預測的合理性。例如,當輸入上下文為「Electric force grows with charge」時,傳統(tǒng)NTP直接預測「size」,而RPT要求模型先思考「庫侖定律中電荷與力的關(guān)系」,再得出結(jié)論。
這種轉(zhuǎn)化的關(guān)鍵在于可驗證的獎勵機制:模型每生成一個預測,若與語料庫中的真實token完全匹配(基于字節(jié)級前綴匹配),則獲得獎勵1,否則0。這種「對錯分明」的規(guī)則式獎勵,避免了RLHF中人工標注的主觀性,也杜絕了獎勵黑客(reward hacking)問題。
2. 規(guī)模化RL的秘密:讓未標注文本成為RL訓練集
傳統(tǒng)RLVR(帶可驗證獎勵的強化學習)依賴問答對標注數(shù)據(jù),而RPT巧妙地將海量未標注文本轉(zhuǎn)化為RL訓練數(shù)據(jù)。具體而言:
這種設(shè)計讓RPT突破了RL的標注瓶頸——互聯(lián)網(wǎng)級別的未標注文本(如網(wǎng)頁、書籍)都能成為RL訓練數(shù)據(jù),實現(xiàn)了「自監(jiān)督預訓練的規(guī)模」與「RL的推理誘導能力」的融合。
二、RPT的技術(shù)實現(xiàn):從數(shù)學框架到訓練細節(jié)
1. 數(shù)學定義:從NTP到RPT的目標函數(shù)升級
2. 訓練流程:從「單路徑預測」到「多軌跡搜索」
RPT的訓練過程類似「推理軌跡的蒙特卡洛采樣」:
- 給定上下文 $x_{?
- 驗證預測是否與真實token匹配,分配二元獎勵(0或1)
- 使用GRPO算法更新模型參數(shù),強化高獎勵軌跡的生成概率
以O(shè)mniMATH數(shù)學數(shù)據(jù)集為例,RPT通過熵過濾策略(篩選高難度token),聚焦需要深度推理的預測任務。訓練中采用8k序列長度、(10^{-6}) 學習率,每次采樣8條軌跡(G=8),并通過動態(tài)采樣提升效率。
三、實驗驗證:RPT如何刷新LLM的「推理天花板」
1. 語言建模:準確率提升與規(guī)模效應
在OmniMATH驗證集上,RPT-14B在不同難度token上的預測準確率全面超越基線:
- 簡單token:45.11% vs 標準NTP的41.60%
- 困難token:23.75% vs 標準NTP的20.43%
更驚人的是,RPT-14B的性能竟能匹配規(guī)模兩倍的R1-Distill-Qwen-32B,證明其通過推理誘導實現(xiàn)了「參數(shù)效率」的突破。從訓練計算量(FLOPs)與準確率的關(guān)系看,RPT呈現(xiàn)顯著的冪律增長規(guī)律,且在困難數(shù)據(jù)上的擬合優(yōu)度 (R^2) 高達0.989,說明其具備可持續(xù)的規(guī)模化潛力。
2. 下游任務:從「預訓練基礎(chǔ)」到「零樣本能力」
- 強化微調(diào)(RLFT):在Skywork-OR1數(shù)據(jù)集上,RPT-14B經(jīng)RLFT后準確率達58.3%,遠超基線模型的52.7%;而傳統(tǒng)NTP繼續(xù)訓練反而導致性能暴跌至13.0%,證明RPT預訓練與RLFT的目標一致性。
- 零樣本推理:在SuperGPQA(285學科推理)和MMLU-Pro(多任務理解)基準上,RPT-14B的推理模式準確率比14B基線高7-22個百分點,甚至超越32B模型。
3. 推理模式分析:從「模式匹配」到「邏輯探索」
通過關(guān)鍵詞統(tǒng)計,RPT模型的推理軌跡中「假設(shè)生成」(hypothesis)模式使用量比傳統(tǒng)問題解決模型高161.8%,「演繹推理」(deduction)高26.2%。其推理過程兼具高層語義理解(如「向量模長計算」的上下文分析)和底層文本特征判斷(如Markdown格式線索),展現(xiàn)出「多維度推理」能力。
四、行業(yè)影響:RPT如何重塑LLM的訓練范式
1. 打破「預訓練-微調(diào)」的目標鴻溝
傳統(tǒng)LLM預訓練(NTP)與RL微調(diào)的目標存在天然割裂:前者優(yōu)化token概率,后者優(yōu)化任務獎勵。RPT通過將RL引入預訓練階段,使模型從底層學習「推理習慣」,大幅降低后續(xù)RLFT的適配成本。實驗顯示,RPT預訓練的模型在RLFT時僅需少量數(shù)據(jù)即可快速提升,而NTP模型則需要大量數(shù)據(jù)才能勉強適應。
2. 為「通用人工智能」鋪設(shè)推理基石
RPT的核心價值在于將「推理能力」注入預訓練階段,而非依賴下游微調(diào)。這種「從源頭培養(yǎng)思維」的方式,讓模型在零樣本場景下就能展現(xiàn)更強的泛化能力。例如,RPT-14B在MMLU-Pro的「法律」「醫(yī)學」等專業(yè)領(lǐng)域的零樣本準確率比基線高10%以上,證明其具備跨領(lǐng)域推理的潛力。
3. 推動RL與自監(jiān)督學習的深度融合
RPT揭示了一個重要方向:RL不應僅作為微調(diào)工具,而應成為預訓練的核心組件。其通過「可驗證獎勵+大規(guī)模未標注數(shù)據(jù)」的組合,為RL的規(guī)模化應用提供了范式參考。未來,結(jié)合互聯(lián)網(wǎng)級文本與RPT框架,可能催生出推理能力逼近人類的通用模型。
五、挑戰(zhàn)與未來:RPT的下一站在哪里?
盡管RPT展現(xiàn)出強大潛力,當前研究仍存在局限:
- 數(shù)據(jù)偏差:實驗主要基于數(shù)學文本(OmniMATH),在通用領(lǐng)域(如自然語言理解、代碼生成)的效果有待驗證。
- 初始化依賴:RPT當前需從推理模型(如Deepseek-R1)初始化,若從標準LM直接訓練,其推理誘導能力是否能保持?
- 計算成本:多軌跡采樣(G=8)比標準NTP消耗更多算力,如何在效率與效果間平衡?
未來研究可能從以下方向突破:
- 擴大數(shù)據(jù)規(guī)模:將RPT應用于全網(wǎng)文本,構(gòu)建跨領(lǐng)域推理能力
- 混合推理框架:結(jié)合「系統(tǒng)1-系統(tǒng)2」雙過程理論,動態(tài)觸發(fā)推理軌跡生成
- 理論建模:建立RPT的縮放定律(scaling laws),指導模型高效擴展
結(jié)語:推理,才是大模型的「智能內(nèi)核」
從GPT-1到GPT-4,大模型的進化史本質(zhì)是「從記憶到推理」的迭代史。RPT的出現(xiàn),標志著LLM訓練從「參數(shù)堆砌」轉(zhuǎn)向「思維培養(yǎng)」的關(guān)鍵轉(zhuǎn)折——當模型在預訓練階段就被要求「講道理」,其在下游任務中的「智能表現(xiàn)」便不再是偶然的模式匹配,而是內(nèi)在推理能力的自然流露。
正如論文中所言:「RPT通過重新定義預訓練目標,為LLM注入了更接近人類的思考方式。」在通用人工智能的征程上,這種讓模型「先思考再回答」的訓練范式,或許正是打開下一扇大門的鑰匙。
參考資料
論文原文:Reinforcement Pre-Training: A New Scaling Paradigm for Large Language
Models相關(guān)鏈接:微軟研究院通用AI主頁(https://aka.ms/GeneralAI)
本文轉(zhuǎn)載自??智駐未來??,作者:智駐未來
