當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因

發(fā)布于 2025-6-18 07:04

瀏覽

0收藏

在大語言模型（LLMs）的發(fā)展歷程中，「規(guī)模效應」始終是性能提升的核心驅(qū)動力。從GPT-3的1750億參數(shù)到GPT-4的萬億級架構(gòu)，模型通過海量文本的「下一個token預測」任務（NTP）學習語言規(guī)律，但這種純粹的自監(jiān)督訓練逐漸暴露出局限性：模型更擅長「記憶」而非「推理」，面對復雜問題時容易陷入「模式匹配」而非邏輯推導。

與此同時，強化學習（RL）在對齊人類偏好（如RLHF）和提升推理能力上展現(xiàn)潛力，但傳統(tǒng)RL依賴昂貴的人工標注或領(lǐng)域特定獎勵函數(shù)，難以在大規(guī)模預訓練中應用。如何讓RL突破數(shù)據(jù)瓶頸，與自監(jiān)督預訓練的 scalability 結(jié)合？微軟研究院聯(lián)合北大、清華提出的強化預訓練（Reinforcement Pre-Training, RPT） 給出了全新答案。

一、RPT的核心思想：從「預測」到「推理」的范式升級

1. 重構(gòu)任務：讓token預測成為推理過程

當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因-AI.x社區(qū)

RPT的核心創(chuàng)新在于將標準的下一個token預測轉(zhuǎn)化為「推理任務」：模型在預測token前，需要生成一段「思維鏈」（chain-of-thought, CoT），通過邏輯推導驗證預測的合理性。例如，當輸入上下文為「Electric force grows with charge」時，傳統(tǒng)NTP直接預測「size」，而RPT要求模型先思考「庫侖定律中電荷與力的關(guān)系」，再得出結(jié)論。

這種轉(zhuǎn)化的關(guān)鍵在于可驗證的獎勵機制：模型每生成一個預測，若與語料庫中的真實token完全匹配（基于字節(jié)級前綴匹配），則獲得獎勵1，否則0。這種「對錯分明」的規(guī)則式獎勵，避免了RLHF中人工標注的主觀性，也杜絕了獎勵黑客（reward hacking）問題。

2. 規(guī)模化RL的秘密：讓未標注文本成為RL訓練集

傳統(tǒng)RLVR（帶可驗證獎勵的強化學習）依賴問答對標注數(shù)據(jù)，而RPT巧妙地將海量未標注文本轉(zhuǎn)化為RL訓練數(shù)據(jù)。具體而言：

當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因-AI.x社區(qū)

這種設(shè)計讓RPT突破了RL的標注瓶頸——互聯(lián)網(wǎng)級別的未標注文本（如網(wǎng)頁、書籍）都能成為RL訓練數(shù)據(jù)，實現(xiàn)了「自監(jiān)督預訓練的規(guī)模」與「RL的推理誘導能力」的融合。

二、RPT的技術(shù)實現(xiàn)：從數(shù)學框架到訓練細節(jié)

1. 數(shù)學定義：從NTP到RPT的目標函數(shù)升級

當大語言模型遇上強化學習：一文讀懂強化預訓練（RPT）如何重塑LLM的推理基因-AI.x社區(qū)

2. 訓練流程：從「單路徑預測」到「多軌跡搜索」

RPT的訓練過程類似「推理軌跡的蒙特卡洛采樣」：

給定上下文 $x_{?
驗證預測是否與真實token匹配，分配二元獎勵（0或1）
使用GRPO算法更新模型參數(shù)，強化高獎勵軌跡的生成概率

以O(shè)mniMATH數(shù)學數(shù)據(jù)集為例，RPT通過熵過濾策略（篩選高難度token），聚焦需要深度推理的預測任務。訓練中采用8k序列長度、(10^{-6}) 學習率，每次采樣8條軌跡（G=8），并通過動態(tài)采樣提升效率。

三、實驗驗證：RPT如何刷新LLM的「推理天花板」

1. 語言建模：準確率提升與規(guī)模效應

在OmniMATH驗證集上，RPT-14B在不同難度token上的預測準確率全面超越基線：

簡單token：45.11% vs 標準NTP的41.60%
困難token：23.75% vs 標準NTP的20.43%

更驚人的是，RPT-14B的性能竟能匹配規(guī)模兩倍的R1-Distill-Qwen-32B，證明其通過推理誘導實現(xiàn)了「參數(shù)效率」的突破。從訓練計算量（FLOPs）與準確率的關(guān)系看，RPT呈現(xiàn)顯著的冪律增長規(guī)律，且在困難數(shù)據(jù)上的擬合優(yōu)度 (R^2) 高達0.989，說明其具備可持續(xù)的規(guī)模化潛力。

2. 下游任務：從「預訓練基礎(chǔ)」到「零樣本能力」

強化微調(diào)（RLFT）：在Skywork-OR1數(shù)據(jù)集上，RPT-14B經(jīng)RLFT后準確率達58.3%，遠超基線模型的52.7%；而傳統(tǒng)NTP繼續(xù)訓練反而導致性能暴跌至13.0%，證明RPT預訓練與RLFT的目標一致性。
零樣本推理：在SuperGPQA（285學科推理）和MMLU-Pro（多任務理解）基準上，RPT-14B的推理模式準確率比14B基線高7-22個百分點，甚至超越32B模型。

3. 推理模式分析：從「模式匹配」到「邏輯探索」

通過關(guān)鍵詞統(tǒng)計，RPT模型的推理軌跡中「假設(shè)生成」（hypothesis）模式使用量比傳統(tǒng)問題解決模型高161.8%，「演繹推理」（deduction）高26.2%。其推理過程兼具高層語義理解（如「向量模長計算」的上下文分析）和底層文本特征判斷（如Markdown格式線索），展現(xiàn)出「多維度推理」能力。

四、行業(yè)影響：RPT如何重塑LLM的訓練范式

1. 打破「預訓練-微調(diào)」的目標鴻溝

傳統(tǒng)LLM預訓練（NTP）與RL微調(diào)的目標存在天然割裂：前者優(yōu)化token概率，后者優(yōu)化任務獎勵。RPT通過將RL引入預訓練階段，使模型從底層學習「推理習慣」，大幅降低后續(xù)RLFT的適配成本。實驗顯示，RPT預訓練的模型在RLFT時僅需少量數(shù)據(jù)即可快速提升，而NTP模型則需要大量數(shù)據(jù)才能勉強適應。

2. 為「通用人工智能」鋪設(shè)推理基石

RPT的核心價值在于將「推理能力」注入預訓練階段，而非依賴下游微調(diào)。這種「從源頭培養(yǎng)思維」的方式，讓模型在零樣本場景下就能展現(xiàn)更強的泛化能力。例如，RPT-14B在MMLU-Pro的「法律」「醫(yī)學」等專業(yè)領(lǐng)域的零樣本準確率比基線高10%以上，證明其具備跨領(lǐng)域推理的潛力。

3. 推動RL與自監(jiān)督學習的深度融合

RPT揭示了一個重要方向：RL不應僅作為微調(diào)工具，而應成為預訓練的核心組件。其通過「可驗證獎勵+大規(guī)模未標注數(shù)據(jù)」的組合，為RL的規(guī)模化應用提供了范式參考。未來，結(jié)合互聯(lián)網(wǎng)級文本與RPT框架，可能催生出推理能力逼近人類的通用模型。

五、挑戰(zhàn)與未來：RPT的下一站在哪里？

盡管RPT展現(xiàn)出強大潛力，當前研究仍存在局限：

數(shù)據(jù)偏差：實驗主要基于數(shù)學文本（OmniMATH），在通用領(lǐng)域（如自然語言理解、代碼生成）的效果有待驗證。
初始化依賴：RPT當前需從推理模型（如Deepseek-R1）初始化，若從標準LM直接訓練，其推理誘導能力是否能保持？
計算成本：多軌跡采樣（G=8）比標準NTP消耗更多算力，如何在效率與效果間平衡？

未來研究可能從以下方向突破：

擴大數(shù)據(jù)規(guī)模：將RPT應用于全網(wǎng)文本，構(gòu)建跨領(lǐng)域推理能力
混合推理框架：結(jié)合「系統(tǒng)1-系統(tǒng)2」雙過程理論，動態(tài)觸發(fā)推理軌跡生成
理論建模：建立RPT的縮放定律（scaling laws），指導模型高效擴展

結(jié)語：推理，才是大模型的「智能內(nèi)核」

從GPT-1到GPT-4，大模型的進化史本質(zhì)是「從記憶到推理」的迭代史。RPT的出現(xiàn)，標志著LLM訓練從「參數(shù)堆砌」轉(zhuǎn)向「思維培養(yǎng)」的關(guān)鍵轉(zhuǎn)折——當模型在預訓練階段就被要求「講道理」，其在下游任務中的「智能表現(xiàn)」便不再是偶然的模式匹配，而是內(nèi)在推理能力的自然流露。

正如論文中所言：「RPT通過重新定義預訓練目標，為LLM注入了更接近人類的思考方式。」在通用人工智能的征程上，這種讓模型「先思考再回答」的訓練范式，或許正是打開下一扇大門的鑰匙。

參考資料

論文原文：Reinforcement Pre-Training: A New Scaling Paradigm for Large Language

Models相關(guān)鏈接：微軟研究院通用AI主頁（https://aka.ms/GeneralAI）

本文轉(zhuǎn)載自??智駐未來??，作者：智駐未來

標簽

語言模型

預訓練

RPT

已于2025-6-18 09:37:13修改

贊

回復