首創Mid-training范式破解RL奧秘,Llama終于追平Qwen!
近期,一份來自上海創智學院、上海交通大學的前沿研究論文吸引了人工智能領域的廣泛關注。該論文深入探討了不同基礎語言模型家族(如 Llama 和 Qwen)在強化學習(RL)訓練中迥異表現的背后原因,并提出創新性的中期訓練(mid-training)策略,成功地將 Llama 模型改造成高度適配強化學習的推理基礎模型,顯著縮小了其與天生擅長 RL 擴展的 Qwen 模型之間的性能差距,為下一代 reasoning 能力 AI 系統的開發提供了關鍵的科學基礎和技術路徑。
論文發布后在社交媒體引發廣泛關注,Meta AI 研究科學家、即將赴 UMass Amherst 任助理教授的 Wenting Zhao 率先盛贊:“Truly impressed by how an academic lab just figured out a lot of mysteries in mid-training to close the RL gap between Llama and Qwen。” 此外,卡內基梅隆大學副教授 Graham Neubig、MIT CSAIL/Databricks Research 研究科學家,DSPy 項目的開發者 Omar Khattab 以及 AI2 數據負責人 Loca Soldaini 也共同肯定了這項系統性分析的重要價值。來自 Pleias AI Lab 的研究員 Alexander Doria 指出,他們的獨立實驗也證明,只要配合適當的數據預處理,任何模型都能顯著提升 RLVR 或 RL 性能,進一步佐證了該方法的普適性。
此外,和 Octothinker 一同發布的 MegaMath-Web-Pro-Max 數據集發布即獲得下載熱潮,使用者覆蓋了 MIT、EPFL、UW、Columbia、NUS、CMU、Princeton、THU、HKUST 等諸多頂尖高校,以及 Apple、Microsoft、TII、Moonshot、DatologyAI、AI2、IBM、Cohere、Tencent 等知名科研機構和企業,體現了學術界和工業界對這一工作的高度重視。
- 論文鏈接:https://arxiv.org/abs/2506.20512
- 代碼倉庫:https://github.com/GAIR-NLP/OctoThinker
- 開源模型 & 數據:https://huggingface.co/OctoThinker
研究團隊通過大規模 mid-training 成功將 Llama 模型改造成 highly RL-compatible 的推理基礎模型,在數學推理上可以與 Qwen 媲美。
研究背景
將大規模強化學習(RL)引入語言模型顯著提升了復雜推理能力,尤其是在數學競賽題解等高難度任務上。然而,近期的各項研究呈現出一系列耐人尋味的現象:(i) 只有 Qwen 系列基礎模型表現出近乎 “魔法般” 的 RL 提升;(ii) 關鍵的 Aha moment 似乎主要在數學場景中出現;(iii) 不同評測設置往往暗含偏差,影響對 RL 成效的判斷;(iv) RL 在下游看似 “歲月靜好”,卻在很大程度上依賴上游的 Pre-/Mid-training 質量 ^[1]。
與此同時,團隊和其他研究者們都發現,盡管 Qwen 在 RL 擴展上高度穩健,Llama 卻頻繁出現提前給出答案和重復輸出,難以獲得同等級的性能增益。這一系列對比引出了核心科學問題:哪些基座特性決定了模型對 RL scaling 的適應性?Mid-training 能否作為可控干預手段,彌合不同基座在 RL 中的表現鴻溝?
為了探索這些問題,團隊毫無保留地交出了一份詳盡的技術報告記錄了他們的研究過程,和一份完全開源的數據方案和基于 Llama 充分強化性能的新系列模型 OctoThinker。
核心問題:為什么 RL 訓練在 Llama 上頻頻失效?
當 Qwen 系列模型通過強化學習(如 PPO、GRPO)在數學推理任務上獲得顯著提升時,同體量的 Llama 模型卻常陷入重復輸出或過早給出答案的困境。如下圖所示,Llama 系列模型在直接進行強化學習訓練的時候,總是會遇到 Reward Hacking、表現提升有限等一系列問題。
深入挖掘:通過可控的中期訓練探索關鍵因素
研究團隊通過對 Llama-3.2-3B 進行大量的可控 mid-training 實驗(每次實驗訓練 20B tokens),然后進行強化學習訓練觀察訓練動態。
中等訓練策略的關鍵發現
- 高質量數學語料庫的重要性:研究發現,像 MegaMath-Web-Pro 這樣的高質量數學語料庫,相較于 FineMath-4plus 等現有替代方案,能顯著提升基礎模型和 RL 性能。例如,在使用 MegaMath-Web-Pro 時,模型在下游 RL 任務中的表現明顯優于使用 FineMath-4plus 的情況。
- QA 格式數據與指令數據的增益:在高質量數學預訓練語料庫基礎上,加入 QA 樣式數據(尤其是長鏈推理示例)可增強 RL 效果,而少量指令數據的引入能進一步釋放 QA 數據潛力。研究發現,指令數據可以幫助模型更好地理解任務要求,從而在 RL 階段表現更佳。
- 長鏈推理的雙刃劍效應:長鏈推理雖能提升推理深度,但也可能引發模型響應冗長及 RL 訓練不穩定問題,凸顯數據格式化的重要性。例如,在實驗中發現,模型在處理長鏈推理數據時容易出現輸出過長或訓練過程中的性能波動。為此研究團隊通過以下方案來解決訓練不穩定問題:
- 設計指令增強提示模板,抑制重復輸出(相比基礎模板錯誤率↓37%)
- 設置漸進最大響應長度調度器,按照訓練進度解決長鏈推理引發的訓練不穩定
- 中等訓練規模擴展的效益:增加中等訓練數據量可帶來更強勁的下游 RL 性能,即使基礎模型評估中未明顯體現這些增益。這表明,中等訓練階段的擴展對于提升模型的最終 RL 表現具有重要意義。
自建高質量數學語料庫
MegaMath-Web-Pro-Max
在準備語料時,團隊還發現了另一個問題,即開源高質量語料的缺乏。以預訓練語料為例,目前最高質量的數學語料 MegaMath-Web-Pro 包含了不到 20B tokens,但如果混合質量稍低的 FineMath 語料,則容易出現 RL 訓練時的不穩定。
為了支持大規模消融研究和中期訓練,研究團隊創建了 MegaMath-Web-Pro-Max。該語料庫通過一個高效的分類器從 MegaMath-Web 中召回文檔,并進一步利用一個大語言模型進行精煉構建。
具體而言,研究團隊從 MegaMath-Web 語料庫中按文檔的年份分層,均勻隨機采樣了數百萬篇文檔,并使用 Llama-3.1-70B-instruct 對其進行標注。每篇文檔根據其在數學學習中的實用程度,被打分為 0 到 5 分,評分過程使用特定的評分提示(見論文附錄)。研究團隊采用啟發式方法從模型的評論中提取評分:得分低于 3 的文檔被標注為負例,得分在 3 分及以上的文檔被視為正例。研究團隊觀察到,現有的分類器(如 inemath-classifier)在數據收集過程中對文本提取器的選擇非常敏感。
因此,研究團隊訓練了自己的分類器,并選擇效率較高的 fasttext 作為分類器。與 MegaMath 的發現一致,研究團隊發現預處理步驟對召回性能至關重要。研究團隊的預處理流程包括將文本轉換為小寫、過濾過長的單詞,以及去除換行符和多余的非字母數字字符。
如下圖所示,研究團隊按照 MegaMath-Web 提出的逐年數據集比較設定,評估了不同召回閾值下所召回語料的質量。召回閾值決定了數據質量與數量之間的權衡:較高的閾值(如 0.9)帶來更高的數據質量,但保留的 token 數量較少。最終,研究團隊選擇了 0.4 作為召回閾值。
圖:研究團隊重新召回的數據與 MegaMath-Web 的按照 Common Crawl 年份逐年數據質量對比(不同的 fasttext 閾值)。
考慮到許多文檔存在噪聲大、結構差等問題,研究團隊使用 Llama-3.1-70B-instruct 對文本進行了精煉,所用提示設計借鑒了 MegaMath-Web-Pro。最終構建的 MegaMath-Web-Pro-Max 數據集包含的 token 數量約為 MegaMath-Web-Pro 的 5.5 倍。預訓練過程中的實證評估表明,MegaMath-Web-Pro-Max 在保持數據質量的同時,具備成為大規模中期訓練基礎語料的潛力。
此外,研究團隊也嘗試通過從常見數學問題求解數據集中引入長鏈式思維數據來擴充正例種子集合,以提升分類器召回推理密集型內容的能力。然而,這種方法最終僅保留了約 20B tokens,研究團隊認為其規模不足,因此未被采用。
突破性方案:OctoThinker 的兩階段
「穩定 - 衰減」訓練方案
基于上述發現,研究者提出兩階段中等訓練策略:
第一階段:構建強推理基座(200B tokens)
使用恒定學習率對 Llama 模型進行 200B tokens 訓練,主要依賴高質量預訓練語料庫(如 MegaMath-Web-Pro 和 DCLM-Baselines),輔以少量合成數據,構建穩固的推理基礎。這一階段的目標是使模型在大規模數據上逐步提升推理能力,為后續的 RL 訓練打下堅實基礎,產出:OctoThinker-Base-Stable 系列基模型;
第二階段:分支專業化訓練(20B tokens)
學習率衰減(余弦衰減至初始 LR 的 10%),引入不同數據混合(短鏈推理、長鏈推理及其混合),訓練三個分支模型,塑造多樣化模型行為。這一階段旨在通過數據多樣性和學習率調整,進一步提升模型的推理能力和適應性。
三大推理分支:
OctoThinker 基礎模型系列的顯著提升
經兩階段中等訓練后的 OctoThinker 基礎模型系列,在數學推理基準測試中表現出色,相較于原始 Llama 基礎模型,在所有模型尺寸上均實現了 10%-20% 的顯著性能提升,為 RL 擴展奠定了堅實基礎。例如,在 GSM8K 和 MATH500 等基準測試中,OctoThinker 基座模型的準確率和推理深度均有明顯提升。
圖: OctoThinker 中期訓練后的數學榜單表現跑分,圖中所示為 1B 規模的模型結果
圖: OctoThinker 中期訓練后的數學榜單表現跑分,圖中所示為 3B 規模的模型結果
圖: OctoThinker 中期訓練后的數學榜單表現跑分,圖中所示為 8B 規模的模型結果
OctoThinker-Zero 家族在 RL 訓練中的卓越表現
進一步對 OctoThinker 基礎模型進行 RL 訓練后,生成的 OctoThinker-Zero 家族(包括短鏈、混合鏈和長鏈推理分支)在數學推理任務中展現出與 Qwen2.5 模型相當的性能。特別是 OctoThinker-Long-Zero 分支,在 3B 模型規格上,成功媲美以強大推理能力著稱的 Qwen2.5-3B 模型,有力證明了中等訓練策略對提升 Llama 模型 RL 兼容性的有效性。在多個數學推理基準測試中,OctoThinker-Zero 模型的表現與 Qwen2.5 模型不相上下,甚至在某些任務上略有超越。
圖: OctoThinker 系列、Qwen-2.5、Llama-3.2 在 RL 訓練中的數學基準測試動態曲線
未來展望
研究團隊計劃在多個方向持續探索:一是進一步精煉數學預訓練語料庫以增強中等訓練效果;二是采用開放配方設計無需從強大長鏈推理模型蒸餾的 RL 友好型基礎模型;三是深入解耦 QA 格式與內容的獨立貢獻;四是拓展 OctoThinker 家族,增加如工具集成推理等新分支,以期為預訓練與強化學習的交互機制提供更深入洞見。