小而美!1B模型如何通過測試時優(yōu)化逆襲405B LLM?
今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業(yè)大學和北京郵電大學聯(lián)合的一篇文章,標題是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考計算最優(yōu)的測試時縮放)。
這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(Test-Time Scaling, TTS)方法。作者們「系統(tǒng)地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何影響 TTS」,并提出了兩個核心問題:「(1) 在不同的策略模型、PRMs 和問題難度水平下,擴展測試時計算的最佳方法是什么?(2) 擴展計算能在多大程度上提高 LLMs 在復雜任務上的性能,以及較小的語言模型是否能通過這種方法超越較大的模型?」
該方法的主要特點包括:
- 「全面評估」:對不同的 TTS 方法進行了全面的評估,使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰(zhàn)性的任務。
- 「獎勵感知」:強調了在 TTS 過程中考慮獎勵的必要性,并引入了獎勵感知的計算最優(yōu) TTS。
- 「小模型潛力」:實證結果表明,較小的語言模型通過 TTS 有可能超越較大的模型。
一、概述
- 「Title:」Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
- 「URL:」??https://arxiv.org/abs/2502.06703v1??
- 「Authors:」Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
- 「Code:」??https://ryanliu112.github.io/compute-optimal-tts??
1 Motivation
- 當前測試時間縮放(TTS)的研究缺乏對策略模型、過程獎勵模型(PRM)和問題難度如何影響TTS的系統(tǒng)分析,限制了對TTS方法理解和實際應用。
- 如何在不同的策略模型、PRM和問題難度級別上優(yōu)化測試時間計算的縮放方法?
- 擴展計算能在多大程度上提高LLM在復雜任務上的性能,以及小模型是否可以通過這種方法超越大模型?
2 Methods
「省流版總結:」
本文提出了一種計算最佳的TTS策略,通過綜合實驗分析了策略模型、PRM和問題難度對TTS的影響。實驗使用了MATH-500和AIME24數(shù)據(jù)集,以及不同大小的Llama 3和Qwen2.5模型。研究發(fā)現(xiàn),計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。
- 「問題建?!?/strong>: 將推理問題建模為馬爾可夫決策過程 (MDP)。
- 「測試時縮放方法」: 考慮了三種 TTS 方法:Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
- 「計算最優(yōu)的測試時縮放」: 選擇超參數(shù)以最大化給定測試時策略的性能。
- 「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優(yōu)的 TTS 策略中,形成更通用的框架。
「詳細方法和步驟:」
論文通過以下步驟詳細闡述了其方法:
- 「問題形式化」:
將推理問題定義為馬爾可夫決策過程(MDP),包括狀態(tài)空間、動作空間、轉移函數(shù)、獎勵函數(shù)和折扣因子。
策略根據(jù)當前狀態(tài)生成動作,狀態(tài)根據(jù)動作進行轉移,并獲得獎勵。
目標是找到最優(yōu)策略,最大化累積獎勵。
- 「測試時縮放方法」:
特征 | Best-of-N (BoN) | Beam Search | Diverse Verifier Tree Search (DVTS) |
核心思想 | 生成多個獨立響應,選擇最優(yōu) | 逐步擴展候選序列,擇優(yōu)保留 | 多樣性搜索,并行探索多個子樹 |
生成方式 | 一次性生成N個完整響應 | 逐步生成,每步選擇Top N個擴展 | 分成多個子樹并行Beam Search |
選擇標準 | PRM評分、投票等 | 驗證器(PRM)評分 | 驗證器(PRM)評分 |
計算量 | 與N成正比 | 每步計算量與Beam Width成正比 | 計算量較大,與子樹數(shù)量和Beam Width相關 |
優(yōu)點 | 實現(xiàn)簡單,易于并行 | 逐步優(yōu)化,效果通常優(yōu)于BoN | 探索多樣性,避免局部最優(yōu) |
缺點 | 缺乏探索性,易受初始生成質量影響 | 容易陷入局部最優(yōu) | 計算量大,實現(xiàn)復雜 |
適用場景 | 簡單任務,計算資源有限 | 中等復雜度任務 | 復雜任務,需要多樣性探索 |
- 「Best-of-N (BoN)」:策略模型生成 N 個響應,然后應用評分和投票方法選擇最終答案。
- 「Beam Search」:給定束寬 N 和束大小 M,策略模型首先生成 N 個步驟。驗證器選擇最佳的 N/M 個步驟進行后續(xù)搜索。下一步,策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復,直到達到最大深度或生成標記。
- 「Diverse Verifier Tree Search (DVTS)」:通過將搜索過程劃分為 N 個子樹來擴展 Beam Search,每個子樹使用 Beam Search 獨立探索。
「目標:」 這個公式旨在找到一個最優(yōu)的測試時計算縮放策略(compute-optimal test-time scaling strategy),簡單來說就是「怎么用最合理的計算資源,讓模型在推理的時候表現(xiàn)最好」。
「符號說明:」
「公式含義:」
提出了一個測試時計算最優(yōu)縮放策略,該策略選擇超參數(shù)以最大化給定測試時策略在特定提示上的性能收益。
「符號說明 (與公式2對比):」
「公式含義:」
「公式3與公式2的區(qū)別:」
- 提出應將獎勵整合到計算最優(yōu) TTS 策略中。
- 「絕對問題難度標準」:
- 使用絕對閾值而不是分位數(shù)來衡量問題難度。
- 基于 Pass@1 準確率定義了三個難度級別:easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。
3 Conclusion
- 計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇?!?/strong>
- 通過「計算最佳的TTS策略,極小的策略模型可以勝過更大的模型。例如,一個1B的LLM可以在MATH-500上超過一個405B的LLM?!?/strong>
- 實驗結果表明,「與CoT和多數(shù)投票相比,計算最佳的TTS可以提高LLM的推理性能。」
4 Limitation
- 將TTS擴展到更多任務,如編碼和化學任務。
- 探索更有效的計算最佳TTS方法。
二、詳細內容
1 獎勵會顯著影響生成的過程和結果
image-20250216224908584
說明:
- RLHFlow-PRM-Mistral-8B對短響應給予高獎勵,卻產(chǎn)生了錯誤的答案;
- 使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產(chǎn)生正確答案,但使用了更多token。
結論:獎勵應該被整合到計算最優(yōu)的TTS策略中。
2 PRM的過程監(jiān)督能力是決定其在TTS中性能的關鍵因素
image-20250216225517615
說明:PRM的過程監(jiān)督能力越強,其在TTS中通常能帶來更好的性能。
結論:應該注重提高PRM的過程監(jiān)督能力,而不僅僅是增加參數(shù)量。
3 策略模型大小對TTS參數(shù)的影響
image-20250216225948348
說明:使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進行實驗,分析最優(yōu)TTS參數(shù)。
結論:
- 小型策略模型:基于搜索的方法優(yōu)于BoN3。對于大型策略模型,BoN比基于搜索的方法更有效。
- 最優(yōu)的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。
4 題目難度對TTS參數(shù)的影響
image-20250216230308416
結論:
- 「小規(guī)模策略模型(參數(shù)少于7B)」:BoN在簡單問題上表現(xiàn)更好,而束搜索更適合解決較難問題。
- 「中等規(guī)模策略模型(參數(shù)7B至32B)」:DVTS在簡單和中等問題上表現(xiàn)優(yōu)異,束搜索則在困難問題上更具優(yōu)勢。
- 「大規(guī)模策略模型(參數(shù)72B)」:BoN在所有難度級別上均為最佳選擇。
5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型
結論:
- 1B模型在TTS加持下能超過405B的模型。
- TTS加持下,DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。
6 TTS最優(yōu)相對COT能顯著提升推理能力同時提高效率
結論:
- 對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進;
- 而對于推理能力較強的模型,提升效果則較為有限。
7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型
三、總結
本文對計算最優(yōu)的測試時縮放進行了深入的實證分析,從不同的策略模型、PRMs 和更具挑戰(zhàn)性的評估任務的角度出發(fā)。研究結果「驗證了較小的語言模型在應用計算最優(yōu) TTS 時可以表現(xiàn)得比更大的模型更好。」 結果表明,一個 1B 模型可以通過 TTS 實現(xiàn)比 405B 模型更好的性能。此外,還證明了一個 7B PRM 可以通過監(jiān)督一個更有能力的 72B 策略模型來實現(xiàn)強大的 TTS 結果,這表明了研究真正的“弱到強”方法的重要性,而不是目前用于策略優(yōu)化的“強到弱”監(jiān)督。為了實現(xiàn)這一目標,需要開發(fā)更有效的監(jiān)督方法,因為基于 PRM 和基于 RL 的方法由于依賴于高質量的監(jiān)督而存在局限性。未來的工作應側重于開發(fā)更具適應性和通用性的監(jiān)督機制,以提高小型語言模型在復雜任務上的性能,并提供開發(fā)高效推理策略的新方法。
「結論1:」 通過自適應地調整測試時計算量,「小規(guī)模語言模型在特定任務上可以達到甚至超過大規(guī)模模型的性能,實現(xiàn)了更高的效率。」
「結論2:」 最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型(PRM)以及問題的難度?!?/strong> 這意味著沒有一種通用的TTS策略適用于所有情況,需要根據(jù)具體任務和模型進行調整。
「結論3:」 本文通過實證分析揭示了「計算最佳TTS策略的依賴性,強調了在實際應用中考慮獎勵信息的重要性」,并為未來的研究方向提供了指導。
本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly
