成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<wbr id="8gkkw"></wbr>

<code id="8gkkw"><nav id="8gkkw"></nav></code>

<abbr id="8gkkw"></abbr>

<dl id="8gkkw"></dl>

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

AI.x社區(qū)

登錄/注冊
51CTO

中國優(yōu)質的IT技術網(wǎng)站

51CTO博客

專業(yè)IT技術創(chuàng)作平臺

51CTO學堂

IT職業(yè)在線教育平臺

小而美！1B模型如何通過測試時優(yōu)化逆襲405B LLM？

發(fā)布于 2025-2-24 11:01

瀏覽

0收藏

今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業(yè)大學和北京郵電大學聯(lián)合的一篇文章，標題是：Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling（1B 的 LLM 能否超越 405B 的 LLM？重新思考計算最優(yōu)的測試時縮放）。

這篇文章研究了大型語言模型（LLMs）在「推理階段通過增加計算量來提高性能的測試時縮放」（Test-Time Scaling, TTS）方法。作者們「系統(tǒng)地分析了策略模型、過程獎勵模型（PRMs）和問題難度如何影響 TTS」，并提出了兩個核心問題：「(1) 在不同的策略模型、PRMs 和問題難度水平下，擴展測試時計算的最佳方法是什么？(2) 擴展計算能在多大程度上提高 LLMs 在復雜任務上的性能，以及較小的語言模型是否能通過這種方法超越較大的模型？」

該方法的主要特點包括：

「全面評估」：對不同的 TTS 方法進行了全面的評估，使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰(zhàn)性的任務。
「獎勵感知」：強調了在 TTS 過程中考慮獎勵的必要性，并引入了獎勵感知的計算最優(yōu) TTS。
「小模型潛力」：實證結果表明，較小的語言模型通過 TTS 有可能超越較大的模型。

一、概述

「Title:」Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling
「URL:」??https://arxiv.org/abs/2502.06703v1??
「Authors:」Runze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou
「Code:」??https://ryanliu112.github.io/compute-optimal-tts??

1 Motivation

當前測試時間縮放（TTS）的研究缺乏對策略模型、過程獎勵模型（PRM）和問題難度如何影響TTS的系統(tǒng)分析，限制了對TTS方法理解和實際應用。
如何在不同的策略模型、PRM和問題難度級別上優(yōu)化測試時間計算的縮放方法？
擴展計算能在多大程度上提高LLM在復雜任務上的性能，以及小模型是否可以通過這種方法超越大模型？

2 Methods

「省流版總結:」

本文提出了一種計算最佳的TTS策略，通過綜合實驗分析了策略模型、PRM和問題難度對TTS的影響。實驗使用了MATH-500和AIME24數(shù)據(jù)集，以及不同大小的Llama 3和Qwen2.5模型。研究發(fā)現(xiàn)，計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。

「問題建?！?/strong>: 將推理問題建模為馬爾可夫決策過程 (MDP)。
「測試時縮放方法」: 考慮了三種 TTS 方法：Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
「計算最優(yōu)的測試時縮放」: 選擇超參數(shù)以最大化給定測試時策略的性能。
「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優(yōu)的 TTS 策略中，形成更通用的框架。

「詳細方法和步驟:」

論文通過以下步驟詳細闡述了其方法：

「問題形式化」：

將推理問題定義為馬爾可夫決策過程（MDP），包括狀態(tài)空間、動作空間、轉移函數(shù)、獎勵函數(shù)和折扣因子。

策略根據(jù)當前狀態(tài)生成動作，狀態(tài)根據(jù)動作進行轉移，并獲得獎勵。

目標是找到最優(yōu)策略，最大化累積獎勵。

「測試時縮放方法」：

特征	Best-of-N (BoN)	Beam Search	Diverse Verifier Tree Search (DVTS)
核心思想	生成多個獨立響應，選擇最優(yōu)	逐步擴展候選序列，擇優(yōu)保留	多樣性搜索，并行探索多個子樹
生成方式	一次性生成N個完整響應	逐步生成，每步選擇Top N個擴展	分成多個子樹并行Beam Search
選擇標準	PRM評分、投票等	驗證器（PRM）評分	驗證器（PRM）評分
計算量	與N成正比	每步計算量與Beam Width成正比	計算量較大，與子樹數(shù)量和Beam Width相關
優(yōu)點	實現(xiàn)簡單，易于并行	逐步優(yōu)化，效果通常優(yōu)于BoN	探索多樣性，避免局部最優(yōu)
缺點	缺乏探索性，易受初始生成質量影響	容易陷入局部最優(yōu)	計算量大，實現(xiàn)復雜
適用場景	簡單任務，計算資源有限	中等復雜度任務	復雜任務，需要多樣性探索

「Best-of-N (BoN)」：策略模型生成 N 個響應，然后應用評分和投票方法選擇最終答案。
「Beam Search」：給定束寬 N 和束大小 M，策略模型首先生成 N 個步驟。驗證器選擇最佳的 N/M 個步驟進行后續(xù)搜索。下一步，策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復，直到達到最大深度或生成標記。
「Diverse Verifier Tree Search (DVTS)」：通過將搜索過程劃分為 N 個子樹來擴展 Beam Search，每個子樹使用 Beam Search 獨立探索。

「目標:」 這個公式旨在找到一個最優(yōu)的測試時計算縮放策略（compute-optimal test-time scaling strategy），簡單來說就是「怎么用最合理的計算資源，讓模型在推理的時候表現(xiàn)最好」。

「符號說明:」

「公式含義:」

提出了一個測試時計算最優(yōu)縮放策略，該策略選擇超參數(shù)以最大化給定測試時策略在特定提示上的性能收益。

「符號說明 (與公式2對比):」

「公式含義:」

「公式3與公式2的區(qū)別:」

提出應將獎勵整合到計算最優(yōu) TTS 策略中。

「絕對問題難度標準」：

使用絕對閾值而不是分位數(shù)來衡量問題難度。
基于 Pass@1 準確率定義了三個難度級別：easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。

3 Conclusion

計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇?！?/strong>
通過「計算最佳的TTS策略，極小的策略模型可以勝過更大的模型。例如，一個1B的LLM可以在MATH-500上超過一個405B的LLM?！?/strong>
實驗結果表明，「與CoT和多數(shù)投票相比，計算最佳的TTS可以提高LLM的推理性能。」

4 Limitation

將TTS擴展到更多任務，如編碼和化學任務。
探索更有效的計算最佳TTS方法。

二、詳細內容

1 獎勵會顯著影響生成的過程和結果

image-20250216224908584

說明：

RLHFlow-PRM-Mistral-8B對短響應給予高獎勵，卻產(chǎn)生了錯誤的答案；
使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產(chǎn)生正確答案，但使用了更多token。

結論：獎勵應該被整合到計算最優(yōu)的TTS策略中。

2 PRM的過程監(jiān)督能力是決定其在TTS中性能的關鍵因素

image-20250216225517615

說明：PRM的過程監(jiān)督能力越強，其在TTS中通常能帶來更好的性能。

結論：應該注重提高PRM的過程監(jiān)督能力，而不僅僅是增加參數(shù)量。

3 策略模型大小對TTS參數(shù)的影響

image-20250216225948348

說明：使用了Qwen2.5系列的不同大小LLM（從0.5B到72B）進行實驗，分析最優(yōu)TTS參數(shù)。

結論：

小型策略模型：基于搜索的方法優(yōu)于BoN3。對于大型策略模型，BoN比基于搜索的方法更有效。
最優(yōu)的TTS方法依賴于策略模型的大小，在選擇TTS方法時需要考慮模型的推理能力。

4 題目難度對TTS參數(shù)的影響

image-20250216230308416

結論：

「小規(guī)模策略模型（參數(shù)少于7B）」：BoN在簡單問題上表現(xiàn)更好，而束搜索更適合解決較難問題。
「中等規(guī)模策略模型（參數(shù)7B至32B）」：DVTS在簡單和中等問題上表現(xiàn)優(yōu)異，束搜索則在困難問題上更具優(yōu)勢。
「大規(guī)模策略模型（參數(shù)72B）」：BoN在所有難度級別上均為最佳選擇。

5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型

結論：

1B模型在TTS加持下能超過405B的模型。
TTS加持下，DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。

6 TTS最優(yōu)相對COT能顯著提升推理能力同時提高效率

結論：

對于推理能力較弱的模型，Scaling測試時計算會帶來顯著改進；
而對于推理能力較強的模型，提升效果則較為有限。

7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型

三、總結

本文對計算最優(yōu)的測試時縮放進行了深入的實證分析，從不同的策略模型、PRMs 和更具挑戰(zhàn)性的評估任務的角度出發(fā)。研究結果「驗證了較小的語言模型在應用計算最優(yōu) TTS 時可以表現(xiàn)得比更大的模型更好。」 結果表明，一個 1B 模型可以通過 TTS 實現(xiàn)比 405B 模型更好的性能。此外，還證明了一個 7B PRM 可以通過監(jiān)督一個更有能力的 72B 策略模型來實現(xiàn)強大的 TTS 結果，這表明了研究真正的“弱到強”方法的重要性，而不是目前用于策略優(yōu)化的“強到弱”監(jiān)督。為了實現(xiàn)這一目標，需要開發(fā)更有效的監(jiān)督方法，因為基于 PRM 和基于 RL 的方法由于依賴于高質量的監(jiān)督而存在局限性。未來的工作應側重于開發(fā)更具適應性和通用性的監(jiān)督機制，以提高小型語言模型在復雜任務上的性能，并提供開發(fā)高效推理策略的新方法。

「結論1:」 通過自適應地調整測試時計算量，「小規(guī)模語言模型在特定任務上可以達到甚至超過大規(guī)模模型的性能，實現(xiàn)了更高的效率。」

「結論2:」 最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型（PRM）以及問題的難度?！?/strong> 這意味著沒有一種通用的TTS策略適用于所有情況，需要根據(jù)具體任務和模型進行調整。

「結論3:」 本文通過實證分析揭示了「計算最佳TTS策略的依賴性，強調了在實際應用中考慮獎勵信息的重要性」，并為未來的研究方向提供了指導。

本文轉載自 ??NLP PaperWeekly??，作者： NLP PaperWeekly

標簽
LLM
模型
測試

已于2025-2-24 12:17:08修改

贊

收藏

回復

分享

微博

QQ

微信

舉報
舉報

微信掃碼分享

刪除帖子
刪除取消

回復

相關推薦

最強模型Llama 3.1 405B正式發(fā)布，扎克伯格：開源引領新時代

輕薄滴假象 ? 2567瀏覽 ? 0回復
Meta 開源最強大模型Llama 3.1，參數(shù)多達 405B，超16000塊H100訓練，燃燒數(shù)億經(jīng)費！小扎：堅定開源不動搖！

51CTO技術棧 ? 4327瀏覽 ? 0回復
最強大模型 Llama 3.1-405B 架構設計剖析

玄姐聊AGI ? 3410瀏覽 ? 0回復
Meta正式發(fā)布Llama-3.1，超大杯405B！千呼萬喚始出來！

PaperAgent ? 3379瀏覽 ? 0回復
Llama3.1系列模型正式開源，最大405B，閉源模型的統(tǒng)治時代將迎來結束？

NLP工作站 ? 2587瀏覽 ? 0回復
Llama3.2開源：Meta發(fā)布1B和3B端側模型、11B和90B多模態(tài)模型

NLP工作站 ? 4754瀏覽 ? 0回復
Llama 3.2 強勢震撼登場：從 1B 純文本躍至 90B 多模態(tài)，成就端側 AI 巔峰杰作

穿越時空111 ? 3809瀏覽 ? 0回復
Qwen2.5：13個新模型來襲！開源通用、編碼、數(shù)學模型全解讀，72B超越Llama 405B - 本地安裝測試

老蛀蟲 ? 5615瀏覽 ? 0回復
Meta AI發(fā)布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小減少56%

Halo咯咯 ? 2785瀏覽 ? 0回復
Llama 3.1 405B，教你白嫖使用最強開源大模型

小虎哦哦 ? 2994瀏覽 ? 0回復
AMD 開源 AMD OLMo：完全開源的 1B 語言模型系列

Halo咯咯 ? 2643瀏覽 ? 0回復
Qwen2.5：13個新模型來襲！開源通用、編碼、數(shù)學模型全解讀，72B超越Llama 405B - 本地安裝測試

老蛀蟲 ? 4825瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 5048瀏覽 ? 0回復
美團 Flash Communication：LLM 推理的 AllReduce 通信優(yōu)化

amei2000go ? 2955瀏覽 ? 0回復
9B參數(shù)吊打GPT-4V！NVIDIA開源新模型（Eagle 2），竟靠“透明數(shù)據(jù)”逆襲？

Halo咯咯 ? 2260瀏覽 ? 0回復
32B逆襲671BDeepSeek R1！阿里推理模型炸翻了：小到筆記本就能run,成本僅1/10！又是強化學習帶來驚喜！

51CTO技術棧 ? 2255瀏覽 ? 0回復
320億參數(shù)逆襲6710億！阿里QwQ-32B開源引爆AI效率革命：單卡運行、成本降60倍，國產(chǎn)芯片突圍AGI

墨風如雪小站 ? 3587瀏覽 ? 0回復
QwQ-32B 大戰(zhàn) DeepSeek-R1：小參數(shù)量模型能否逆襲？

Halo咯咯 ? 3431瀏覽 ? 0回復
TinyR1-32B-Preview: 通過全新分支合并蒸餾技術讓大模型瘦身不掉智商

sbf_2000 ? 1622瀏覽 ? 0回復

arnoldzhw

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發(fā)布

NVIDIA（ProRL）｜RL到底能不能提升LLM的推理上限？ 7天前發(fā)布
ACL25 | DOLPHIN，Closed-loop Auto-research系統(tǒng)來幫你自動做科研了！ 2025-06-13 06:42:33發(fā)布

熱門推薦

從原理到調參，小白也能讀懂的大模型微調LoRA，不懂線性代數(shù)也沒問題 0回復
Deepseek R1 0528實測：性能直逼頂尖，普通電腦本地運行全攻略 0回復
本命周！MiniMax M1有多猛？網(wǎng)友：僅用40k思考預算就干翻Gemini，實測：真·超DS！ 1回復
AI Agents開源工具棧全解析~ 0回復
效果&成本雙突破！快手提出端到端生成式推薦系統(tǒng)OneRec！ 0回復

上一篇： DeepSeek-R1技術大揭秘：論文核心原理拆解與模型性能突破關鍵

下一篇： LMEDR對話模型：引入自然語言推理數(shù)據(jù)提升對話模型的連貫性和一致性

社區(qū)精華內容

目錄

Copyright ? 2005-2025 51CTO.COM 京ICP證060544版權所有未經(jīng)許可請勿轉載

客服

感谢您访问我们的网站，您可能还对以下资源感兴趣：
成人免费xxxxx在线视频软件|久久精品久久久|亚洲国产精品久久久|天天色天天色|亚洲人成一区|欧美一级欧美三级在线观看

主站蜘蛛池模板：亚洲国产成人在线观看 | 午夜ww | 正在播放国产精品 | 色婷婷久久久亚洲一区二区三区 | 中文字幕国产第一页 | 性一爱一乱一交一视频 | 欧美视频一区二区三区 | 亚洲精品自在在线观看 | 久久综合一区 | 中文字幕在线观看 | 久久久久久免费观看 | 日韩精品在线播放 | 午夜精品 | 一区二区三区国产视频 | 精品国产99 | 一级毛片观看 | 日韩精品一区在线 | 日日骚av| www.99久久.com | 激情五月婷婷在线 | 玖草资源 | 久久成人免费 | 中文字幕日韩欧美一区二区三区 | 999久久久国产精品欧美成人h版在线观看 | 国产天天操| 波多野结衣一区二区三区在线观看 | 国产精品日产欧美久久久久 | 夜操 | 亚洲综合色视频在线观看 | 欧美一级在线免费 | 国产精品国产成人国产三级 | 亚洲精品99 | 亚洲精品视频在线看 | 欧美一区二区激情三区 | av中文字幕在线播放 | 国产精品一区一区 | 国产精品一区二区三区久久 | 成人免费视频在线观看 | 亚洲激精日韩激精欧美精品 | 伊人久操 | 欧美日本国产 |