成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<blockquote id="fgpxy"><samp id="fgpxy"><em id="fgpxy"></em></samp></blockquote>

<abbr id="fgpxy"><style id="fgpxy"></style></abbr>

<button id="fgpxy"><ruby id="fgpxy"><em id="fgpxy"></em></ruby></button>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

1.5B硬剛GPT-4o，CMU祭出LCPO提示可控思考！每token性能較S1暴漲2倍

作者：新智元 2025-03-10 09:38:00

人工智能新聞

CMU團隊用LCPO訓練了一個15億參數的L1模型，結果令人震驚：在數學推理任務中，它比S1相對提升100%以上，在邏輯推理和MMLU等非訓練任務上也能穩定發揮。更厲害的是，要求短推理時，甚至擊敗了GPT-4o——用的還是相同的token預算！

一個只有15億參數的小模型，竟然能在相同token預算下挑戰GPT-4o的性能！

最近，CMU團隊推出了「長度控制策略優化」（LCPO），它讓AI的推理過程不再是「一刀切」，而是像個聰明管家，能根據任務需求靈活調整「思考」長度。

無論是啃下復雜的數學難題，還是快速解答簡單問題，這個名叫L1的模型都游刃有余。

更驚艷的是，它還能把長推理的智慧「濃縮」到短答案中，使模型的效率和準確性雙雙飆升。

論文鏈接：https://arxiv.org/abs/2503.04697

推理型語言模型在測試時展現出了一種獨特的能力：「思考更久」可以提升表現。

也就是說更長的「思維鏈」（CoT）序列，通常意味著更高準確性，但也意味著更高的計算成本。

然而，目前的CoT推理長度不可控，導致難以在測試時合理分配計算資源，以達到預期的性能水平。

研究團隊首次證明：在相同token預算下，15億參數的模型能匹敵GPT-4o的性能。

GPT-4o的參數規模為2000億左右，是新模型的參數規模的133多倍數！

在數學推理任務上，條件完全相同時，L1比S1的相對提升高達100%，絕對提升20%。

除了在標準數學推理場景中更好地控制長度，LCPO訓練的模型還能意外地泛化到分布外的任務，包括邏輯推理和像MMLU這樣的通用知識基準。而且泛化效果也很好。

更厲害的是在生成短推理時，研究團隊發現用LCPO訓練的「長思維鏈」（long-CoT）模型變得特別強：當提示要求短推理時，LCPO訓練的模型比原始模型強很多（提升高達10%），即便生成長度相同。

問題背景

當前的推理模型有一個關鍵局限性：它們的推理長度無法控制，這使得無法分配測試時計算預算以達到目標性能水平。這導致了三大問題：

1 計算浪費：在某些情況下，生成的序列可能長達數萬個標記，而在較短的推理已經足夠的情況下，這會導致計算資源的浪費。

2 過早停止：如果沒有長度控制，模型可能會在復雜問題上過早停止，未能分配足夠的推理步驟。

3 未探索的權衡：目前無法根據目標性能水平校準推理計算預算，導致潛在效率提升未被探索。

在新研究中，在提示中加入一個目標token長度來解決這個問題。

簡單來說，給定一個輸入提示和一個目標長度，模型需要生成一個回答，讓它的長度盡量接近目標長度，同時還得保證答案正確。

這種方式把準確性和輸出長度直接掛鉤，確保生成的思維鏈符合用戶指定的限制。

此前的方法，試圖通過強制模型在生成過短或過長token時生成特殊token（例如「等待」、「最終答案」），實現長度控制。

然而，這種僵硬的、人為設計的策略與基礎模型相比，性能顯著下降（下圖1）。

其他研究探討了在指令遵循和一般領域中控制輸出長度。

然而，推理模型面臨著全新的挑戰，例如輸出長度要長得多，以及需要在計算成本和性能提升之間進行權衡。

研究人員提出了一個叫做「長度控制策略優化」（LCPO）的簡單方法，它基于強化學習（RL），能讓推理語言模型精確地、靈活地控制輸出長度。

LCPO訓練模型時有兩個目標：一是最終輸出的正確性，二是生成的推理序列要符合提示中指定的長度限制。

這樣，LCPO訓練出來的模型既能滿足長度要求，又能優化推理表現，而不是依賴人為設計的規則。

研究人員試驗了兩種實用的長度限制方式：一是「LCPO-Exact」，要求生成的推理長度必須精確等于目標長度；二是「LCPO-Max」，要求輸出長度不超過目標長度。

他們用LCPO微調了一個15億參數的推理模型，這個模型基于Qwen-Distilled-R1-1.5B，得到了L1-Max和L1-Exact兩個版本。

這些L1模型能很好地在token預算和推理性能之間找到平衡，只要在提示中調整長度要求，就能平滑地在短而高效的推理和長而精準的推理之間切換（見圖1）。

重要的是，在這個權衡曲線上有一個點能恢復原始基礎模型的性能，同時在所有推理長度范圍內都比S1的表現更好（見圖1）。

解決方案：長度控制策略優化

研究團隊從一個預訓練的推理模型LLM開始，用一個數據集D（包含N個樣本），每個樣本只有輸入提示和最終答案（沒有中間的推理過程）。

為了實現長度控制，給每個提示加上一個目標長度的指令。這樣就得到了一個新的數據集Dnew，包含了帶長度指令的提示和對應的答案。

接下來，用強化學習的目標來更新模型LLM。在實驗中，研究人員選擇了GRPO方法。

獎勵函數包括兩部分：正確性獎勵rc和長度懲罰rlength。

這個獎勵函數有兩個作用：一是鼓勵模型給出正確答案，同時在要求短輸出時傾向于簡潔的推理過程；二是即使正確答案可以用更少的token生成，它也會持續推動模型盡量匹配指定的目標長度。

根據目標長度的指令和訓練目標不同，有兩類方法：

1 LCPO-Exact（或L1-Exact）：要求生成的推理過程必須嚴格等于目標長度；示例提示為：「Think for exactly 512 token」

2 LCPO-Max（或L1-Max）：要求生成的輸出不得超過目標長度，但可在該范圍內靈活調整，以適應不同問題的難度。示例提示為：「Think for maximum 1024 token」

精準模式：L1-Exact

長度控制策略優化（LCPO）是一種簡單RL方法，允許推理型語言模型僅使用提示（prompt），自適應地控制生成文本的長度。

在推理階段，輸出長度通過在每個測試提示后統一加上一個固定的目標長度（或者一組長度）來控制。

適用于下列場景：

1 基準測試（Benchmarking）：確保不同模型在相同token預算下進行公平對比。

2 精確預算控制（Exact Token Budgeting）：在受限資源環境下，嚴格控制生成內容的長度。

1 問題定義：給定輸入提示詞x和目標長度n_goal，生成一個長度n_y盡可能接近且答案正確的響應y。目標是最小化 |n_goal-n_y|的同時確保輸出正確。

2 提示詞增強（Prompt Augmentation）：在每個提示詞中增加目標長度指令：

3 強化學習（Reinforcement Learning）：通過獎勵函數進行優化，在準確性和長度匹配之間保持平衡：

其中， α用于平衡答案正確性和長度匹配的權重。

最大長度限制模式：L1-Max

最大長度限制模式，L-Max適用下列場景：

計算資源受限場景：確保最大token消耗受控，防止超出計算預算。
適應任務難度：允許較簡單任務使用更少token，而復雜任務可充分利用預算。

為了訓練L1-Max，在L1-Exact的基礎上繼續微調，用的是同一個強化學習框架，但改進了獎勵函數：

（1）逐步懲罰超過目標長度的輸出，而不是直接硬性截斷（這在GRPO目標中需要保證梯度傳播）；

（2）鼓勵模型在不犧牲正確性的情況下，盡量少用token。

此外，L1-Max用雙重目標訓練：如果提示要求精確長度，就用長度控制策略優化；否則默認用最大長度限制模式。

具體而言，使用帶軟約束的獎勵函數進行優化，以平衡準確性和token預算：

其中參數α控制減少token使用的激勵程度；δ確保輕微超出預算但正確的答案優于錯誤答案。

結果與分析

L1表現遠超其他長度控制模型，同時保持強勁性能。

下圖2比較了L1-Exact和L1-Max與其它基準模型在不同生成長度下的表現。L1的兩個版本在所有token預算下都表現更好，同時還能精確控制長度。

相比專門為長度控制設計的S1方法，L1提升顯著，在512和1024 token預算下，相對性能提升100-150%，絕對性能提升20-25%。

這種顯著差異可以歸因于兩個關鍵原因：一是L1能智能調整思維鏈，讓它適應指定的長度限制還不打斷推理過程，而S1經常在中途被截斷；二是L1被明確訓練來生成不同長度的高質量推理鏈，能有效把長推理鏈的推理模式「濃縮」到短鏈中。

另外，研究團隊還發現L1的性能隨生成推理鏈的對數長度呈現線性增長，和OpenAI的o1及S1類似。

L1能很好泛化到非訓練領域（OOD）任務

研究團隊測試了L1在訓練分布外的領域控制長度的能力。

非訓練領域數據集分兩類：一是通用推理數據集GPQA和LSAT，沒明確用于L1訓練，但可能在DeepSeek-R1-1.5B的訓練范圍內；二是MMLU，可能完全不在DeepSeek-R1-1.5B的訓練分布內。

下圖3顯示L1在新領域表現穩健：在非訓練通用推理數據集上，性能隨token預算正向增長，盡管有長度約束，也接近或匹配Agentica-4K的表現。

在GPQA和LSAT上，他們看到和主數據集一樣的線性性能增長趨勢，L1在相似token預算下能達到Agentica-4K的表現。

考慮到L1沒針對這些任務訓練，這種泛化能力很驚人。在MMLU上，線性關系沒那么明顯（R2=0.66），可能是因為這些知識類問題從長推理中獲益較少。

L1能高精度遵循長度約束

研究團隊在多個數學推理數據集上量化評估了L1遵循長度約束的能力。

下圖4顯示，他們的模型在所有token預算（512、1024、2048、3600）下都能保持一致控制，輸出長度通常很接近要求長度。

下圖5展示了平均誤差，反映了數據集中的平均偏離程度。結果顯示誤差很低，在數學推理數據集上接近3%。

雖然非訓練數據集誤差更高（20-40%），但仍比無控制的提示更好。

長思維鏈模型暗藏短思維鏈實力

鑒于L1在低token預算下表現強勁，研究團隊專門比較了它與基礎非推理模型（Qwen-2.5-1.5B-Instruct）和更大的非推理模型（GPT-4o和Llama-3.3-70B）在相同生成長度下的表現。

下表1顯示，L1在所有數據集上都持續超越或達到這些模型，盡管token預算相同。

平均來看，L1比非推理模型高5%，甚至比GPT-4o平均高2%。據研究者所知，這是首次證明一個15億參數模型能在相同生成長度下超過GPT-4o這樣的前沿模型。

總體來說，這表明通過適當的強化學習訓練，長思維鏈模型能靈活轉為短思維鏈模型，同時在相同生成長度下顯著超越基礎模型。

L1在不同token預算下采用不同推理策略

為了了解L1如何根據長度約束調整推理方法，研究團隊分析了不同長度輸出中推理相關詞語的出現頻率。

具體來說，他們計算了512 token輸出和4096 token輸出中最常見推理詞的出現率，觀察模型在不同長度約束下的策略變化。

下圖6把這些關鍵詞分成四種推理模式：「自我糾正與驗證」、「探索與替代」、「上下文設定」和「得出結論」。

圖6顯示，在4096 token輸出中，自我糾正和驗證相關的詞出現頻率比512 token輸出高約2倍。得出結論的詞隨token預算增加2-10倍，表明更徹底的驗證和完成。

有趣的是，大多數探索相關詞在高token數時的相對頻率降低，「Alternatively」（或者）是個例外。

總體來看，短思維鏈的推理模式和長思維鏈相似，但頻率分布不同，長思維鏈更傾向于自我驗證和得出結論。

下圖7還展示了不同生成長度下思考token（<think>標簽內）和答案token的比例。

他們發現這個比例在不同長度下相對穩定。這意味著短思維鏈時，模型通常給出簡短答案（往往直接輸出最終答案），節省token。

隨著生成長度增加，最后兩欄的答案長度趨于穩定，說明模型擴展了思考token，但沒讓最終答案變得啰嗦。

結論

在這項工作中，研究人員提出了「長度控制策略優化」（LCPO），一個簡單但強大的方法，用強化學習讓大語言模型能靈活控制推理鏈的長度。

他們用LCPO訓練了L1，一個推理語言模型，優化它生成符合提示中長度限制的輸出。LCPO比之前的測試時擴展方法強得多，在數學推理任務上比以前的長度控制方法相對提升超過100%，絕對提升20%。

此外，他們還證明了L1能很好地泛化到訓練分布之外的任務，把長度控制能力擴展到非訓練領域。

更有趣的是，他們的分析發現了一個意外現象：訓練生成更長推理鏈的模型，竟然在短思維鏈（short-CoT）推理上變得特別強，在相同生成長度下甚至超過了像GPT-4o這樣的大得多的前沿模型。

通過使用簡單的提示進行長度控制，LCPO為更高效、靈活和可擴展的推理模型開辟了很有前景的道路。

責任編輯：張燕妮來源：新智元

AI 模型數據

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：日韩欧美1区2区 | 国产高清在线精品一区二区三区 | 国产91久久精品一区二区 | 午夜大片| 嫩草视频在线免费观看 | 日韩欧美中文字幕在线视频 | 日本一区二区视频 | 国产精品久久久久久久久久久新郎 | 欧美日韩精品一区二区三区四区 | av免费看在线 | 欧美在线视频一区二区 | 热久色| 欧美精品成人 | 成人精品国产一区二区4080 | 亚州精品天堂中文字幕 | 成人精品一区二区三区 | 久久另类视频 | 在线看片国产 | 国产一区二区三区免费 | 国产一区在线免费观看视频 | 亚洲va欧美va天堂v国产综合 | 国产一区二区 | 国内久久精品 | 精品欧美一区二区三区久久久 | 久久久影院| 一区二区三区在线观看视频 | 精品麻豆剧传媒av国产九九九 | 国产精品精品 | 久久午夜精品福利一区二区 | 精品99久久久久久 | 国产高清精品一区二区三区 | 日本欧美三级高清视频 | 久久久久国产一区二区三区 | 国产精品成人久久久久 | 一道本不卡视频 | 免费在线观看一区二区 | 天天色天天射天天干 | 日韩精品在线网站 | 91精品国产乱码久久蜜臀 | 国产精品福利在线观看 | 日本黄色大片免费 |

<abbr id="yhtaz"><style id="yhtaz"></style></abbr>