1.5B硬剛GPT-4o,CMU祭出LCPO提示可控思考!每token性能較S1暴漲2倍
一個只有15億參數的小模型,竟然能在相同token預算下挑戰GPT-4o的性能!
最近,CMU團隊推出了「長度控制策略優化」(LCPO),它讓AI的推理過程不再是「一刀切」,而是像個聰明管家,能根據任務需求靈活調整「思考」長度。
無論是啃下復雜的數學難題,還是快速解答簡單問題,這個名叫L1的模型都游刃有余。
更驚艷的是,它還能把長推理的智慧「濃縮」到短答案中,使模型的效率和準確性雙雙飆升。
論文鏈接:https://arxiv.org/abs/2503.04697
推理型語言模型在測試時展現出了一種獨特的能力:「思考更久」可以提升表現。
也就是說更長的「思維鏈」(CoT)序列,通常意味著更高準確性,但也意味著更高的計算成本。
然而,目前的CoT推理長度不可控,導致難以在測試時合理分配計算資源,以達到預期的性能水平。
研究團隊首次證明:在相同token預算下,15億參數的模型能匹敵GPT-4o的性能。
GPT-4o的參數規模為2000億左右,是新模型的參數規模的133多倍數!
在數學推理任務上,條件完全相同時,L1比S1的相對提升高達100%,絕對提升20%。
除了在標準數學推理場景中更好地控制長度,LCPO訓練的模型還能意外地泛化到分布外的任務,包括邏輯推理和像MMLU這樣的通用知識基準。而且泛化效果也很好。
更厲害的是在生成短推理時,研究團隊發現用LCPO訓練的「長思維鏈」(long-CoT)模型變得特別強:當提示要求短推理時,LCPO訓練的模型比原始模型強很多(提升高達10%),即便生成長度相同。
問題背景
當前的推理模型有一個關鍵局限性:它們的推理長度無法控制,這使得無法分配測試時計算預算以達到目標性能水平。這導致了三大問題:
1 計算浪費:在某些情況下,生成的序列可能長達數萬個標記,而在較短的推理已經足夠的情況下,這會導致計算資源的浪費。
2 過早停止:如果沒有長度控制,模型可能會在復雜問題上過早停止,未能分配足夠的推理步驟。
3 未探索的權衡:目前無法根據目標性能水平校準推理計算預算,導致潛在效率提升未被探索。
在新研究中,在提示中加入一個目標token長度來解決這個問題。
簡單來說,給定一個輸入提示和一個目標長度,模型需要生成一個回答,讓它的長度盡量接近目標長度,同時還得保證答案正確。
這種方式把準確性和輸出長度直接掛鉤,確保生成的思維鏈符合用戶指定的限制。
此前的方法,試圖通過強制模型在生成過短或過長token時生成特殊token(例如「等待」、「最終答案」),實現長度控制。
然而,這種僵硬的、人為設計的策略與基礎模型相比,性能顯著下降(下圖1)。
其他研究探討了在指令遵循和一般領域中控制輸出長度。
然而,推理模型面臨著全新的挑戰,例如輸出長度要長得多,以及需要在計算成本和性能提升之間進行權衡。
研究人員提出了一個叫做「長度控制策略優化」(LCPO)的簡單方法,它基于強化學習(RL),能讓推理語言模型精確地、靈活地控制輸出長度。
LCPO訓練模型時有兩個目標:一是最終輸出的正確性,二是生成的推理序列要符合提示中指定的長度限制。
這樣,LCPO訓練出來的模型既能滿足長度要求,又能優化推理表現,而不是依賴人為設計的規則。
研究人員試驗了兩種實用的長度限制方式:一是「LCPO-Exact」,要求生成的推理長度必須精確等于目標長度;二是「LCPO-Max」,要求輸出長度不超過目標長度。
他們用LCPO微調了一個15億參數的推理模型,這個模型基于Qwen-Distilled-R1-1.5B,得到了L1-Max和L1-Exact兩個版本。
這些L1模型能很好地在token預算和推理性能之間找到平衡,只要在提示中調整長度要求,就能平滑地在短而高效的推理和長而精準的推理之間切換(見圖1)。
重要的是,在這個權衡曲線上有一個點能恢復原始基礎模型的性能,同時在所有推理長度范圍內都比S1的表現更好(見圖1)。
解決方案:長度控制策略優化
研究團隊從一個預訓練的推理模型LLM開始,用一個數據集D(包含N個樣本),每個樣本只有輸入提示和最終答案(沒有中間的推理過程)。
為了實現長度控制,給每個提示加上一個目標長度的指令。這樣就得到了一個新的數據集Dnew,包含了帶長度指令的提示和對應的答案。
接下來,用強化學習的目標來更新模型LLM。在實驗中,研究人員選擇了GRPO方法。
獎勵函數包括兩部分:正確性獎勵rc和長度懲罰rlength。
這個獎勵函數有兩個作用:一是鼓勵模型給出正確答案,同時在要求短輸出時傾向于簡潔的推理過程;二是即使正確答案可以用更少的token生成,它也會持續推動模型盡量匹配指定的目標長度。
根據目標長度的指令和訓練目標不同,有兩類方法:
1 LCPO-Exact(或L1-Exact):要求生成的推理過程必須嚴格等于目標長度;示例提示為:「Think for exactly 512 token」
2 LCPO-Max(或L1-Max):要求生成的輸出不得超過目標長度,但可在該范圍內靈活調整,以適應不同問題的難度。示例提示為:「Think for maximum 1024 token」
精準模式:L1-Exact
長度控制策略優化(LCPO)是一種簡單RL方法,允許推理型語言模型僅使用提示(prompt),自適應地控制生成文本的長度。
在推理階段,輸出長度通過在每個測試提示后統一加上一個固定的目標長度(或者一組長度)來控制。
適用于下列場景:
1 基準測試(Benchmarking):確保不同模型在相同token預算下進行公平對比。
2 精確預算控制(Exact Token Budgeting):在受限資源環境下,嚴格控制生成內容的長度。
1 問題定義:給定輸入提示詞x和目標長度n_goal,生成一個長度n_y盡可能接近且答案正確的響應y。目標是最小化 |n_goal-n_y|的同時確保輸出正確。
2 提示詞增強(Prompt Augmentation):在每個提示詞中增加目標長度指令:
3 強化學習(Reinforcement Learning):通過獎勵函數進行優化,在準確性和長度匹配之間保持平衡:
其中, α用于平衡答案正確性和長度匹配的權重。
最大長度限制模式:L1-Max
最大長度限制模式,L-Max適用下列場景:
- 計算資源受限場景:確保最大token消耗受控,防止超出計算預算。
- 適應任務難度:允許較簡單任務使用更少token,而復雜任務可充分利用預算。
為了訓練L1-Max,在L1-Exact的基礎上繼續微調,用的是同一個強化學習框架,但改進了獎勵函數:
(1)逐步懲罰超過目標長度的輸出,而不是直接硬性截斷(這在GRPO目標中需要保證梯度傳播);
(2)鼓勵模型在不犧牲正確性的情況下,盡量少用token。
此外,L1-Max用雙重目標訓練:如果提示要求精確長度,就用長度控制策略優化;否則默認用最大長度限制模式。
具體而言,使用帶軟約束的獎勵函數進行優化,以平衡準確性和token預算:
其中參數α控制減少token使用的激勵程度;δ確保輕微超出預算但正確的答案優于錯誤答案。
結果與分析
L1表現遠超其他長度控制模型,同時保持強勁性能。
下圖2比較了L1-Exact和L1-Max與其它基準模型在不同生成長度下的表現。L1的兩個版本在所有token預算下都表現更好,同時還能精確控制長度。
相比專門為長度控制設計的S1方法,L1提升顯著,在512和1024 token預算下,相對性能提升100-150%,絕對性能提升20-25%。
這種顯著差異可以歸因于兩個關鍵原因:一是L1能智能調整思維鏈,讓它適應指定的長度限制還不打斷推理過程,而S1經常在中途被截斷;二是L1被明確訓練來生成不同長度的高質量推理鏈,能有效把長推理鏈的推理模式「濃縮」到短鏈中。
另外,研究團隊還發現L1的性能隨生成推理鏈的對數長度呈現線性增長,和OpenAI的o1及S1類似。
L1能很好泛化到非訓練領域(OOD)任務
研究團隊測試了L1在訓練分布外的領域控制長度的能力。
非訓練領域數據集分兩類:一是通用推理數據集GPQA和LSAT,沒明確用于L1訓練,但可能在DeepSeek-R1-1.5B的訓練范圍內;二是MMLU,可能完全不在DeepSeek-R1-1.5B的訓練分布內。
下圖3顯示L1在新領域表現穩健:在非訓練通用推理數據集上,性能隨token預算正向增長,盡管有長度約束,也接近或匹配Agentica-4K的表現。
在GPQA和LSAT上,他們看到和主數據集一樣的線性性能增長趨勢,L1在相似token預算下能達到Agentica-4K的表現。
考慮到L1沒針對這些任務訓練,這種泛化能力很驚人。在MMLU上,線性關系沒那么明顯(R2=0.66),可能是因為這些知識類問題從長推理中獲益較少。
L1能高精度遵循長度約束
研究團隊在多個數學推理數據集上量化評估了L1遵循長度約束的能力。
下圖4顯示,他們的模型在所有token預算(512、1024、2048、3600)下都能保持一致控制,輸出長度通常很接近要求長度。
下圖5展示了平均誤差,反映了數據集中的平均偏離程度。結果顯示誤差很低,在數學推理數據集上接近3%。
雖然非訓練數據集誤差更高(20-40%),但仍比無控制的提示更好。
長思維鏈模型暗藏短思維鏈實力
鑒于L1在低token預算下表現強勁,研究團隊專門比較了它與基礎非推理模型(Qwen-2.5-1.5B-Instruct)和更大的非推理模型(GPT-4o和Llama-3.3-70B)在相同生成長度下的表現。
下表1顯示,L1在所有數據集上都持續超越或達到這些模型,盡管token預算相同。
平均來看,L1比非推理模型高5%,甚至比GPT-4o平均高2%。據研究者所知,這是首次證明一個15億參數模型能在相同生成長度下超過GPT-4o這樣的前沿模型。
總體來說,這表明通過適當的強化學習訓練,長思維鏈模型能靈活轉為短思維鏈模型,同時在相同生成長度下顯著超越基礎模型。
L1在不同token預算下采用不同推理策略
為了了解L1如何根據長度約束調整推理方法,研究團隊分析了不同長度輸出中推理相關詞語的出現頻率。
具體來說,他們計算了512 token輸出和4096 token輸出中最常見推理詞的出現率,觀察模型在不同長度約束下的策略變化。
下圖6把這些關鍵詞分成四種推理模式:「自我糾正與驗證」、「探索與替代」、「上下文設定」和「得出結論」。
圖6顯示,在4096 token輸出中,自我糾正和驗證相關的詞出現頻率比512 token輸出高約2倍。得出結論的詞隨token預算增加2-10倍,表明更徹底的驗證和完成。
有趣的是,大多數探索相關詞在高token數時的相對頻率降低,「Alternatively」(或者)是個例外。
總體來看,短思維鏈的推理模式和長思維鏈相似,但頻率分布不同,長思維鏈更傾向于自我驗證和得出結論。
下圖7還展示了不同生成長度下思考token(<think>標簽內)和答案token的比例。
他們發現這個比例在不同長度下相對穩定。這意味著短思維鏈時,模型通常給出簡短答案(往往直接輸出最終答案),節省token。
隨著生成長度增加,最后兩欄的答案長度趨于穩定,說明模型擴展了思考token,但沒讓最終答案變得啰嗦。
結論
在這項工作中,研究人員提出了「長度控制策略優化」(LCPO),一個簡單但強大的方法,用強化學習讓大語言模型能靈活控制推理鏈的長度。
他們用LCPO訓練了L1,一個推理語言模型,優化它生成符合提示中長度限制的輸出。LCPO比之前的測試時擴展方法強得多,在數學推理任務上比以前的長度控制方法相對提升超過100%,絕對提升20%。
此外,他們還證明了L1能很好地泛化到訓練分布之外的任務,把長度控制能力擴展到非訓練領域。
更有趣的是,他們的分析發現了一個意外現象:訓練生成更長推理鏈的模型,竟然在短思維鏈(short-CoT)推理上變得特別強,在相同生成長度下甚至超過了像GPT-4o這樣的大得多的前沿模型。
通過使用簡單的提示進行長度控制,LCPO為更高效、靈活和可擴展的推理模型開辟了很有前景的道路。