港科大Apple新研究:Tokens使用量減少,模型推理還更強了
1+1等于幾?
現在的大推理模型(LRMs)已經展現出了非凡的推理能力。但是面對這樣最簡單的數學問題,現有的LRMs仍需要花費1400+的tokens來思考。
那么有辦法讓LRMs在推理思考時更快更強嗎?
來自港科大、港城、滑鐵盧大學和Apple的研究人員,最近提出了Laser系列新方法,實現了更好的模型效率和準確率平衡,做到了兩者的共同顯著提升。
經過Laser和它的進階方法Laser-D、Laser-DE訓練后的模型,相較于訓練前模型或者其他方法訓練的模型,在準確率(Accuracy)和Tokens使用效率(Efficiency)上,同時取得了顯著的提升。
例如在知名復雜數學推理基準AIME24上,Laser-D和Laser-DE方法能夠讓模型在減少Tokens使用量63%的情況下,還繼續提升6.1的性能。
同時,研究人員還發現,經過訓練的模型的思考過程里,冗余的“self-reflection”的比例大大降低,呈現出了一種更加健康的思考模式。
這一研究也在??引起了討論:
那么,Laser是如何讓大模型推理又快又好的呢?
三大創新實現性能-效率雙贏
Laser的研究人員首先發現,僅僅通過在強化學習過程中,對模型輸出長度進行截斷,就可以讓訓練后的模型的推理效率大幅提升。
但這種方式,只能帶來效率的提升,對于模型推理的準確性仍然有不小的損害。
這意味著,推理的準確性和效率其實是一個平衡問題(Trade-off),用更多的Tokens經常能取得更高的準確率,反之可能準確率就會受到損害。
所以不應該僅僅關注某一指標,而應該將兩者一同考慮,將問題的重點放在如何提升它們之間的平衡上面。
Laser主要通過以下三點創新來平衡效率和準確率,以做到雙提升:
1、統一視角:提出了一套統一的框架來看待各類基于長度的獎勵設計(Length-based Reward),并且將訓練時截斷這一簡單方法也統一進了這一套框架內。
2、Laser(Length-bAsed StEp Reward):基于這一個統一框架,研究人員提出一種全新的基于目標長度和階躍函數(Step Function)的獎勵設計,規避了之前獎勵設計存在的一些問題。
3、動態且帶有難度感知的Laser-D、Laser-DE方法:進一步的,研究人員提出了一套自動適配機制,來匹配不同難度下,不同題目的最優目標長度,讓Laser達到最優的平衡。
下面分別詳細展開下。
統一視角看待不同獎勵設計
研究人員首先將直接截斷訓練的方法和先前不同的長度獎勵設計聯系起來,統一成了一套統一的獎勵設計框架。
具體而言,所有的這些方法,都可以看做是正確性的獎勵C(x)、基于長度的獎勵S(x),以及一個控制開關λ(y)的組合。
表中最右側的可視化圖片,展示了不同的方法對應的獎勵函數的不同形狀,其中藍線代表正確的回復對應的獎勵函數,紅線代表錯誤的回復對應的獎勵函數。
從圖上可以看到,訓練時直接截斷的方法,有一個很大的問題在于,當模型產生的回復很長的時候,正確回復和錯誤回復的獎勵會雜糅在一起,使得模型無法正確區分回復的正確性,影響對對應數據的學習。
Laser:基于目標長度和階躍函數的獎勵設計
為了解決訓練截斷中“無法區分正確但冗長的回答”這一問題,研究人員提出了Laser獎勵函數。
Laser不再“懲罰”所有長回答,而是對在目標長度以內生成的正確回答給予額外的正向獎勵。
這種階躍函數(Step Function)形式的獎勵機制,既鼓勵簡潔,也保留了對準確推理的認可,有效提升了準確率與效率的整體平衡。
動態且帶有難度感知的LASER-D / LASER-DE方法
在進一步提升準確率與效率的平衡性上,研究人員提出了LASER-D方法:
通過引入動態調整目標長度與題目難度感知機制,模型在訓練過程中可以根據題目的難易程度,自適應設定更合適的token使用上限。
這一機制通過監控模型在不同難度題目上的生成表現,動態評估不同難度題目的最優目標長度。
具體來說,這一機制會定期使用一個小規模的監控集,對不同長度設定下的“預期正確回答數量”進行估算,并據此動態更新易/中/難三類題目的目標長度,幾乎不增加訓練開銷,卻顯著提升了訓練時獎勵函數的靈活性與適應性。
此外,他們還提出了LASER-DE。即在模型答錯時,鼓勵模型在更長長度上進行探索,嘗試糾正錯誤、發現更優的推理路徑,從而提升在困難題目上的表現。
這一系列改進讓LASER系列方法在多個benchmark上,實現了更優的性能-效率雙贏效果。
實驗效果
研究人員用DeepSeek-R1-Distill-Qwen的1.5B / 7B / 32B三個不同規模的模型,在MATH500、AIME24、AMC23、Olympiad Bench上進行了廣泛實驗。
首先,他們通過調整各個方法在訓練中的關鍵參數,繪制出不同方法在準確率(Accuracy)與token使用量(Efficiency)上的帕累托(Pareto)前沿。
如圖所示,在AIME2024和所有Benchmarks的平均上,原始模型(藍色虛線)在token使用上代價巨大。
而其他baselines方法雖然在效率上有所提升,但準確率下降明顯。
相比之下,LASER、LASER-D和LASER-DE(橙紅色)始終位于原模型的準確率之上——
在顯著減少Tokens使用的同時,準確率還明顯高于baseline,展現出強大的推理性能和推理效率雙提升。
特別是在AIME2024上,LASER-D在只使用原始模型1/3 Tokens的情況下,就能取得+6.1的準確率提升,證明其在復雜數學推理任務中的強大效果。
在7B和32B模型上,LASER-D和LASER-DE相較于其他方法,在準確率和token使用效率上都取得了更優表現。
DeepSeek-R1-Distill-Qwen-7B模型上,例如對于AIME24,LASER-D在7B模型上,在提升5.1的準確率的同時,平均token使用量還能降低60%,再次實現效率準確率雙提升。
研究人員還在多個領域外(OOD)測試集(GPQA、LSAT、MMLU)上對他們的方法進行了驗證。
實驗結果表明,在OOD測試集上,LASER、LASER-D和LASER-DE取得良好的泛化,同樣取得了最優的準確率與效率平衡,實現了準確率效率雙提升。
行為分析
為了進一步理解LASER系列方法為何能在保持準確性的同時大幅壓縮token使用,研究人員對模型推理行為的變化進行了分析。
結果顯示,經過LASER訓練后,模型生成中冗余的Backtracking(反復自我否定)顯著減少,而Verification(驗證)、Subgoal Setting(子目標拆解)等關鍵推理行為得以保留甚至增強。
這表明LASER不僅壓縮了長度,還引導模型學會了更簡潔、結構更清晰的思考方式。
這也與文章開頭展示的 “1+1等于幾” 的案例相呼應——
訓練后的模型不再陷入反復的self-reflections,而是能直接識別出問題的關鍵,做出高效、準確的回應。
團隊表示,他們相信“能夠準確且精簡地表達”是高級智能的重要體現。
真正強大的模型,應在準確性與簡潔性之間實現良好平衡,而非只追求其中任何一者。
LASER系列方法正是朝這一目標邁出的關鍵一步,它不僅壓縮了推理長度,更提升了推理質量。
團隊也表示,未來將繼續探索更靈活、更通用的方法,進一步推高模型的這一高級智能的能力。
論文: https://arxiv.org/abs/2505.15612
GitHub倉庫: https://github.com/hkust-nlp/Laser