推理“剎不住車”?新框架讓DeepSeek-R1們告別過度思考,已開源
DeepSeek-R1、OpenAI o1等推理模型大放異彩。但隨著能力增強,一個副作用越來越明顯——
它們開始想太多了。
從奧數題到程序邏輯,能解的題越來越多、推理鏈條越來越長。
也就是說,模型在完成推理任務時,常常出現過度思考:
- 步驟繁冗:明明兩步能解完,非要繞七八步,搞得邏輯鏈又長又亂;
- 表述拖沓:簡單結論非要用復雜語言兜圈子,說了一堆才到點子上;
- 輸出冗長:生成了大量無效tokens,既浪費算力,又拖慢推理速度。
這不光影響效率,更可能導致錯誤——在長鏈式思考中,每一步的小誤差都會累積放大,最后可能想著想著就跑偏了。
于是,一個關鍵問題擺在了現實面前:
如何讓模型既然會思考推理,也懂得“適可而止”,知道什么時候該停下來?
針對于此,來自浙江大學、天津大學和MSRA的研究團隊提出了一個新方法,Self-Braking Tuning(SBT)。
它是一種輕量級、通用的調優機制,可無縫集成到現有大模型中。其主要目的是讓模型不再一味求“多想”,而是在最短路徑上到達正確答案。
其核心設計包括剎車信號機制、多任務微調,且無需外部模塊或改動推理流程。
其中,剎車信號機制是在訓練階段引入一類特殊的信號,指示“當前信息已經足夠完成任務”,模型據此學習何時應終止推理。
多任務微調則指揮模型同時學習如何解題&何時停步,兼顧準確性與效率。
總結成一句話,SBT就像在大模型頭腦里裝了個“限速器”,讓它不再無休止地輸出,更聰明,也更節能。
讓模型知道自己“是否想太多”
SBT框架的核心目標,是讓模型具備自我判斷是否“想得太多”的能力,能夠在無需外部干預的情況下,適時終止推理過程。
它的特別之處在于,不依賴外部規則或指令,而是從模型內部出發,重塑模型對自身思考狀態的理解與掌控力。
簡單來說,就是讓模型像人一樣,在覺得“想得差不多了”時,能夠自然地停下來,而不是無休止地繼續推理。
構建過度推理識別指標體系
為了更有效地識別推理過程中可能出現的冗余部分,研究團隊構建了一套參考標準答案的評估體系。
他們將推理劃分為兩個主要階段:基礎方案(Foundation Solution)和進化方案(Evolution Solution)。
前者是模型在初步理解問題后給出的第一輪解答,而后者則是大模型后續對這一初始方案的進一步思考、補充和驗證。
基于此,團隊提出了兩個核心指標:推理效率比和過度推理標記比。
推理效率比衡量表示的是模型在達到第一個正確答案所需的推理步驟與整個推理過程總步驟的比例。
比例越接近1,表示模型的推理效率越高,過度推理的可能性越低。
而過度推理標記比則通過分析推理過程中的語言模式,識別與過度推理行為相關的特定詞匯,如 “Wait”“But”“However” 等,來量化過度推理的嚴重程度。
這兩種指標相互補充,從結構和語言兩個維度全面評估推理過程中的冗余程度。
創新性數據構建策略
研究團隊基于上述指標體系,開發了Self-Braking Tuning Exact(SBT-E)和Self-Braking Tuning Dynamic(SBT-D)兩種互補的數據構建策略。
SBT-E采用了一種統一的截斷策略,對每條推理路徑進行結構化處理。
在存在過度推理的案例中,保留模型生成的基礎解決方案以及一個進化方案,并補充一小段被掩碼的后續內容。
這樣的設計有助于模型在訓練時明確區分哪些推理是必要的,哪些則是多余的,從而逐步學會控制推理的深度,避免無效延展。
SBT-D則采用逐步適應的策略,根據不同問題的特點動態調整推理長度。
從完整保留基礎解決方案開始,逐步添加后續推理步驟,并在每一步重新計算過度推理分數。當分數超過預設的閾值時,停止添加推理步驟,并將超出部分進行掩碼處理。
這種方法使得模型能夠在不同復雜度的問題上自適應地終止推理,避免過度推理的發生。
自我調節制動策略
除了數據構建策略外,研究團隊還引入了自我調節制動策略,進一步增強模型對推理過程的自我控制能力。
在SBT-E和SBT-D構建的數據樣本里,研究團隊對推理過程的后期冗余部分進行了掩碼處理。
這就像給模型的推理之路設置關卡,擋住那些非必要的重復思考。
模型能看見這些被掩碼的內容,但在訓練時,這些部分不會計入損失函數,仿佛是“只展示不考核”。
通過這種方式,模型逐漸學會聚焦關鍵推理步驟,不再深陷無意義的冗余思考,從而提升推理效率。
除了對冗余推理部分進行掩碼處理,SBT框架還引入了自然語言提示機制,作為引導模型停步的輔助方式。
這些提示以簡潔的語言表達模型當前的判斷,例如:”Wait, my answer is too verbose. Let me answer it more concisely”。
借助語言模型對語義的理解能力,這種方式能夠在推理過程中起到提醒作用,幫助模型識別信息已足夠、無需繼續展開,從而減少無謂生成,提升整體推理的效率與簡潔性。
實現“少思考但不失準確”的效果
在數學推理基準測試(AIME、AMC、MATH500、GSM8K)上,研究團隊對SBT框架進行了廣泛的實驗評估。
從實驗結果來看,SBT框架在多個數學推理數據集上展現出了顯著的性能提升,尤其是在推理效率方面,取得了前所未有的進展。
相比于傳統的完整推理過程,SBT通過識別并主動規避冗余推理步驟,實現了“少思考但不失準確”的效果。
以Llama-3.1-8B-Instruct模型為例,應用SBT-E策略后,模型在推理過程中生成的token數量減少了62.8%,但最終的準確率仍穩定維持在94.1%。
更為重要的是,這一方法在多個模型架構和規模下均表現出高度的穩定性和通用性,充分證明了其方法論的魯棒性和推廣價值。
它不僅證明了大量推理內容在實際任務中是冗余的,而且表明這些冗余部分的剔除不會損害模型對復雜數學問題的理解與解答能力。
論文地址:https://arxiv.org/pdf/2505.14604