別讓大模型想太多了,過度思考會影響性能
加州大學伯克利分校、蘇黎世聯邦理工學院等多所高校的研究人員,深入剖析了大模型在執行Agent任務時面臨的困境 ——過度思考。
為了量化這種行為,研究人員開發了一套系統評估框架,并通過4018條軌跡分析發現,高推理努力配置的模型雖然解決了29.1%的問題,但成本高達1400美元;而低推理努力配置則以3.5倍更低的成本達到了21.0%的成功率。
此外,生成兩個低推理解決方案并選擇其中一個具有較低過度思考得分的方法,實現了27.3%的解決率,同時減少了43%的計算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。
開源地址:https://github.com/AlexCuadron/ThinkingAgent
過度思考是指,大模型過度依賴內部推理,而忽視了從環境中獲取或整合關鍵反饋的傾向。即使在資源不受限制的情況下,這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制,從而導致錯誤的累積和決策能力的下降。
為了深入研究這種現象,研究人員通過分析智能體與環境之間的交互過程,識別出三種過度思考的典型表現模式。
首先是“分析癱瘓”(Analysis Paralysis),在這種情況下,模型過度專注于未來的規劃,而忽視了當前環境中的實際進展。它們會生成越來越復雜的行動序列,但卻難以系統地執行這些計劃,從而陷入無休止的規劃循環中。
其次是“魯莽行動”(Rogue Actions),在這種模式下,模型在面對錯誤時會嘗試同時執行多個相互依賴的行動,而沒有等待環境對前一個行動的反饋,模型試圖用內部模擬來替代真實的環境反饋。
最后是“過早脫離”(Premature Disengagement),在這種情況下,模型基于內部對問題空間的模擬而終止任務,而不是根據環境反饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務,或者錯誤地認為問題無法解決。
為了量化過度思考行為,研究團隊開發了一種系統化的評分方法,使用大模型作為評判標準。該方法通過分析模型軌跡,識別出上述三種過度思考模式,并給出0到10分的評分,分數越高表示過度思考越嚴重。每個評分都附有詳細的理由,解釋所識別的模式及其嚴重程度。完整的評估提示和評分標準可以在附錄A中找到。
為了驗證自動化評估方法的可靠性,研究人員邀請了四位專家手動評定了20個隨機選擇的模型軌跡。通過標準化評分,研究團隊進行了全面的統計分析,探究過度思考行為與模型性能的關系,以及過度思考對推理模型和非推理模型的不同影響。
結果顯示,推理模型的過度思考得分顯著高于非推理模型,且兩者之間的相關性非常強,證實了自動評估方法的可靠性。
此外,研究團隊設計了一個系統化評估軌跡的提示,避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現形式展開,即分析癱瘓、魯莽行為和過早脫離,并強調偏好內部推理鏈而非環境互動。
評分系統分為三檔:0-3分表示適當的環境互動,4-7分表示偶爾過度依賴內部推理,8-10分則表示完全脫離環境反饋。
通過提供具體的例子,如模型得0分時會持續重試類似配置并在每次嘗試間等待反饋,而得10分時會生成多個互依動作而不等待環境響應,或基于內部推理提前結束任務,確保評分標準的透明和一致。
實驗結果表明,過度思考評分與任務解決率呈現出顯著的負相關性。推理模型的過度思考評分越高,其在軟件工程任務中的表現越差。這一趨勢在非推理模型中也得到了體現,但其下降速度更快。例如,推理模型的趨勢線斜率為-7.894,而非推理模型的趨勢線斜率達到了-15.938。
在模型類型與過度思考的關系方面,作者們發現推理模型的過度思考傾向明顯高于非推理模型。實驗數據顯示,推理模型的平均過度思考評分為3.505,而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓練過程中被優化為生成更長的推理鏈,從而在面對需要頻繁與環境互動的任務時,表現出更高的過度思考傾向。
此外,還研究了模型規模對過度思考的影響。實驗結果表明,模型規模與過度思考評分之間存在負相關性。較小的模型,如7B和14B參數的模型在交互式任務中表現出更高的過度思考傾向,而較大的模型如671B參數的模型則相對較低。這一現象可能與模型的復雜性和對環境反饋的處理能力有關。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??
