成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

別讓大模型想太多了,過度思考會影響性能

發布于 2025-3-26 10:58
瀏覽
0收藏

加州大學伯克利分校、蘇黎世聯邦理工學院等多所高校的研究人員,深入剖析了大模型在執行Agent任務時面臨的困境 ——過度思考。


為了量化這種行為,研究人員開發了一套系統評估框架,并通過4018條軌跡分析發現,高推理努力配置的模型雖然解決了29.1%的問題,但成本高達1400美元;而低推理努力配置則以3.5倍更低的成本達到了21.0%的成功率。


此外,生成兩個低推理解決方案并選擇其中一個具有較低過度思考得分的方法,實現了27.3%的解決率,同時減少了43%的計算成本。這表明減輕過度思考不僅提高了推理效率,還顯著降低了成本。

別讓大模型想太多了,過度思考會影響性能-AI.x社區

開源地址:https://github.com/AlexCuadron/ThinkingAgent


過度思考是指,大模型過度依賴內部推理,而忽視了從環境中獲取或整合關鍵反饋的傾向。即使在資源不受限制的情況下,這種過度依賴內部推理的模型仍然會受到其不完整或不準確的世界模型的限制,從而導致錯誤的累積和決策能力的下降。


為了深入研究這種現象,研究人員通過分析智能體與環境之間的交互過程,識別出三種過度思考的典型表現模式。


首先是“分析癱瘓”(Analysis Paralysis),在這種情況下,模型過度專注于未來的規劃,而忽視了當前環境中的實際進展。它們會生成越來越復雜的行動序列,但卻難以系統地執行這些計劃,從而陷入無休止的規劃循環中。

別讓大模型想太多了,過度思考會影響性能-AI.x社區

其次是“魯莽行動”(Rogue Actions),在這種模式下,模型在面對錯誤時會嘗試同時執行多個相互依賴的行動,而沒有等待環境對前一個行動的反饋,模型試圖用內部模擬來替代真實的環境反饋。


最后是“過早脫離”(Premature Disengagement),在這種情況下,模型基于內部對問題空間的模擬而終止任務,而不是根據環境反饋來驗證解決方案的有效性。這種過度依賴內部推理的行為可能導致模型在沒有驗證的情況下就放棄任務,或者錯誤地認為問題無法解決。


為了量化過度思考行為,研究團隊開發了一種系統化的評分方法,使用大模型作為評判標準。該方法通過分析模型軌跡,識別出上述三種過度思考模式,并給出0到10分的評分,分數越高表示過度思考越嚴重。每個評分都附有詳細的理由,解釋所識別的模式及其嚴重程度。完整的評估提示和評分標準可以在附錄A中找到。

別讓大模型想太多了,過度思考會影響性能-AI.x社區

為了驗證自動化評估方法的可靠性,研究人員邀請了四位專家手動評定了20個隨機選擇的模型軌跡。通過標準化評分,研究團隊進行了全面的統計分析,探究過度思考行為與模型性能的關系,以及過度思考對推理模型和非推理模型的不同影響。


結果顯示,推理模型的過度思考得分顯著高于非推理模型,且兩者之間的相關性非常強,證實了自動評估方法的可靠性。


此外,研究團隊設計了一個系統化評估軌跡的提示,避免使用“過度思考”一詞以防止模型偏向自身定義。該提示圍繞過度思考的三種表現形式展開,即分析癱瘓、魯莽行為和過早脫離,并強調偏好內部推理鏈而非環境互動。

別讓大模型想太多了,過度思考會影響性能-AI.x社區

評分系統分為三檔:0-3分表示適當的環境互動,4-7分表示偶爾過度依賴內部推理,8-10分則表示完全脫離環境反饋。


通過提供具體的例子,如模型得0分時會持續重試類似配置并在每次嘗試間等待反饋,而得10分時會生成多個互依動作而不等待環境響應,或基于內部推理提前結束任務,確保評分標準的透明和一致。


實驗結果表明,過度思考評分與任務解決率呈現出顯著的負相關性。推理模型的過度思考評分越高,其在軟件工程任務中的表現越差。這一趨勢在非推理模型中也得到了體現,但其下降速度更快。例如,推理模型的趨勢線斜率為-7.894,而非推理模型的趨勢線斜率達到了-15.938。


在模型類型與過度思考的關系方面,作者們發現推理模型的過度思考傾向明顯高于非推理模型。實驗數據顯示,推理模型的平均過度思考評分為3.505,而非推理模型的平均評分為2.228。這種傾向可能是由于推理模型在訓練過程中被優化為生成更長的推理鏈,從而在面對需要頻繁與環境互動的任務時,表現出更高的過度思考傾向。


此外,還研究了模型規模對過度思考的影響。實驗結果表明,模型規模與過度思考評分之間存在負相關性。較小的模型,如7B和14B參數的模型在交互式任務中表現出更高的過度思考傾向,而較大的模型如671B參數的模型則相對較低。這一現象可能與模型的復雜性和對環境反饋的處理能力有關。


本文轉自 AIGC開放社區  ,作者:AIGC開放社區


原文鏈接:??https://mp.weixin.qq.com/s/Bs0IIkXel0ABS3HggdJRrw??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲免费在线 | 超碰在线久| 日本视频免费观看 | 日韩欧美在线视频观看 | 黄视频网站免费观看 | 99国产精品99久久久久久粉嫩 | 国产精品久久性 | 91tv在线观看 | 日韩视频在线播放 | 91麻豆蜜桃一区二区三区 | 伊人网站在线观看 | 国产精品一区二区免费 | 国产久| 99久久精品国产一区二区三区 | www久久久| 黄片毛片免费看 | 91亚洲国产精品 | 国产在线一区二区 | 国产yw851.c免费观看网站 | 亚洲视频在线观看 | 亚洲性网 | 色av一区二区三区 | 99久久精品国产一区二区三区 | 成人在线视频网 | 一区二区三区在线 | 欧 | 男人的天堂久久 | 国产三级电影网站 | 国产不卡一区 | 精品国产欧美 | 亚洲精品一区二区三区在线 | 91精品久久久久久综合五月天 | 中文字幕亚洲一区 | 亚洲精品久久久久中文字幕欢迎你 | 日日噜噜夜夜爽爽狠狠 | 香蕉视频黄色 | 一级免费毛片 | 午夜网站视频 | 久久高清 | 美女在线观看国产 | 久久精品亚洲 | 999热视频|