華為多路徑推理破解大模型數學瓶頸，準確率超97%｜ICML 2025

2025-07-04 08:53:00

華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林（Forest-of-Thought，FoT）。

大模型越來越大，通用能力越來越強，但一遇到數學、科學、邏輯這類復雜問題，還是常“翻車”。

為破解這一痛點，華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林（Forest-of-Thought，FoT）。

該方法借鑒人類“多角度思考、反復驗證”的認知方式，打破傳統LLM的線性推理范式，通過構建多棵并行推理樹，引入動態自我修正機制與多視角共識決策策略。

論文將在7月份召開的ICML 2025大會上發表和開源。

在此基礎上，FoT在多個數學推理任務中表現突出，進一步展現了FoT相較于ToT（Tree-of-Thought）更優的推理能力。

具體而言，在GSM8K數據集上，結合FoT的QwQ-32B模型準確率高達97.33%，超過了GPT-4o和rStar-Math等先進模型；在更具挑戰性的AIME 2024測試中，更是將準確率提升至53.33%，較對比方法rStar-Math高出6.66%。

思維森林：讓大模型像人一樣“思維分叉+自我反省”

盡管LLM在語言理解、問答等任務中表現出色，但在數學和邏輯等需要多步嚴謹推理的場景中，仍然存在明顯短板：

思維森林FoT框架的核心靈感來自人類解決復雜問題的過程：頭腦風暴 → 多路徑探索 → 錯誤回溯 → 決策投票。

FoT模型在推理時并行構建多棵推理樹，每棵樹探索一種潛在思路，并引入三個關鍵機制：

稀疏激活（Sparse Activation）

在傳統的多路徑推理中，雖然激活所有可能路徑可以提升覆蓋率，但也帶來了指數級的計算開銷。

FoT引入了稀疏激活策略，其核心思想是在每一層推理過程中，依據節點輸出的置信度進行評分，僅保留得分最高的少量節點用于后續擴展。

該機制顯著減少了每層的推理分支數量，提升了每棵推理樹的邏輯集中度和計算效率。

動態自校正（Dynamic Self-Correction）

FoT中每棵推理樹在成長過程中，具備對自身推理狀態的“反省”與“重構”能力。

該模塊檢測推理路徑中可能出現的偏差（回答不斷重復等）時自動觸發自我反思，提高模型在復雜任務（如數學推導、科學多跳問答）中的魯棒性。

共識引導決策（Consensus-Guided Evaluation and Decision）

FoT的最終輸出不僅依賴于某一條推理路徑，而是融合多棵推理樹的候選答案，通過集體投票與專家評分機制共同完成決策。具體流程如下：

每棵推理樹在獨立推理后都會生成一個候選答案。

CGED首先嘗試從中識別出多數一致性結果（如超過半數樹提出相同答案）。若存在明確的多數共識，則直接采用該答案作為最終輸出。

若不存在明顯的一致性（如每棵樹的結論差異較大），則系統將調用一個預先訓練好的LLM專家模型對所有候選答案進行質量評估，從中選擇最優解。

該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標綜合判斷，確保最終輸出具備較高的可信度與可解釋性。

這一機制有效結合了“集體智慧”與“專家審閱”，提升了模型在不確定場景下的決策穩定性，特別適用于開放式問答、科學推理與法律場景等對輸出可靠性要求較高的任務。

在GSM8K、MATH等經典推理任務中，FoT顯示出超越ToT的表現：

在24點游戲任務中，FoT增加樹數即可提升14%準確率，明顯優于ToT通過葉子節點數量擴展的方式。

在GSM8K數學問答上，FoT與LLaMA3、Mistral、GLM等多個主流開源模型兼容，樹數越多，性能提升越明顯，呈現全新的推理scaling law曲線。

在MATH數據集全等級上，FoT推理準確率穩定提升，即使面對最復雜的問題也能保持優勢。

FOT是一種面向大語言模型的推理增強框架，通過引入多路徑探索、動態自我校正和共識決策機制，提升模型在復雜任務中的推理準確性、容錯性和泛化能力。

不僅如此，該方法旨在緩解傳統大模型在高階推理場景中的局限，為結構化、可解釋的推理提供支持，具有在金融風控、法律分析、科研輔助、醫療診斷等領域的應用潛力。

論文鏈接：https://arxiv.org/abs/2412.09078

項目地址：https://github.com/iamhankai/Forest-of-Thought

責任編輯：張燕妮來源：量子位