成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華為多路徑推理破解大模型數學瓶頸,準確率超97%|ICML 2025

人工智能 新聞
華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林(Forest-of-Thought,FoT)。

大模型越來越大,通用能力越來越強,但一遇到數學、科學、邏輯這類復雜問題,還是常“翻車”。

為破解這一痛點,華為諾亞方舟實驗室提出全新高階推理框架 ——思維森林(Forest-of-Thought,FoT)

該方法借鑒人類“多角度思考、反復驗證”的認知方式,打破傳統LLM的線性推理范式,通過構建多棵并行推理樹,引入動態自我修正機制與多視角共識決策策略。

論文將在7月份召開的ICML 2025大會上發表和開源。

圖片

在此基礎上,FoT在多個數學推理任務中表現突出,進一步展現了FoT相較于ToT(Tree-of-Thought)更優的推理能力。

具體而言,在GSM8K數據集上,結合FoT的QwQ-32B模型準確率高達97.33%,超過了GPT-4o和rStar-Math等先進模型;在更具挑戰性的AIME 2024測試中,更是將準確率提升至53.33%,較對比方法rStar-Math高出6.66%。

圖片

思維森林:讓大模型像人一樣“思維分叉+自我反省”

盡管LLM在語言理解、問答等任務中表現出色,但在數學和邏輯等需要多步嚴謹推理的場景中,仍然存在明顯短板:

  • 常陷入“單路徑”慣性,缺乏反思與嘗試其他思路的能力;
  • 中間步驟易出錯,且錯誤難以自我糾正;
  • 無法有效整合多種解法來做集體判斷,缺乏“共識感知”。

思維森林FoT框架的核心靈感來自人類解決復雜問題的過程:頭腦風暴 → 多路徑探索 → 錯誤回溯 → 決策投票


圖片

FoT模型在推理時并行構建多棵推理樹,每棵樹探索一種潛在思路,并引入三個關鍵機制:

稀疏激活(Sparse Activation)

在傳統的多路徑推理中,雖然激活所有可能路徑可以提升覆蓋率,但也帶來了指數級的計算開銷。

FoT引入了稀疏激活策略,其核心思想是在每一層推理過程中,依據節點輸出的置信度進行評分,僅保留得分最高的少量節點用于后續擴展。

該機制顯著減少了每層的推理分支數量,提升了每棵推理樹的邏輯集中度和計算效率。

動態自校正(Dynamic Self-Correction)

FoT中每棵推理樹在成長過程中,具備對自身推理狀態的“反省”與“重構”能力。

該模塊檢測推理路徑中可能出現的偏差(回答不斷重復等)時自動觸發自我反思,提高模型在復雜任務(如數學推導、科學多跳問答)中的魯棒性。

共識引導決策(Consensus-Guided Evaluation and Decision)

FoT的最終輸出不僅依賴于某一條推理路徑,而是融合多棵推理樹的候選答案,通過集體投票與專家評分機制共同完成決策。具體流程如下:

每棵推理樹在獨立推理后都會生成一個候選答案。

CGED首先嘗試從中識別出多數一致性結果(如超過半數樹提出相同答案)。若存在明確的多數共識,則直接采用該答案作為最終輸出。

若不存在明顯的一致性(如每棵樹的結論差異較大),則系統將調用一個預先訓練好的LLM專家模型對所有候選答案進行質量評估,從中選擇最優解。

該評分模型可基于答案的邏輯連貫性、對問題的契合度、生成路徑的可靠性等多維指標綜合判斷,確保最終輸出具備較高的可信度與可解釋性。

這一機制有效結合了“集體智慧”與“專家審閱”,提升了模型在不確定場景下的決策穩定性,特別適用于開放式問答、科學推理與法律場景等對輸出可靠性要求較高的任務。

圖片

實驗亮點:比思維樹更強、更穩、更聰明

在GSM8K、MATH等經典推理任務中,FoT顯示出超越ToT的表現:

24點游戲任務中,FoT增加樹數即可提升14%準確率,明顯優于ToT通過葉子節點數量擴展的方式。

圖片

GSM8K數學問答上,FoT與LLaMA3、Mistral、GLM等多個主流開源模型兼容,樹數越多,性能提升越明顯,呈現全新的推理scaling law曲線。

圖片

MATH數據集全等級上,FoT推理準確率穩定提升,即使面對最復雜的問題也能保持優勢。

圖片

總結:從更聰明,到更可信

FOT是一種面向大語言模型的推理增強框架,通過引入多路徑探索、動態自我校正和共識決策機制,提升模型在復雜任務中的推理準確性、容錯性和泛化能力。

不僅如此,該方法旨在緩解傳統大模型在高階推理場景中的局限,為結構化、可解釋的推理提供支持,具有在金融風控、法律分析、科研輔助、醫療診斷等領域的應用潛力。

論文鏈接:https://arxiv.org/abs/2412.09078

項目地址:https://github.com/iamhankai/Forest-of-Thought

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-26 08:40:15

模型隱私推理

2023-12-12 13:51:00

AI訓練

2024-10-15 11:06:08

2025-05-21 13:56:37

模型圖像AI

2023-06-21 09:15:30

AI 技術神經網絡

2021-03-08 15:45:43

AI 數據人工智能

2023-09-25 07:31:19

算力AI框架

2025-04-18 08:42:52

模型推理AI

2023-12-13 14:17:10

微軟變色龍框架

2019-01-03 09:04:04

谷歌系統機器

2024-12-26 15:30:00

模型深度學習AI

2025-05-19 08:30:00

2016-01-27 13:37:53

機器學習數據模型算法

2024-07-15 08:27:00

2024-09-12 13:50:00

模型訓練

2025-05-16 08:44:01

2025-03-11 08:50:00

2023-11-20 21:56:04

AI推理

2023-09-19 14:56:00

模型訓練

2023-10-14 13:09:53

谷歌模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91社区在线观看高清 | 国产一二三区免费视频 | 嫩草视频在线看 | 亚洲国产精品99久久久久久久久 | 国产一区二区精品在线 | 成人av电影天堂 | 成人欧美一区二区 | 成人精品一区二区三区中文字幕 | 亚洲美女一区 | 亚洲精品国产第一综合99久久 | 国产在线一区二区 | 久久久久久国产 | 天天夜碰日日摸日日澡 | 国产精品国产成人国产三级 | 欧洲亚洲一区二区三区 | 国产视频1区 | 成人网在线看 | 精品国产高清一区二区三区 | 精品毛片 | 成人免费视频网站在线观看 | 精品久久久久久久久亚洲 | 综合久久一区 | 国产成人99久久亚洲综合精品 | 亚洲欧美综合精品久久成人 | 精品日韩在线 | 精品国产欧美一区二区三区成人 | 成人精品 | 欧美一区二区黄 | 日韩在线播放网址 | 精品一区免费 | 日本黄色大片免费看 | 欧美 日韩 综合 | 美女久久久久久久久 | 国产精品中文字幕在线观看 | 欧美精选一区二区 | 久久久精品影院 | 久久99精品国产 | 91av在线电影 | 99久久亚洲 | 超碰97人人人人人蜜桃 | 日韩一级在线 |