成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態慢思考:分解原子步驟以解決復雜數學推理

人工智能 新聞
本文將原子思維能力引入多模態大語言模型,以解決困難的數學推理問題。

本文作者來自中山大學、香港科技大學、上海交通大學和華為諾亞方舟實驗室等機構。第一作者項鯤為中山大學博士生,劉智立為香港科技大學博士生,姜子昊為上海交通大學碩士研究生。

AtomThink 是一個包括 CoT 注釋引擎、原子步驟指令微調、政策搜索推理的全流程框架,旨在通過將 “慢思考 “能力融入多模態大語言模型來解決高階數學推理問題。量化結果顯示其在兩個基準數學測試中取得了大幅的性能增長,并能夠輕易遷移至不同的多模態大模型當中。

圖片

圖片

  • 論文:https://arxiv.org/abs/2411.11930
  • 主頁(即將開源):https://github.com/Quinn777/AtomThink

背景與挑戰

在人工智能研究領域,高階數學推理一直是一項極具挑戰的任務。之前的一些工作通過精心設計 prompt 來激發模型生成思維鏈(CoT),而最近大熱的 OpenAI o1 的推出更是標志著強人工智能的巨大飛躍,它擅長通過利用擴展推理鏈和放大測試時間來解決復雜問題,即 “慢思考”。

然而,在視覺數學任務中由于信息建模的數據和計算資源需求顯著增加,將慢思考技術應用于多模態大語言模型(MLLM)具有挑戰性。盡管之前的一些工作說明激發模型固有 CoT 能力能夠改善推理,但他們并未考慮推理鏈中間步驟的質量,也缺乏對多模態 CoT 每個節點對應能力的細粒度分析,因此很難應用測試時間縮放策略來進行針對性的性能提升。

原子步驟質量評估

圖片

因此,本研究率先提出了一種原子步驟質量評估策略(如上圖所示),為慢思考能力提供新的分析視角。原子步驟是語義維度的最小推理步驟。考慮到人類可能利用不同的認知能力來解決數學問題,首先從 GPT-4o 的推理行為分布中構建一個規范的推理能力集合,代表高級智能模型在進行思考時所使用的不同能力。最后,將候選模型輸出應用結果監督和重映射來估計其對應能力的綜合得分。

下圖所示的結果表明當前開源模型的平均原子步驟質量較差,特別是在圖像識別、變量定義和計算等能力項上存在明顯缺陷。這一發現進一步促使我們關注現有模型執行單步推理的能力,并通過提高原子推理步驟的質量來引入更強大的慢思考。

圖片

AtomThink 慢思考框架

因此,為了解決開源 MLLM 原子步驟質量較差的問題,本文提出了 AtomThink 慢思考框架,通過引入多模態 CoT 注釋引擎、原子步驟微調策略和政策搜索策略,旨在通過仔細訓練來增強 MLLM 的解碼能力,并結合采樣后搜索來識別最佳預測節點,以逐步生成一條高質量的推理路徑。

圖片

1. 多模態注釋引擎

首先文中從數據角度引入了動態提示和短 CoT 增強策略來構建數據引擎。動態提示策略促使已有 LLM 迭代地構建狀態推理路徑。每個路徑節點代表一個推理步驟,包括前一階段、當前狀態和可能的動作。可能的行動包括繼續推理、驗證和得出結論,這由 LLM 自身決定。為充分利用現有 VQA 數據集的短 CoT 注釋和答案,本文還使用 GPT-4o 來執行原子化分割和注釋增強,這允許我們通過簡單的提示來將原始推理過程從語義上劃分為多個離散的步驟。

通過上述方式,本文從公開數據集中采樣數學問題并生成長思維鏈,通過人工篩查和后處理去除不正確的節點,最終制作了 AtomMATH 數據集。它包括 AMATH-SFT 和 AMATH-PRM 兩個子集,分別用于監督指令微調和過程監督訓練。

圖片


圖片

上表 2 中顯示了該數據集的質量較高,甚至在 GPT-4o 的評分中超越了人工標注的 PRM800k 數據集。

2. 原子步驟微調

該部分包括對現有 MLLM 的指令微調和對 PRM 的對齊訓練。首先通過將輸入數據重構為獨立的歷史狀態和當前動作,讓多模態大模型學習近似馬爾可夫決策的輸出格式。而在 PRM 的訓練則基于已有 LLM 來執行后訓練對齊,通過最小化下面的交叉熵損失函數來進行優化:

圖片

3. 策略搜索

由于擴大測試時間會產生多個候選步驟,文中將現有的策略分為路徑維度搜索和步驟維度搜索。路徑維度搜索包括:

1)多數投票:通過選擇多個推理路徑中最常見的結果來選擇最優。

2)Best-of-N:計算每個候選路徑的所有節點得分,通過不同聚合策略來將密集分數映射到整條路徑。聚合策略包括最壞動作、最后動作和平均得分。

步驟維度搜索包括:

1)貪心算法:側重于在推理過程的每一步做出局部最優選擇。它根據當前狀態選擇最佳的即時行動(步驟),而不考慮未來的后果。

2)Beam Search:在每個推理動作中探索多個分支,并為每個推理階段維護固定數量的較優候選原子步驟。它在探索不同的推理鏈和當前最優步驟之間取得了平衡。

實驗結果

實驗測試了四種不同的推理范式,包括:

1)直接輸出:直接輸出答案。

2)CoT 輸出:設計 CoT 提示來一次性產生中間推理步驟和答案。

3)QuickThink:逐步產生一條原子推理路徑而不進行搜索,推理時間較短。

4)SlowThink:使用 Beam Search 來搜索和剪枝一棵搜索樹,推理時間較長。

圖片

上表展示了本文框架的性能。首先在只使用 QuickThink 時,對于 LLaVA-Llama3-8B 其 AtomThink 版本就大大超越了基線模型,在 MathVista 上實現了約 10% 的改進,在 MathVerse 上實現了 19% 的提升。這表明,當模型具有原子推理能力時,它已經可以利用快速思考進行更準確的數學推理。

實驗結果還證明了純語言模型也能對多模態推理提供有效的過程監督。在和 LLaVA-Llama3-8B 與 EMOVA-8B 的對比中 SlowThink 都獲得了一致的性能提升,特別是對比 CoT 輸出的性能甚至提升了一倍,表明該框架具有強大的可擴展性。

圖片

對于不同的搜索策略本文也做出了細致比較,實驗證明 Best-of-N 和 Beam Search 比多數投票和貪心算法的提升明顯,特別是基于平均得分聚合的 Best-of-N 在 MathVista-Math 任務中獲得了最高的 58.7% 的精度。

圖片

通過改變候選步驟數量,文章還探討了多模態數學推理任務中 Test-time scaling law 的存在。隨著候選步驟的增加,兩個模型都呈現出不斷增強的趨勢,其中較弱的 LLaVA 模型即使推理時間增加十倍也沒有呈現出邊際效應。

總結

本文將原子思維能力引入多模態大語言模型,以解決困難的數學推理問題。文中發布了一個高質量的長 CoT 數據集以及一個關注于提升原子步驟質量的慢思考框架。該方法在解決問題的每一步都始終保持著較高的推理質量,從而提高了各種多模態數學任務的推理性能,為開發廣義慢思考模型鋪平了道路。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-26 01:20:53

多模態大模型圖片

2024-11-19 15:00:00

模型開源

2024-11-29 14:00:00

模型訓練

2025-06-10 03:30:00

2009-08-12 10:29:31

C#實現全局鉤子

2025-05-08 02:02:02

2025-06-27 08:40:00

模型推理AI

2025-05-21 08:47:00

2024-11-07 13:19:03

2025-04-03 09:42:05

2024-12-13 14:30:00

AI模型數據

2025-03-25 09:24:05

2025-05-30 09:17:00

2024-08-08 13:04:28

2025-02-10 14:10:00

模型數據訓練

2025-02-27 10:08:19

2023-07-11 13:05:43

LAM語言模型

2025-01-08 08:21:16

2025-01-21 13:15:15

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 三级视频在线观看电影 | 国产精品福利久久久 | 秋霞影院一区二区 | 免费黄色a视频 | 国产中文 | 欧美一极视频 | 18gay男同69亚洲网站 | 一区二区三区免费在线观看 | 欧美日韩亚洲在线 | 91麻豆精品一区二区三区 | 欧美久久久网站 | 黄视频网址 | 亚洲va中文字幕 | 国产精品毛片一区二区三区 | 美女拍拍拍网站 | 久久av影院 | 91在线最新 | 欧美一区免费 | 蜜桃臀av一区二区三区 | 欧美精品成人 | 亚洲国产精品一区二区三区 | 国产成人精品综合 | 日本精品一区 | av香港经典三级级 在线 | 2022国产精品 | 在线区| 日韩免费在线视频 | 午夜激情视频 | 国产精品片 | 欧美一级电影免费观看 | 成人欧美一区二区三区色青冈 | 天天躁日日躁狠狠很躁 | 国产一区久久久 | 亚洲精品视频久久 | 亚洲在线一区二区 | 中文字幕 亚洲一区 | 网页av| 欧美日韩在线视频一区 | 男人天堂网址 | 九九久久精品 | 精品国产免费一区二区三区演员表 |