讓視覺語言模型像o3一樣動手搜索、寫代碼!Visual ARFT實現多模態智能體能力
在大型推理模型(例如 OpenAI-o3)中,一個關鍵的發展趨勢是讓模型具備原生的智能體能力。具體來說,就是讓模型能夠調用外部工具(如網頁瀏覽器)進行搜索,或編寫/執行代碼以操控圖像,從而實現「圖像中的思考」。
盡管開源研究社區在純文本的智能體能力方面(比如函數調用和工具集成)已取得顯著進展,但涉及圖像理解與操作的多模態智能體能力及其對應的評估體系仍處于起步階段。
因此,上海交大、上海 AI Lab、港中文、武漢大學的研究團隊最新推出的多模態智能體訓練方法 Visual-ARFT(Visual Agentic Reinforcement Fine-Tuning),專為賦予視覺語言模型(LVLMs)以「工具智能體」能力而設計。
并且,Visual-ARFT 項目已全面開源(包含訓練、評測代碼,數據和模型)。如果你對多模態模型、強化學習、視覺語言理解感興趣,不妨一起來探索更多可能性吧!
- 論文標題:Visual Agentic Reinforcement Fine-Tuning
- arXiv 地址: https://arxiv.org/pdf/2505.14246
- 代碼地址: https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT
Visual-ARFT 讓模型不僅能看圖、能理解,還能「動腦推理、動手操作」,主要包括以下三個方面的核心能力:
- 模型能夠自動調用搜索引擎查資料或者編寫并執行 Python 代碼處理圖像;
- 面對復雜任務,能夠自主拆解問題、規劃步驟、調用合適工具完成任務;
- 支持多步推理、多模態輸入,具備強大的跨模態泛化能力!
如圖 1 所示,本文的方法編寫并執行 Python 代碼以精準讀取圖像中特定區域的文本(上圖),或者通過互聯網搜索回答多模態多跳問題(下圖)。
圖 1. 視覺智能體強化微調(Visual Agentic Reinforcement Fine-Tuning,簡稱 Visual-ARFT)在執行復雜的多模態推理任務中展現出顯著優勢,例如:(上圖)編寫并執行 Python 代碼以精準讀取圖像中特定區域的文本,以及(下圖)通過互聯網搜索回答多跳問題。
同時,為了評估模型的工具調用和多模態推理能力,團隊構建了智能體評測基準 MAT-Bench (Multimodal Agentic Tool Bench)。測試結果顯示,Visual-ARFT 在多個子任務中全面超越 GPT-4o,通過調用工具 ——「寫代碼 + 查資料」,展現出了完成復雜多模態視覺任務的強大潛力。
方法概覽
Visual-ARFT 基于強化微調的訓練策略,使用 GRPO 的算法來更新模型權重。團隊針對多模態智能體完成任務的流程,對 LVLM 的多步工具調用和問題回答設計了 rule-based verifiable reward。通過簡單高效的 reward 設計,驅動模型自主探索工具的使用方法和思考模式。
團隊在訓練中使用幾十到最多 1.2k 的訓練數據,通過少量數據實現了對模型的多模態智能體能力的訓練。
圖 2. Visual-ARFT 框圖。主要針對 Agentic Search 和 Agentic Coding 兩類任務的多步推理和工具調用能力進行優化。
Visual-ARFT 針對以下兩類高難度任務場景進行強化訓練:
- Agentic Search:模型面對多模態的多跳復雜問題,先對視覺信息進行分析和推理,然后能夠主動進行任務分解、規劃信息檢索路徑,通過調用搜索引擎獲取外部知識并整合作答。
- Agentic Coding:模型面對模糊、旋轉、曝光過強等復雜圖像,能主動生成 Python 代碼完成圖像修復,或剪裁圖像,提取關鍵區域,并據此完成視覺問答。
在這一過程中,模型并非簡單輸出結果,而是具備完整的推理結構:
每一步都以 <think> 思考引導、<search> 檢索信息、<code> 編寫程序、<answer> 給出結論,真正形成可解釋的多模態認知路徑。
MAT 基準
團隊發布了全新的多模態智能體評測基準:MAT(Multimodal Agentic Tool Bench),專門評估多模態工具調用能力:
- MAT-Search:包含 150 道多跳視覺問答任務,人工標注 + 搜索推理;
- MAT-Coding:包含 200 道復雜圖像問答任務。模型可以直接作答或通過調用代碼工具處理圖像,輔助作答。
這一基準填補了當前開源模型在「多模態智能體以及工具調用」方面的評估空白。
圖 3. MAT 數據標注過程。MAT-Search 采用人工標注方法構建多模態多跳推理 VQA 數據,MAT-Coding 采用自動化流程構造針對 Agentic Coding 任務的 VQA 數據。
Visual-ARFT 實驗結果
團隊基于 Qwen2.5-VL 模型在 MAT 上對本文方法進行了測試。結果顯示,無論在 MAT-Search 還是在 MAT-Coding 上,本文方法都較 baseline 有了顯著的提升,并擊敗了 GPT-4o 模型。
相較于 baseline 模型直接推理的方式,本文方法通過讓 LVLM 學會推理與調用工具,在解決復雜的多模態任務時,更加的得心應手。此外,團隊觀察到 OpenAI-o3 模型在一眾開源閉源中取得了遙遙領先的性能,尤其是在 MAT-Coding 上,憑借其多模態推理和工具調用能力,斷層式超越了 GPT-4o 模型。
表 1. MAT 測試結果。 Visual-ARFT 相較 baseline 取得了顯著性能提升,擊敗 GPT-4o。開閉源模型距離 OpenAI-o3 模型存在較大性能差距。
為了測試本文方法的泛化能力,團隊選取了 4 個 Out of Domain 的傳統 MultihopQA Benchmark 來測試他們的模型,包括 2wikimlutihopQA,HotpotQA,MuSiQue 和 Bamboogle。
結果顯示基于 Visual-ARFT 的 Qwen2.5-VL 模型雖然僅僅使用幾十條數據進行訓練,但是模型獲得在這些多跳推理數據集上展現出了顯著的性能提升,并擊敗了其他基于強化學習的方法。
表 2. 傳統 MultihopQA 測試結果。團隊在 Out of Domain 的多個 multihopQA 上測試了本文方法,展現出 Visual-ARFT 的強大泛化能力。