成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多智能體架構(gòu)Insight-V來了!突破長鏈視覺推理瓶頸

人工智能 新聞
來自南洋理工大學(xué)、騰訊、清華大學(xué)的研究者們提出一種能夠進行長鏈視覺推理的多模態(tài)模型 Insight-V。Insight-V 提供了 1)針對復(fù)雜的多模態(tài)任務(wù),可擴展地生成冗長且可靠的推理數(shù)據(jù);2)建立有效的訓(xùn)練流程,以增強多模態(tài)語言模型的推理能力。

本文的主要作者來自南洋理工大學(xué) S-Lab、騰訊公司和清華大學(xué)智能視覺實驗室。本文的共同第一作者為南洋理工大學(xué)博士生董宇昊和清華大學(xué)自動化系博士生劉祖炎,主要研究方向為多模態(tài)模型。本文的通訊作者為南洋理工大學(xué)助理教授劉子緯和騰訊高級研究員饒永銘。

大語言模型(LLMs)通過更多的推理展現(xiàn)出了更強的能力和可靠性,從思維鏈提示發(fā)展到了 OpenAI-o1 這樣具有較強推理能力的模型。盡管人們?yōu)楦倪M語言模型的推理做出了種種努力,但在多模態(tài)視覺語言任務(wù)中,高質(zhì)量的長鏈推理數(shù)據(jù)以及優(yōu)化的訓(xùn)練流程仍未得到充分的探索。

為了解決上述問題,來自南洋理工大學(xué)、騰訊、清華大學(xué)的研究者們提出一種能夠進行長鏈視覺推理的多模態(tài)模型 Insight-V。Insight-V 提供了 1)針對復(fù)雜的多模態(tài)任務(wù),可擴展地生成冗長且可靠的推理數(shù)據(jù);2)建立有效的訓(xùn)練流程,以增強多模態(tài)語言模型的推理能力。

Insight-V 的核心創(chuàng)新點包括:1)一個用于生成長鏈、高質(zhì)量推理數(shù)據(jù)的可擴展的數(shù)據(jù)生成流程;2)一個將視覺推理任務(wù)分解為推理和總結(jié)的多智能體系統(tǒng);3)一個用于增強視覺推理能力的兩階段訓(xùn)練流程。這些設(shè)計賦予了 Insight-V 較強的視覺推理能力。

圖片

  • 論文:https://arxiv.org/abs/2411.14432
  • 代碼:https://github.com/dongyh20/Insight-V
  • 模型:https://huggingface.co/THUdyh/Insight-V-Reason

1. 介紹

現(xiàn)有的研究通過長鏈推理來提升語言模型(LLMs)的推理能力,已經(jīng)取得了顯著進展,這在很大程度上得益于結(jié)構(gòu)化、高質(zhì)量數(shù)據(jù)的可獲取性以及成熟的訓(xùn)練流程。相比之下,多模態(tài)語言模型(MLLMs)進行長鏈視覺推理仍然是一項重大挑戰(zhàn),主要原因是缺乏大規(guī)模、高質(zhì)量的數(shù)據(jù)集以及高效有效的訓(xùn)練策略。與純文本數(shù)據(jù)相比,視覺推理數(shù)據(jù)不僅收集成本更高,而且由于缺乏有效的數(shù)據(jù)生成流程,還需要大量人力來進行詳細標注和驗證。此外,當前的多模態(tài)語言模型無法有效利用視覺線索進行精確的視覺推理,需要一種有效的訓(xùn)練程序,使多模態(tài)語言模型在保持清晰視覺感知的同時能夠進行詳細推理。

圖片

圖 1:Insight-V 方法展示。

為了解決以上挑戰(zhàn),本文提出了一個視覺推理的多模態(tài)系統(tǒng) Insight-V,能夠?qū)崿F(xiàn)結(jié)構(gòu)化的長鏈視覺推理。如圖 1 所示,Insight-V 由兩個智能體組成,一個專門負責(zé)推理,另一個負責(zé)總結(jié),這使得它在各類視覺推理基準測試中的性能有了顯著提升。

Insight-V 的主要貢獻包括:

  • 一個用于生成長鏈、高質(zhì)量推理數(shù)據(jù)的可擴展的數(shù)據(jù)生成流程。通過利用已有的模型構(gòu)建數(shù)據(jù)生成流程,從而提供豐富的,可擴展的視覺推理訓(xùn)練數(shù)據(jù)。
  • 一個將視覺推理任務(wù)分解為推理和總結(jié)的多智能體系統(tǒng)。通過將視覺任務(wù)分解為推理和總結(jié),并利用不同的模型來分別解決不同的任務(wù),來提升視覺推理能力。
  • 一個用于增強視覺推理能力的兩階段訓(xùn)練流程,從而使 Insight-V 能夠在視覺推理評測集上取得優(yōu)異的性能。

我們提供了 Insight-V 的模型權(quán)重,在視覺推理任務(wù)上表現(xiàn)出色,在 7B 規(guī)模下取得了綜合最好的結(jié)果,在部分數(shù)據(jù)集超過最先進的綜合模型和商業(yè)模型,為多模態(tài)視覺推理的發(fā)展提供了一個值得探索的方向。

2. 方法概覽

結(jié)構(gòu)化推理數(shù)據(jù)構(gòu)建

圖片

圖 2:結(jié)構(gòu)化數(shù)據(jù)構(gòu)建。

現(xiàn)有的研究已經(jīng)探索了將推理能力融入多模態(tài)大型語言模型(MLLMs)中。然而,訓(xùn)練 MLLMs 具備強大的推理技能仍然是一個相當大的挑戰(zhàn),尤其是由于數(shù)據(jù)方面的限制。為了解決這一問題,我們介紹了提出的數(shù)據(jù)生成流程,該流程旨在通過漸進式生成過程和多粒度評估來生成高質(zhì)量的長鏈推理數(shù)據(jù)。如圖 2 所示,這種可擴展的方法使我們能夠生成高質(zhì)量的數(shù)據(jù),從而有效地提升模型的推理能力。

漸進式長鏈推理數(shù)據(jù)生成。我們通過調(diào)用能力強大的多模態(tài)綜合模型,來收集單步推理結(jié)果。在每一步推理結(jié)束之后,模型根據(jù)歷史的推理結(jié)果來生成針對下一輪推理的動作,如果動作為‘繼續(xù)推理’,下一步模型繼續(xù)執(zhí)行單步推理;如果動作為‘總結(jié)’,下一步模型根據(jù)歷史推理內(nèi)容總結(jié)得出答案。

多粒度評估。我們通過兩個步驟來對生成的推理數(shù)據(jù)進行評估。首先,我們直接使用真實答案來對推理數(shù)據(jù)進行過濾,過濾掉最終答案錯誤的數(shù)據(jù)。之后,我們使用一個推理步驟打分模型,來針對推理數(shù)據(jù)的質(zhì)量進行打分,將推理數(shù)據(jù)分為不同質(zhì)量的子集,以供最后訓(xùn)練數(shù)據(jù)集的構(gòu)建。

模型設(shè)計

推理模型。我們提出了一種專門的推理智能體,其旨在針對輸入查詢生成一個詳細的、逐步推進的推理過程。我們通過為每個問題選取得分最高的推理路徑來構(gòu)建推理數(shù)據(jù)集。在基于該數(shù)據(jù)集進行訓(xùn)練之后,模型轉(zhuǎn)變?yōu)橐粋€具有更強推理能力的推理智能體,使其能夠生成更詳細、結(jié)構(gòu)化的推理過程。

總結(jié)模型。我們開發(fā)了一種對推理路徑中的不準確之處具有較強適應(yīng)性的總結(jié)模型,該模型可根據(jù)需要有選擇性地納入或忽略某些元素。這種方法在最大程度發(fā)揮推理模型效能的同時,將引入誤導(dǎo)性信息的風(fēng)險降至最低。我們利用所收集的數(shù)據(jù)集來完成總結(jié)任務(wù),該數(shù)據(jù)集由兩類數(shù)據(jù)組成:具有最優(yōu)推理過程的數(shù)據(jù)和具有有缺陷推理過程的數(shù)據(jù)。此外,為了保留原有的多模態(tài)能力,我們用標準問答數(shù)據(jù)對數(shù)據(jù)集進行補充,以維持總結(jié)智能體在直接問答方面的性能。

圖片

圖 3:訓(xùn)練流程。

訓(xùn)練策略

Insight-V 的訓(xùn)練策略簡單直接。我們從一個已經(jīng)訓(xùn)練好的多模態(tài)模型出發(fā),利用這個模型的權(quán)重來初始化 Insight-V 當中的兩個模型。

第一階段,我們進行多智能體系統(tǒng)的監(jiān)督微調(diào)。對于推理模型,我們利用精心整理的推理數(shù)據(jù)集來培養(yǎng)逐步推理的能力。對于總結(jié)模型,我們按照上文所述構(gòu)建了一個數(shù)據(jù)集,并從用于基礎(chǔ)模型的數(shù)據(jù)集中抽取了大約一百萬對通用的圖文組合,以保留其原有的視覺感知能力。

在第二階段,我們利用強化學(xué)習(xí)算法來進一步提升模型的推理能力。我們使用迭代式直接偏好優(yōu)化(Iterative DPO)。通過進行多輪直接偏好優(yōu)化(DPO)訓(xùn)練和抽樣,這種方法能使該模型在訓(xùn)練期間更好地模擬在線環(huán)境,從而進一步提升其性能。

3. 實驗結(jié)果

視覺推理

我們在 7 個基準測試上開展了評估實驗,涵蓋了通用推理和特定任務(wù)推理評估。當應(yīng)用于 LLaVA-NeXT 和我們的基線模型時,Insight-V 展現(xiàn)出了顯著的有效性和通用性,大幅超越了其他最先進的大型語言模型(MLLMs)。在 MMStar 數(shù)據(jù)集中,Oryx 取得 61.5% 的平均準確率。在 MME 數(shù)據(jù)集上取得了 2312 的總分,并且在 MME 的感知和認知子任務(wù)上都取得了先進的結(jié)果。針對 7 個數(shù)據(jù)集的平均結(jié)果,Insight-V 表現(xiàn)出色,超越了一系列先進的模型。

圖片

基礎(chǔ)視覺感知

為了更進一步測試 Insight-V 的通用性,我們在一些側(cè)重評估模型基礎(chǔ)視覺感知能力的數(shù)據(jù)集上進行了測試。結(jié)果表明,InsightV 在不影響一般視覺感知能力的情況下提升了推理能力,甚至在對感知能力要求更高的基準測試上也實現(xiàn)了性能提升。當 Insight-V 與 LLaVA-NeXT 模型結(jié)合時,在 TextVQA,DocVQA,OCRBench,AI2D 等測試集上都有顯著的性能提升,當與我們構(gòu)建的更強的基礎(chǔ)模型結(jié)合時,在這些 benchmark 上也表現(xiàn)出了更好的結(jié)果。

圖片

分析實驗

多智能體系統(tǒng)的有效性。針對 Insight-V 的設(shè)計,我們與其他可能的設(shè)計選擇進行了對比,包括直接進行微調(diào)、多輪對話監(jiān)督、只訓(xùn)練總結(jié)模型。結(jié)果顯示,多智能體設(shè)計的表現(xiàn)優(yōu)于其他配置,突出了推理和總結(jié)分解的關(guān)鍵作用。

圖片

數(shù)據(jù) Scaling Law 實驗。我們研究了數(shù)據(jù)擴展對于 Insight-V 的影響,尤其是對于推理模型的效果。結(jié)果表明,隨著推理模型訓(xùn)練數(shù)據(jù)的擴展,推理模型的性能得到了顯著的提升。推理模型得益于數(shù)據(jù)擴展,能為總結(jié)模型提供更有價值的見解。

圖片

強化學(xué)習(xí)算法的效果。我們探究了不同的強化學(xué)習(xí)策略對于推理模型效果的影響。我們對比了使用 RLAIF 數(shù)據(jù)進行訓(xùn)練,直接進行 DPO 以及 Insight-V 的多輪迭代式 DPO。結(jié)果顯示,相比其他方法,迭代直接偏好優(yōu)化(Iterative DPO)逐步增強了模型的推理能力,從而帶來了性能的提升。

圖片

4. 案例分析

圖片

我們對 Insight-V 與思維鏈(Chain-of-Thought)以及通過直接監(jiān)督微調(diào)學(xué)習(xí)進行了定性比較。對于 Insight-V 系統(tǒng)而言,其推理智能體能夠提供一個更加連貫且結(jié)構(gòu)化的推理過程,從而引導(dǎo)總結(jié)智能體得出正確答案;然而,其他方法在面對復(fù)雜推理任務(wù)時會顯得吃力,無法解決這類具有挑戰(zhàn)性的問題。

5. 總結(jié)

在本文中,我們介紹了 Insight-V,這是一種新穎的系統(tǒng),它將用于長鏈、高質(zhì)量推理數(shù)據(jù)的可擴展數(shù)據(jù)生成系統(tǒng)與有效的多智能體訓(xùn)練系統(tǒng)相結(jié)合,以增強多模態(tài)語言模型(MLLMs)的推理能力。通過開發(fā)該系統(tǒng),我們提供了一種旨在提高推理性能的可擴展模型訓(xùn)練方法。我們在各種基準測試中的廣泛評估證明了我們這種方法的有效性,為賦予多模態(tài)語言模型更強的推理能力鋪平了道路。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-07-23 14:10:48

2023-12-26 12:12:01

模型訓(xùn)練

2025-05-30 15:53:27

智能體模型AI

2022-01-06 22:29:35

人工智能機器人自動化

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2024-12-25 09:06:44

2025-05-28 09:17:00

端到端模型視覺

2014-03-12 13:33:10

淘寶京東亞馬遜

2013-05-22 13:06:14

aerohive協(xié)同控制WLAN

2021-07-13 18:57:33

人工智能AI

2024-03-25 00:30:00

AI框架

2025-06-18 09:06:00

2024-11-08 15:10:00

模型智能體

2025-07-02 09:33:54

2025-03-13 11:18:14

2024-11-14 18:40:57

2025-06-09 08:42:23

2024-09-23 08:20:00

模型訓(xùn)練

2025-06-06 14:17:11

模型訓(xùn)練AI
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 91精品国产综合久久小仙女图片 | 精品国产免费一区二区三区演员表 | 丁香一区二区 | 国产欧美日韩一区 | 91精品国产91久久综合桃花 | 夜久久| 黄色免费网址大全 | 天天天操 | 91久久精品国产免费一区 | 国产精品爱久久久久久久 | 亚洲二区视频 | 97人人澡人人爽91综合色 | 在线视频成人 | 91爱啪啪| 美女福利网站 | 插插宗合网 | 一级毛片中国 | 天天看天天干 | 人人干在线 | 精品久久香蕉国产线看观看亚洲 | 最新中文字幕一区 | 一区视频| 亚洲人成在线观看 | 国产偷久久一级精品60部 | 日韩欧美国产成人一区二区 | 国产精品日韩欧美一区二区三区 | 国产精品a久久久久 | 午夜精品一区二区三区免费视频 | 91在线资源| 凹凸日日摸日日碰夜夜 | 国产清纯白嫩初高生视频在线观看 | 国产精品黄色 | 91精品国产综合久久久久久丝袜 | 91最新视频| 国产成人一区二区三区 | 一级片av | 国内精品免费久久久久软件老师 | 成人亚洲网站 | 免费人成在线观看网站 | 蜜桃视频一区二区三区 | 黄色一级大片在线观看 |