成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

多模態(tài)推理模型(LMRM):從感知到推理的演變

人工智能
推理位于智能的核心,塑造了做出決策、得出結(jié)論和跨領(lǐng)域泛化的能力。在人工智能系統(tǒng)中,隨著系統(tǒng)越來越多地在開放、不確定和多模態(tài)環(huán)境中運行,推理成為了實現(xiàn)穩(wěn)健和自適應(yīng)行為的關(guān)鍵。

大家好,我是肆〇柒。當(dāng)下,人工智能正以前所未有的速度改變著我們的生活與工作方式。其中,推理作為人工智能的核心能力之一,賦予了智能體在復(fù)雜環(huán)境中做出決策、得出結(jié)論以及進行知識泛化的能力。隨著 AI 系統(tǒng)越來越多地涉足動態(tài)、不確定且多模態(tài)的環(huán)境,推理能力成為了實現(xiàn)穩(wěn)健、自適應(yīng)智能行為的關(guān)鍵。大型多模態(tài)推理模型(LMRM),則是讓這一能力在多模態(tài)環(huán)境中體現(xiàn)出超強能力。它們集成了文本、圖像、音頻和視頻等多種數(shù)據(jù)模態(tài),展現(xiàn)出強大的邏輯推理、因果推理、類比映射和長期規(guī)劃能力,致力于實現(xiàn)全面感知、精準(zhǔn)理解和深度推理,從而在不同環(huán)境中為決策提供有力支持。今天,我們來一起了解一下多模態(tài)推理模型的演變歷程、技術(shù)挑戰(zhàn)以及未來發(fā)展方向。

圖片

大型多模態(tài)推理模型的核心路徑

多模態(tài)推理的演變范式與討論

第一階段:感知驅(qū)動的模塊化推理

早期的多模態(tài)推理依賴于感知驅(qū)動的模塊化方法,由于當(dāng)時有限的多模態(tài)數(shù)據(jù)、不成熟的神經(jīng)網(wǎng)絡(luò)架構(gòu)和不夠先進的學(xué)習(xí)方法,研究人員開發(fā)出了針對特定任務(wù)的模型,這些模型通常采用不同模塊來實現(xiàn)多模態(tài)表示、對齊、融合和推理。隨著技術(shù)的發(fā)展,多模態(tài)推理模型經(jīng)歷了多個階段的演變,如下圖。例如,一些模型使用通用的 CNN 和 LSTM 骨干網(wǎng)絡(luò)從多模態(tài)數(shù)據(jù)中提取答案,但很快就被基于感知線索模塊化的架構(gòu)所改進,如神經(jīng)模塊網(wǎng)絡(luò)(NMN)可以動態(tài)組裝任務(wù)特定模塊來組合視覺和文本特征,替代了靜態(tài)融合方式。

圖片

大型多模態(tài)推理模型的發(fā)展路線圖。框中突出顯示的模型是從第3階段向第4階段過渡的代表性模型,箭頭方向表明了這種過渡

隨著預(yù)訓(xùn)練 - 微調(diào)學(xué)習(xí)范式的興起,大規(guī)模多模態(tài)數(shù)據(jù)集的出現(xiàn)以及更深層神經(jīng)網(wǎng)絡(luò)的應(yīng)用,預(yù)訓(xùn)練視覺 - 語言模型(VLM)出現(xiàn)了,它們是為了統(tǒng)一表示、對齊和融合過程。比如雙編碼器對比推理的 VLM 利用雙流架構(gòu)與對比學(xué)習(xí),通過跨模態(tài)交互動態(tài)對齊和推理視覺與文本特征,像 ViLBERT 使用雙流 Transformer 與跨模態(tài)注意力實現(xiàn)特征對齊,CLIP 則借助對比預(yù)訓(xùn)練實現(xiàn)零樣本推理。

然而,這一階段的推理多隱含于基礎(chǔ)感知處理和神經(jīng)計算之中,主要側(cè)重于視覺表征和跨模態(tài)融合,常以分類為基礎(chǔ)范式,限制了上下文感知和泛化推理,多模態(tài)推理系統(tǒng)仍依賴額外模塊或任務(wù)特定增強。

第二階段:語言中心的短期推理(系統(tǒng) 1 推理)

隨著多模態(tài)大型語言模型(MLLM)的出現(xiàn),多模態(tài)推理迎來了重大轉(zhuǎn)折,從模塊化系統(tǒng)邁向以語言為中心的端到端框架。這些模型在諸如視覺常識推理(VCR)、視覺問答(VQA)和視覺定位等任務(wù)上表現(xiàn)出色,但早期架構(gòu)主要依賴于表面模式匹配和靜態(tài)知識檢索,在動態(tài)假設(shè)生成、多步邏輯推進和上下文敏感適應(yīng)方面表現(xiàn)不足,于是鏈?zhǔn)剿伎迹–oT)應(yīng)運而生,它將隱式推理轉(zhuǎn)化為顯式中間步驟,把思考過程內(nèi)化于端到端生成中,結(jié)合了第一階段多模態(tài)融合的表征能力和 LLMs 的語言表達(dá)能力,使推理更具上下文相關(guān)性和可解釋性。

基于 CoT 在純語言模型中的成功,研究人員將其拓展至多模態(tài)領(lǐng)域,發(fā)展出多模態(tài)鏈?zhǔn)剿伎迹∕CoT)。早期主要聚焦于基于提示的適配,通過精心設(shè)計的提示使模型能逐步生成多模態(tài)推理痕跡。在視覺推理方面,IPVR 提出 “see-think-confirm” 提示框架,引導(dǎo) LLMs 進行視覺接地和事由驗證;在視頻理解領(lǐng)域,VoT 利用時空場景圖逐步推理,從低層次感知到高層次解釋;于特定領(lǐng)域應(yīng)用,如自動駕駛,PKRD-CoT 引入零樣本提示框架,結(jié)構(gòu)化組織感知、知識、推理與決策過程中的推理;在任務(wù)導(dǎo)向推理中,CoTDet 利用多層提示提取用于目標(biāo)檢測的可供性知識。

后續(xù)研究還增強了推理過程本身,或引入推理路徑的結(jié)構(gòu)化分解,或借助外部工具和檢索增強擴展推理能力。如在結(jié)構(gòu)化推理中,事由構(gòu)造方法 Multimodal-CoT 提出兩階段框架,將事由生成與答案預(yù)測解耦,以降低幻覺現(xiàn)象發(fā)生概率;明確定義推理程序的方法如 Cantor 區(qū)分感知與決策階段,先提取圖像或文本描述中的低層次屬性,再整合這些特征解決問題;特定模態(tài)結(jié)構(gòu)化推理則針對視覺、聽覺或具身輸入的特性,融入模態(tài)感知設(shè)計,像 CoS 和 TextCoT 采用兩階段流程,先基于輸入問題識別感興趣區(qū)域,再局部檢查以實現(xiàn)無需分辨率損失的多粒度推理。

外部增強推理則引入優(yōu)勢算法、輔助工具或?qū)<夷K,彌補模型固有推理能力的不足。例如搜索算法增強 MCoT 的 MM-ToT 利用 GPT-4 和 Stable Diffusion,通過深度優(yōu)先和廣度優(yōu)先算法,依據(jù) 0.0 - 1.0 度量規(guī)模選擇最優(yōu)多模態(tài)輸出;工具增強推理的 L3GO 借助 GPT-4 與 ControlNet,在模擬環(huán)境中基于 LLM 推理進行迭代式 3D 構(gòu)建;檢索增強推理的 RAGAR 通過檢索多模態(tài)證據(jù)支持政治事實核查;多模態(tài)增強推理的 MCoT-Memory 通過整合記憶檢索與場景圖更新提升長鏈規(guī)劃能力。

第三階段:語言中心的長期推理(系統(tǒng) 2 思考與規(guī)劃)

盡管 MCoT 顯著提升了 MLLM 的推理能力,但對于現(xiàn)實世界多模態(tài)任務(wù)的復(fù)雜性而言仍顯不足,其多為短、反應(yīng)式鏈,類似快、直觀的系統(tǒng) 1 推理,適用于熟悉或有界定的問題,但在抽象、組合、長期推理和適應(yīng)性規(guī)劃方面表現(xiàn)不佳。近期研究開始借鑒系統(tǒng) 2 啟發(fā)的推理,強調(diào)慢、深思熟慮且具方法論結(jié)構(gòu)的認(rèn)知過程,使推理成為智能行為的核心而非附屬功能,從三個關(guān)鍵維度拓展 MCoT,邁向能深度、可遷移且具認(rèn)知基礎(chǔ)推理的新一代 LMRM。

從推理模態(tài)角度看,僅依賴文本表征限制了模型捕捉特定模態(tài)知識的能力,近期研究引入跨模態(tài)推理鏈,借助視覺、聽覺和語言信號作為聯(lián)合推理基礎(chǔ),實現(xiàn)更豐富的語義基元和更忠實的信息整合。從推理范式來講,研究人員構(gòu)建更長、更高質(zhì)量的鏈并引入通用、方法論指導(dǎo)的推理策略,如 o1 家族在廣泛認(rèn)知要求高的多模態(tài)任務(wù)上展現(xiàn)出近人類水平的性能。

圖片

多模態(tài)家族-o1方法。它主要依賴于一個多階段、結(jié)構(gòu)化的推理路徑來解決問題

從學(xué)習(xí)方法而言,強化學(xué)習(xí)增強的多模態(tài)推理勢頭漸起,通過引入智能體數(shù)據(jù)、迭代反饋和長期優(yōu)化目標(biāo),像 DeepSeek-R1 這類模型在規(guī)劃、魯棒性和適應(yīng)性泛化方面得到提升,催生出新一代 R1 類模型,強調(diào)可擴展、方法論基礎(chǔ)的多模態(tài)推理。

圖片

多模態(tài)家族-R1方法。它主要采用強化學(xué)習(xí)方法來提升大型多模態(tài)模型的推理能力

圖片

近期多模態(tài)O1類和R1類模型的時間線(上)和核心組件(下)。上半部分展示了代表性模型按時間順序的出現(xiàn)情況。下半部分總結(jié)了關(guān)鍵組件,包括結(jié)構(gòu)化推理范式、強化學(xué)習(xí)算法(例如DPO和GRPO)以及基于規(guī)則的獎勵模型的設(shè)計

多模態(tài)推理模型路線圖

第一階段:感知驅(qū)動的模塊化推理

早期多模態(tài)推理受限于多模態(tài)數(shù)據(jù)有限、神經(jīng)網(wǎng)絡(luò)架構(gòu)處于萌芽狀態(tài)以及學(xué)習(xí)方法不夠先進,催生了為特定任務(wù)定制的模型,這些模型通常依賴不同模塊來達(dá)成多模態(tài)表示、對齊、融合與推理,以下按模型架構(gòu)和學(xué)習(xí)方法可分為模塊化推理網(wǎng)絡(luò)與基于預(yù)訓(xùn)練視覺 - 語言模型(VLM)的模塊化推理。

圖片

大型多模態(tài)推理模型的分類

模塊化推理網(wǎng)絡(luò)最開始依賴通用 CNN 和 LSTM 骨干網(wǎng)絡(luò)來從多模態(tài)數(shù)據(jù)中得出答案,但很快就被基于感知線索模塊化的推理架構(gòu)所改進。神經(jīng)模塊網(wǎng)絡(luò)(NMN)能基于任務(wù)動態(tài)組裝特定模塊,組合視覺與文本特征,替代傳統(tǒng)靜態(tài)融合方式;層次化共注意力(HieCoAtt)引入模塊化跨模態(tài)注意力,逐層對齊問題語義與圖像區(qū)域;多模態(tài)緊湊雙線性池化(MCB)通過高效可學(xué)習(xí)雙線性模塊優(yōu)化特征交互;堆疊注意力網(wǎng)絡(luò)(SANs)通過在視覺特征上迭代注意力躍遷模塊化推理;動態(tài)記憶網(wǎng)絡(luò)(DMN)整合記憶模塊,處理順序輸入的多階段推理;ReasonNet 將推理分解為實體 - 關(guān)系模塊,用于結(jié)構(gòu)化推理;自下而上和自上而下注意力(UpDn)結(jié)合這兩種注意力優(yōu)先處理對象級特征,用于推理(如 VQA - v2);記憶增強神經(jīng)網(wǎng)絡(luò)(MAC)運用帶記憶增強的控制單元進行迭代組合推理;雙線性注意網(wǎng)絡(luò)(BAN)通過跨模態(tài)雙線性注意網(wǎng)絡(luò)捕獲高階交互;異構(gòu)記憶增強多模態(tài)注意力(HeteroMemory)將外觀與運動模塊同步并融合時間信息,用于視頻推理;基于關(guān)系網(wǎng)絡(luò)的推理(MuRel)將推理建模為對象對上的關(guān)系網(wǎng)絡(luò),用于細(xì)粒度推理;模塊化協(xié)同注意網(wǎng)絡(luò)(MCAN)采用模塊化協(xié)同注意,結(jié)合自注意力與引導(dǎo)注意力,用于深度跨模態(tài)推理。

圖片

在感知驅(qū)動的多模態(tài)模塊化推理的初始階段的分類工作中,視覺語言模型(VLM)和多模態(tài)語言模型(MLLM)在提升多模態(tài)推理任務(wù)的性能方面發(fā)揮了重要作用

預(yù)訓(xùn)練 VLM 基于模塊化推理隨著 Transformer 架構(gòu)的問世以及預(yù)訓(xùn)練 - 微調(diào)學(xué)習(xí)范式的興起,多模態(tài)表示、對齊和融合在數(shù)據(jù)和模型內(nèi)部得到增強,那么,基于預(yù)訓(xùn)練 VLM 的模塊化推理可分為三種類型:雙編碼器對比推理、單 Transformer 主干交互推理、多模態(tài) LLMs 基礎(chǔ)的隱式推理。雙編碼器對比推理模型利用雙流架構(gòu)與對比學(xué)習(xí),在視覺和文本特征之間進行跨模態(tài)交互動態(tài)對齊與推理。例如,ViLBERT 運用雙流 Transformer 與跨模態(tài)注意力動態(tài)對齊特征;LXMERT 在雙編碼器間添加交互層,對關(guān)系嵌入進行推理;CLIP 借助對比預(yù)訓(xùn)練實現(xiàn)零樣本推理;ALBEF 整合對比學(xué)習(xí)與動量蒸餾,對蒸餾嵌入進行推理;METER 增強雙流推理,采用模塊化編碼器 - 解碼器框架,提升對齊魯棒性(如 VCR)。單 Transformer 主干交互推理模型將視覺和文本輸入嵌入到單個 Transformer 中,直接通過統(tǒng)一編碼方法實現(xiàn)跨模態(tài)推理。例如,VisualBERT、UNITER、VL - BERT 等將視覺 - 文本輸入融合到單 Transformer 中,通過聯(lián)合上下文編碼或增強跨模態(tài)預(yù)訓(xùn)練進行推理;PixelBERT 運用 CNN 和 Transformer 架構(gòu)處理像素,用于細(xì)粒度推理;UniVL 統(tǒng)一視頻 - 語言推理,采用單 Transformer 處理時間跨模態(tài)任務(wù)(如 TVQA);Oscar、VinVL 等以對象標(biāo)簽或增強視覺特征錨定推理,提升語義推斷(如 VCR、GQA);ERNIE - ViL 整合場景圖知識到單 Transformer 中,通過結(jié)構(gòu)化的視覺 - 語言交互增強組合推理;UniT 通過共享自注意力 Transformer 主干簡化多模態(tài)任務(wù),實現(xiàn)統(tǒng)一推理;PaLI 以多語言框架擴展單 Transformer 推理,用于跨語言推理(如 OK - VQA);Flamingo 采用跨注意力優(yōu)先動態(tài)交互視覺 - 文本輸入;BEiT - 3 采用掩碼數(shù)據(jù)建模統(tǒng)一視覺 - 語言學(xué)習(xí);OFA、BLIP - 2 等引入統(tǒng)一多模態(tài)框架或查詢 Transformer,提升跨模態(tài)推理效率(如 VQA - v2);Kosmos - 1、Kosmos - 2 實現(xiàn)輸入交錯處理或定位能力,用于靈活的多模態(tài)理解和精準(zhǔn)目標(biāo)定位。多模態(tài) LLMs 基礎(chǔ)的隱式推理模型將視覺輸入映射到大型語言模型的文本空間,利用大型語言模型的上下文推理能力提升多模態(tài)推理性能,其架構(gòu)包含預(yù)訓(xùn)練視覺編碼器和大型語言模型,如 Vision - Encoder - LLM。CLIP - Cap 把 CLIP 視覺特征映射到 LLM 進行推理和描述任務(wù);LLaVA 通過調(diào)優(yōu) ViT - LLM 集成實現(xiàn)對話推理;MiniGPT - 4、InstructBLIP 等通過投影層或指令調(diào)優(yōu)將 ViT 與凍結(jié) LLM 對齊,簡化視覺 - 文本推理;Qwen - VL 引入空間感知 ViT,增強基于空間的推理;mPLUG - Owl、LMEye、Otter 等整合模塊化視覺編碼器與 LLM,用于指令遵循和上下文學(xué)習(xí)的多模態(tài)推理。

第二階段:語言中心的短期推理(系統(tǒng) 1 推理)

隨著大規(guī)模多模態(tài)預(yù)訓(xùn)練的興起,MLLM 開始展現(xiàn)出新興推理能力,然而此類推理通常較為淺薄,主要依賴隱式關(guān)聯(lián)而非顯式邏輯過程。MCoT 作為一種簡單卻有效的方法,通過引入中間推理步驟,改善了跨模態(tài)對齊、知識整合和上下文基礎(chǔ),在無需廣泛監(jiān)督或顯著架構(gòu)修改的情況下提升了推理性能。該階段的研究方法可分為三類范式:基于提示的 MCoT、具有預(yù)定義模式的結(jié)構(gòu)化推理以及借助輕量級外部模塊的工具增強推理。

基于提示的 MCoT 方法將文本鏈?zhǔn)剿伎挤妒酵卣怪炼嗄B(tài)情境,使模型能夠以可解釋性與極少附加訓(xùn)練的特性,逐步跨模態(tài)進行推理。在視覺推理領(lǐng)域,IPVR 設(shè)計了結(jié)構(gòu)化的 “see-think-confirm” 提示框架,引導(dǎo) LLMs 經(jīng)歷視覺接地與事由驗證過程;VIC 在視覺輸入前提示文本推理鏈,以減少幻覺現(xiàn)象并提升準(zhǔn)確性。于視頻理解方面,VoT 利用時空場景圖,促使模型從低層次感知逐步過渡至高層次解讀;VideoAgent 作為由 LLM 協(xié)調(diào)的系統(tǒng),以極少量幀使用迭代式從長視頻中提取關(guān)鍵信息;LET 在 VIP 數(shù)據(jù)集上采用逐幀提示策略,引導(dǎo)模型進行視頻填補與預(yù)測的時序推理。在特定領(lǐng)域應(yīng)用中,PKRD-CoT 推出了零樣本提示框架,將自動駕駛推理貫穿于感知、知識、推理與決策環(huán)節(jié);LPE 基于提示的推理整合了對口語內(nèi)容與情感線索的處理,以生成富有同理心的回應(yīng);EMER 將提示應(yīng)用于多模態(tài)情感識別,融合單模態(tài)線索并產(chǎn)出可解釋預(yù)測。任務(wù)導(dǎo)向推理同樣受益于基于提示的 MCoT,CoTDet 運用多層級提示提取可供性知識,助力于目標(biāo)檢測;AntGPT 通過提示使 LLMs 能從基于視頻的動作序列中推斷人類目標(biāo)與時間動態(tài);CPSeg 制定鏈?zhǔn)剿伎继崾荆瑢R文本與像素級語義,增強分割效果。

結(jié)構(gòu)化推理與基于提示的 MCoT 方法不同,該方法通過監(jiān)督訓(xùn)練學(xué)習(xí)推理模式,將松散的推理引導(dǎo)轉(zhuǎn)化為標(biāo)準(zhǔn)化的分階段流程,從而提升復(fù)雜多模態(tài)任務(wù)的可擴展性、可靠性和效率。它可分為三類代表性類型:事由構(gòu)建、明確定義推理程序以及特定模態(tài)結(jié)構(gòu)化推理。

圖片

多模態(tài)思維鏈中結(jié)構(gòu)化推理的分類與代表性方法

事由構(gòu)建是多模態(tài)情境下結(jié)構(gòu)化推理的基礎(chǔ),起始于有效的推理學(xué)習(xí)方法。Multimodal-CoT 提出兩階段框架,將事由生成與答案預(yù)測分離,以降低幻覺現(xiàn)象發(fā)生率;T-sciq 借助教師 LLM 生成復(fù)雜度各異的事由,凸顯事由質(zhì)量對推理準(zhǔn)確性的重要性。明確定義推理程序方面,Cantor 將推理劃分為感知與決策階段,感知階段提取圖像或文本描述中的低層次屬性(如物體、顏色、形狀),決策階段融合這些特征解決實際問題;TextCoT 采用三階段流程,包括圖像概述、粗定位與精細(xì)觀察,逐步融合全局與局部語義,生成精準(zhǔn)答案;Grounding - Prompter 從全局理解、去噪、分區(qū)理解到預(yù)測,漸進式融合全局與局部語義,抵抗噪聲干擾,提升時間邊界感知能力。音頻 - CoT 運用三種鏈?zhǔn)剿伎挤妒剑ㄒ蕾囀止な纠?Manual - CoT、借助簡單提示實現(xiàn)零樣本推理的 Zero - Shot - CoT,以及通過生成音頻描述輔助推理的 Desp - CoT。VIC 在多模態(tài)情感識別中,先分解任務(wù)為基于文本的子步驟,再整合視覺輸入形成最終事由;Visual Sketchpad 在素描過程中將事由組織為思考、行動與觀察三階段。 DetCoT 將 VQA 推理形式化為子任務(wù)組合與復(fù)審;BDoG 采用辯論與總結(jié)流程,借助特定智能體提升性能;CoTDet 將 VQA 推理固化為人類類流程,包括列出對象、分析可用性和視覺特征總結(jié);CoCoT 對輸入相似性與差異性進行系統(tǒng)性比較;SegPref 在視覺空間中精確定位發(fā)聲物體,借助全局理解、聲音過濾與去噪手段。 EMMAX 整合基于規(guī)劃與預(yù)測的運動控制方法。特定模態(tài)結(jié)構(gòu)化推理為應(yīng)對多模態(tài)輸入獨特挑戰(zhàn)(尤其視覺 - 語言任務(wù)),近期研究引入了特定于模態(tài)的推理結(jié)構(gòu)。一些研究聚焦于基于區(qū)域的接地,利用空間定位引導(dǎo)結(jié)構(gòu)化推理。例如,CoS 與 TextCoT 采用兩階段流程,先基于輸入問題識別感興趣區(qū)域,再進行局部檢查,實現(xiàn)無需分辨率損失的多粒度推理;DDCoT 延伸此范式,引入雙引導(dǎo)機制,結(jié)合邊界框接地與語義相似實例檢索,共同提升細(xì)粒度與上下文感知推理。除空間接地外,另一類別研究聚焦于文本引導(dǎo)的語義豐富化。Shikra 與 TextCoT 利用圖像字幕作為高級語義線索,引導(dǎo)空間注意力與對象接地,減少對外部檢測模塊的依賴,促進更易解釋的指代推理;受經(jīng)典 CoT 框架啟發(fā),DDCoT 與 AVQA-CoT 將復(fù)雜視覺或視聽查詢分解為順序子問題,借助 LLMs 選擇相關(guān)子問題,實現(xiàn)跨模態(tài)多跳推理。最終,E-CoT 將結(jié)構(gòu)化推理拓展至具身場景,通過任務(wù)重述、規(guī)劃與低層次動作執(zhí)行的交織,凸顯在視覺 - 語言 - 動作模型中,跨越語義與感觀 - 運動層面的事由鏈的必要性。

圖片

結(jié)構(gòu)化推理,通過將明確的程序結(jié)構(gòu)整合到模型中,將松散引導(dǎo)的推理轉(zhuǎn)化為標(biāo)準(zhǔn)化的、逐步的流程,在復(fù)雜的多模態(tài)任務(wù)中增強了可擴展性、可靠性和效率

外部增強推理引入優(yōu)勢算法、輔助工具或?qū)<夷K,以彌補模型固有推理能力的不足。這些組件在推理時或訓(xùn)練中與模型集成,支持更可控、可擴展且面向任務(wù)的推理流程。通過將核心推理步驟從基礎(chǔ)模型中解耦,這些方法增強了長鏈推理與領(lǐng)域?qū)I(yè)化。

圖片

外部增強推理是通過引入算法、工具或?qū)<夷K等外部資源來增強模型的推理能力,從而克服其固有局限性的一種方法

我們可將外部增強方法分為四類:(i)搜索算法增強 MCoT,借助各種搜索策略引導(dǎo)推理過程;(ii)基于工具的增強,利用外部語言工具或系統(tǒng)指導(dǎo)推理執(zhí)行;(iii)檢索增強推理,將相關(guān)多模態(tài)知識從外部來源整合進推理路徑;(iv)多模態(tài)增強,整合專門的多模態(tài)模塊以支持感知驅(qū)動的推理。

搜索算法增強的 MCoT 方法賦予模型在推理過程中動態(tài)導(dǎo)航和優(yōu)化推理軌跡的能力。例如,MM - ToT 結(jié)合 GPT - 4 和 Stable Diffusion,運用深度優(yōu)先搜索(DFS)和廣度優(yōu)先搜索(BFS)算法,依據(jù) 0.0 - 1.0 度量規(guī)模挑選最優(yōu)多模態(tài)輸出;HoT 從多模態(tài)輸入中生成關(guān)聯(lián)想法,并將它們打包成單個超邊;與之不同,聚合圖思考(AGoT)構(gòu)建推理聚合圖,每一步整合多種推理元素,并隨后引入視覺數(shù)據(jù);藍(lán)圖辯論圖(BDoG)摒棄搜索算法,采用三個智能體——肯定辯論者、否定辯論者和主持人——進行迭代辯論,主持人最終整合出一個最終答案,從而隱式構(gòu)建包含廣泛想法的思考圖。

基于工具增強的推理方法利用外部文本增強工具,通過語言引導(dǎo)、結(jié)構(gòu)化或優(yōu)化整體推理流程。例如,L3GO 運用 GPT - 4 與鏈?zhǔn)剿伎继崾旧擅鞔_的文本推理步驟,借助 ControlNet 在 Blender 環(huán)境中進行迭代式 3D 構(gòu)建;HYDRA 與 Det - CoT 不僅將大型語言模型用作規(guī)劃工具,還作為動態(tài)指令生成器、錯誤診斷器和推理控制器,它們與視覺基礎(chǔ)模型(如 BLIP2、LLaVA)和強化學(xué)習(xí)智能體互動,通過文本提示和反饋迭代改進視覺理解與決策。這些系統(tǒng)整合狀態(tài)記憶庫以保持對話歷史或先前指令,通過文本調(diào)制實現(xiàn)基于增量鏈?zhǔn)剿伎嫉耐评怼f準(zhǔn)綀D像(Chain - of - Image)引入 SyMLLM,根據(jù)語言描述生成中間圖像,將復(fù)雜問題轉(zhuǎn)化為視覺推理任務(wù),但仍以語言為基礎(chǔ)進行控制。AnyMAL 將多種模態(tài)統(tǒng)一到文本空間,以實現(xiàn)跨模態(tài)推理,而 SE - CMRN 利用語法提示通過 GCN 提升視覺常識推理中的語言引導(dǎo)視覺推理性能。

檢索增強推理方法通過檢索機制增強多模態(tài)推理。例如,RAGAR 提出 CoRAG 和 ToRAG,借助檢索多模態(tài)證據(jù)支持政治事實核查;鏈?zhǔn)叫袆樱–hain - of - Action)通過可配置的推理鏈從異構(gòu)來源檢索信息;KAM - CoT 整合知識圖譜作為外部知識源,通過兩階段訓(xùn)練增強多模態(tài)推理;AR - MCTS 將動態(tài)逐步檢索與蒙特卡洛樹搜索結(jié)合,使 MLLM 在每一步推理中訪問相關(guān)知識,并自動生成高質(zhì)量推理。

多模態(tài)增強方法利用專門的多模態(tài)模塊增強模型的推理能力。例如,MCoT - Memory 提升長鏈規(guī)劃能力,整合記憶檢索與場景圖更新,保留高置信度經(jīng)驗以支持穩(wěn)健決策;MGCoT 運用 ViT - large 編碼器提取視覺特征,結(jié)合斯坦福核心 NLP 系統(tǒng)進行共指解決,以及 OpenIE 系統(tǒng)提取思考單元節(jié)點,實現(xiàn)高效的 GoT 推理;CCoT 通過生成場景圖作為中間推理步驟,提升 LMMs 的復(fù)合視覺理解和多模態(tài)推理能力;CVR - LLM 包含 CaID 和 CVR - ICL 兩個關(guān)鍵組件,前者通過迭代自完善生成具情境感知的圖像描述,后者創(chuàng)新性整合文本與多模態(tài)因素,選擇情境示例,增強 LLMs 在復(fù)雜視覺推理任務(wù)中的表現(xiàn);CAT 整合預(yù)訓(xùn)練圖像描述生成器 SAM 與指令調(diào)優(yōu)的大型語言模型,通過視覺控制和語言控制實現(xiàn)以用戶為中心的圖像描述。

第三階段:語言中心的長期推理(系統(tǒng) 2 思考與規(guī)劃)

盡管結(jié)構(gòu)化推理引入了預(yù)定義模式以引導(dǎo) MLLM 進行更系統(tǒng)的推理,但其仍受限于推理深度淺薄和適應(yīng)性不足。為應(yīng)對更復(fù)雜的多模態(tài)任務(wù),近期研究主要在開發(fā)類系統(tǒng) 2 推理,這種推理形式具有深思熟慮、組合性且由顯式規(guī)劃指導(dǎo)的特點。通過延展推理鏈、基于多模態(tài)輸入對其進行基礎(chǔ)化,并采用監(jiān)督或強化信號進行訓(xùn)練,這些模型開始展現(xiàn)出長期推理和適應(yīng)性問題分解能力。

跨模態(tài)推理指向整合并跨文本、圖像、視頻等多種模態(tài)進行推理的能力。近期跨模態(tài)推理進展強調(diào)通過模型內(nèi)在能力或外部工具和算法,增強多模態(tài)信息,以提升推理準(zhǔn)確性和魯棒性。這些方法是為了通過動態(tài)整合不同模態(tài)的互補信息來增強推理。

圖片

提升跨模態(tài)推理的方法,跨模態(tài)推理是指整合并推理多種模態(tài)(如文本、圖像、視頻)的能力

例如,外部工具的利用在多模態(tài)理解中的描述之外,近期方法越來越多地探索工具整合作為多模態(tài)推理本身的載體。VisProg 和 ProViQ 利用程序生成和過程執(zhí)行實現(xiàn)跨模態(tài)推理,動態(tài)生成可執(zhí)行代碼或邏輯路徑以解決復(fù)雜任務(wù),如視頻問答、多步視覺推理和幾何問題求解。與此同時,如 AssistGPT、MM - ReAct 和 Multi - Modal - Thought 等方法采用模塊化集成框架——例如 PEIL 和視覺專家提示——基于推理進展協(xié)調(diào)工具使用。這些系統(tǒng)通過在任務(wù)執(zhí)行期間動態(tài)調(diào)用不同工具,實現(xiàn)可解釋且適應(yīng)性強的推理。VisualReasoner 進一步引入數(shù)據(jù)合成策略,生成多步推理痕跡,用于訓(xùn)練可插拔的視覺推理模塊,適用于多種視覺 - 語言骨干網(wǎng)絡(luò)。總體而言,這些努力通過結(jié)合程序歸納、動態(tài)工具編排和數(shù)據(jù)驅(qū)動推理監(jiān)督,拓展了多模態(tài)推理的景觀。

外部算法方面,F(xiàn)AST 和 ICoT 均借鑒類似人類思維的認(rèn)知過程,其中 FAST 采用系統(tǒng)切換適配器在快思考和慢思考模式之間動態(tài)切換,而 ICoT 利用注意力驅(qū)動選擇(ADS)交錯視覺和文本推理步驟。與此同時,Image - of - Thought 和 CoTDiffusion 聚焦于生成視覺事由,前者逐步提取視覺信息,后者創(chuàng)建視覺子目標(biāo)計劃,將算法增強擴展至機器人領(lǐng)域。

模型內(nèi)在能力方面,這些方法依賴于 LMM 生成或推斷多模態(tài)信息的內(nèi)在能力,無需外部工具。例如,T - SciQ、Visual - CoT 和 VoCoT 證明,通過對精心設(shè)計的 CoT 數(shù)據(jù)集(如 VoCoT - Instruct80K)進行微調(diào),可在圖表、文檔和幾何問題中實現(xiàn)單步多模態(tài)推理。MVoT 是早期嘗試之一,其自包含架構(gòu)通過迭代改進視覺 - 文本表示,用于具身推理任務(wù)。

第四階段:邁向原生大型多模態(tài)推理模型(展望)

盡管 LMRM 在處理復(fù)雜任務(wù)時展現(xiàn)出長鏈思考的潛力,但其以語言為中心的架構(gòu)對其在現(xiàn)實世界場景中的有效性施加了關(guān)鍵限制。它們主要聚焦于視覺和語言模態(tài),限制了其在現(xiàn)實環(huán)境中處理和推理交織的多樣化數(shù)據(jù)類型的能力,同時其在實時、迭代地與動態(tài)環(huán)境互動方面的表現(xiàn)仍有待提升。

展望原生大型多模態(tài)推理模型(N - LMRM)的發(fā)展,這可能成為機器智能的范式轉(zhuǎn)變。與傳統(tǒng) LMRM 將語言模型與輔助模態(tài)處理器相拼接不同,N - LMRM 將被原生設(shè)計為在一個完全端到端的架構(gòu)中統(tǒng)一多模態(tài)理解、生成和智能體推理。真實世界的數(shù)據(jù)類型將在一個統(tǒng)一的表示空間中被編碼,例如 VideoPoet,同時大規(guī)模合成數(shù)據(jù)促進對任何模態(tài)交互環(huán)境中的推理和規(guī)劃的全面學(xué)習(xí)。這一演變依賴于兩項變革性能力:1)多模態(tài)智能體推理:N - LMRM 將體現(xiàn)智能體智能,實現(xiàn)與復(fù)雜環(huán)境的主動、目標(biāo)驅(qū)動的互動,例如長期規(guī)劃——任務(wù)分解和記憶增強推理以確保在擴展互動中的連貫性;動態(tài)適應(yīng)——基于環(huán)境反饋實時調(diào)整策略;具身學(xué)習(xí)——通過模擬或物理互動的閉環(huán)訓(xùn)練框架,使模型通過學(xué)習(xí)實現(xiàn)更好的泛化。2)全模態(tài)理解與生成推理:N - LMRM 將超越特定模態(tài)的編碼器和解碼器,利用統(tǒng)一的表示空間實現(xiàn)平滑的跨模態(tài)合成與分析。這包括異構(gòu)數(shù)據(jù)融合,用于聯(lián)合嵌入多樣化數(shù)據(jù)類型的;上下文多模態(tài)生成,用于連貫創(chuàng)建復(fù)合輸出;以及與模態(tài)無關(guān)的推理,啟用可適應(yīng)的處理流程,以任務(wù)無關(guān)的方式處理新的或任何跨模態(tài)數(shù)據(jù)。

通向原生多模態(tài)推理模型

實驗發(fā)現(xiàn)

盡管 LMRM 在生成全面思考過程和解決復(fù)雜問題(如 MMMU 和 MathVista)方面取得了顯著進展,但其在以下方面遠(yuǎn)未達(dá)到現(xiàn)實世界應(yīng)用的要求:1)評估范圍應(yīng)涵蓋多種模態(tài),包括視覺、音頻和文本。2)評估能力應(yīng)涉及與外部環(huán)境的互動,需要長期推理和適應(yīng)性規(guī)劃。以下匯總了研究者收集的全模態(tài)和智能體基準(zhǔn)測試,隨后分析了 LMRM 在這些基準(zhǔn)測試中的表現(xiàn)。

圖片

對當(dāng)前大型多模態(tài)模型(LMRM)的深度推理缺陷進行暴露的智能體式和全模態(tài)基準(zhǔn)測試的總結(jié)。其中,T、I、A、V分別代表文本、圖像、音頻和視頻

全模態(tài)基準(zhǔn)測試近期研究引入了一系列全模態(tài)基準(zhǔn)測試,這是為了評估 LMRM 在各種數(shù)據(jù)類型(例如圖像、音頻、文本和視頻)上的統(tǒng)一理解和推理能力。例如,OmniMMI 是為了全面評估開放世界環(huán)境中流視頻背景下的交互能力。實驗結(jié)果顯示,即使是商業(yè)模型(如 Gemini - 1.5 - Pro 和 GPT - 4o),其平均準(zhǔn)確率也低于 20%。當(dāng)任務(wù)需要統(tǒng)一模態(tài)理解(OmniBench、TaskAnything 和 JudgeAnything、MixEvalL - X),無論是開源還是閉源模型的表現(xiàn)均顯著低于單一模態(tài)條件下的表現(xiàn)。具體而言,在音頻 - 視頻問答(AVQA)任務(wù)(如 WorldSense)中,Claude 3.5 Sonnet 僅實現(xiàn) 35% 的平均準(zhǔn)確率,而表現(xiàn)最佳的開源模型僅達(dá)到 25% 的準(zhǔn)確率。在更具挑戰(zhàn)性的多模態(tài)推理任務(wù)中(如 BabelBench 和 OmnixR),隨著模態(tài)數(shù)量的增加,所有模型的性能均急劇下降。這表明模型在處理圖像、視頻和音頻輸入時生成推理路徑的能力弱于文本輸入。這些發(fā)現(xiàn)共同表明,當(dāng)前 LMRM 尚無法有效處理全模態(tài)輸入。

智能體基準(zhǔn)測試多樣的任務(wù)凸顯了多模態(tài)智能體評估環(huán)境的復(fù)雜性和廣度。這些包括 AgentBench 的多環(huán)境任務(wù)、WorfBench 的復(fù)雜工作流規(guī)劃場景、OSWorld 和 AndroidWorld 的完整操作系統(tǒng)交互、EmbodiedBench 的基于視覺的導(dǎo)航和操作挑戰(zhàn)、VisualWebArena 的視覺基礎(chǔ)網(wǎng)絡(luò)任務(wù)以及 GAIA 的開放式、工具增強查詢。在智能體基準(zhǔn)測試中,LMRM 通常在性能上領(lǐng)先,并取得了顯著進展。然而,即使是最先進的模型也始終未能達(dá)到人類水平的可靠性,并在復(fù)雜、開放式任務(wù)上掙扎。跨基準(zhǔn)測試的評估反復(fù)暴露了常見的瓶頸:模型通常在現(xiàn)實世界接地、連貫的長期推理和規(guī)劃、與外部工具的無縫集成以及在多樣化模態(tài)和領(lǐng)域中的穩(wěn)健性方面失敗。例如,在 BrowseComp 基準(zhǔn)測試中,GPT - 4o 僅實現(xiàn) 0.6% 的準(zhǔn)確率,當(dāng)接入瀏覽工具時提升至 1.9%,凸顯了工具交互規(guī)劃能力的薄弱。OpenAI 的 O1 推理模型達(dá)到 9.9%,但仍存在顯著提升空間。值得注意的是,OpenAI 的深度研究通過針對網(wǎng)絡(luò)搜索的特定調(diào)優(yōu),利用自主迭代工具調(diào)用和推理完成了 51.5% 的任務(wù)。實驗結(jié)果凸顯了當(dāng)前大型推理模型在長期推理和適應(yīng)性規(guī)劃方面的不足,可能需要特定的調(diào)優(yōu)和架構(gòu)增強,以發(fā)展為真正的原生智能體系統(tǒng)。

O3 和 O4 - mini 的初步研究最近,OpenAI 推出了 O3 和 O4 - mini,為 ChatGPT 工具提供完整的智能體訪問權(quán)限,并使模型能夠在思考過程中 “使用圖像”。例如,在段落后面“OpenAI o3的長多模態(tài)思維鏈案例研究”這張圖中,O3 在 8 分鐘 13 秒的思考過程中表現(xiàn)出清晰的任務(wù)分解。通過反復(fù)試驗,它有效確定了裁剪每個子圖的最佳方式,最終得出了正確答案。

圖片

OpenAI o3案例研究:尋找地點,解開謎題并創(chuàng)建多媒體內(nèi)容

除了視覺推理之外,研究人員還評估了 O3 在文件處理、拼圖求解、位置識別和多媒體內(nèi)容創(chuàng)作等方面的能力。如上圖(OpenAI o3案例研究:尋找地點,解開謎題并創(chuàng)建多媒體內(nèi)容)和 下圖(OpenAI o3案例研究:視覺問題解決與文件處理)所示,O3 在復(fù)雜多模態(tài)問題解決中表現(xiàn)出色,通過捕捉和利用圖像中的微妙線索。然而,一些挑戰(zhàn)也被識別出來:1)語言知識可能會干擾視覺輸入。例如,在下圖中的數(shù)手指案例中,O3 錯誤地將圖像識別為標(biāo)準(zhǔn)舉起的手表情,顯示四個手指加拇指,而圖像實際上顯示了六根手指。2)OpenAI 的 O3 在輸入文件處理和多媒體內(nèi)容生成方面存在困難。由于工具限制以及編碼環(huán)境中缺乏互聯(lián)網(wǎng)訪問,文件處理和多媒體創(chuàng)作往往出現(xiàn)不準(zhǔn)確的情況。在下圖所示的簡歷信息收集案例中,從簡歷 PDF 中解析的電話號碼可能不準(zhǔn)確,O3 還會通過重復(fù)類似內(nèi)容來編造候選人的項目經(jīng)驗。此外,在上圖所示的多媒體創(chuàng)作案例中,生成的幀未能遵循 “小熊貓” 指令,O3 也無法支持文本 - 圖像交替生成。3)OpenAI 的 O3 可能在思考過程中編造推理。它偶爾會構(gòu)造不正確的理由來支持潛在正確的答案(例如,上圖中的拼圖求解案例)。這個問題迫切需要解決,因為它可能導(dǎo)致模型在后訓(xùn)練過程中試圖欺騙用戶。事實上,這突顯了模型尚未掌握解決問題的相關(guān)思維邏輯。

圖片

OpenAI o3案例研究:視覺問題解決與文件處理

除了視覺推理之外,研究者還評估了 O3 在文件處理、拼圖求解、位置識別和多媒體內(nèi)容創(chuàng)作等方面的能力。如上兩圖所示,O3 在復(fù)雜多模態(tài)問題解決中表現(xiàn)出色,通過捕捉和利用圖像中的微妙線索。然而,一些挑戰(zhàn)也被識別出來:1)語言知識可能會干擾視覺輸入。例如,在上圖中的數(shù)手指案例中,O3 錯誤地將圖像識別為標(biāo)準(zhǔn)舉起的手表情,顯示四個手指加拇指,而圖像實際上顯示了六根手指。2)OpenAI 的 O3 在輸入文件處理和多媒體內(nèi)容生成方面存在困難。由于工具限制以及編碼環(huán)境中缺乏互聯(lián)網(wǎng)訪問,文件處理和多媒體創(chuàng)作往往出現(xiàn)不準(zhǔn)確的情況。在上圖所示的簡歷信息收集案例中,從簡歷 PDF 中解析的電話號碼可能不準(zhǔn)確,O3 還會通過重復(fù)類似內(nèi)容來編造候選人的項目經(jīng)驗。此外,在圖(OpenAI o3案例研究:尋找地點,解開謎題并創(chuàng)建多媒體內(nèi)容)所示的多媒體創(chuàng)作案例中,生成的幀未能遵循 “小熊貓” 指令,O3 也無法支持文本 - 圖像交替生成。3)OpenAI 的 O3 可能在思考過程中編造推理。它偶爾會構(gòu)造不正確的理由來支持潛在正確的答案(例如,上面圖中拼圖求解案例)。這個問題迫切需要解決,因為它可能導(dǎo)致模型在后訓(xùn)練過程中試圖欺騙用戶。事實上,這突顯了模型尚未掌握解決問題的相關(guān)思維邏輯。

圖片

OpenAI o3的長多模態(tài)思維鏈案例研究:經(jīng)過8分13秒的推理后得出正確答案。該問題來自中國公務(wù)員考試

N - LMRM 的能力

基于上述實驗發(fā)現(xiàn),引入了原生大型多模態(tài)推理模型(N - LMRM)的概念。N - LMRM 是原生設(shè)計的,目標(biāo)是跨任何模態(tài)統(tǒng)一多模態(tài)理解、生成和智能體推理,這將超越 O4 - mini 的感知和推理范圍。這一進步將建立在以下兩項變革性能力之上,這些能力在很大程度上是并行探索的:多模態(tài)智能體推理,這使得主動、目標(biāo)驅(qū)動的互動成為可能,通過分層任務(wù)分解、實時戰(zhàn)略調(diào)整和具身學(xué)習(xí);以及全模態(tài)理解與生成推理,這支持通過統(tǒng)一表示實現(xiàn)無縫跨模態(tài)合成與分析——促進異構(gòu)數(shù)據(jù)融合和上下文多模態(tài)互動。

圖片

下一代原生大模態(tài)推理模型概述。該構(gòu)想中的系統(tǒng)為了實現(xiàn)對各種現(xiàn)實世界數(shù)據(jù)模態(tài)的全面感知,從而實現(xiàn)精準(zhǔn)的全模態(tài)理解和深入的生成式推理。這一基礎(chǔ)模型將帶來更高級形式的智能行為,從世界經(jīng)驗中學(xué)習(xí),實現(xiàn)終身學(xué)習(xí)和自我完善

下表總結(jié)了與智能體和全模態(tài)模型相關(guān)的現(xiàn)有工作。這些模型僅探索了 N - LMRM 的部分能力,并未結(jié)合上述兩種能力來構(gòu)建更強大的大型多模態(tài)推理模型。

圖片

近期面向N-LMRM的智能體型和全模態(tài)模型綜述

多模態(tài)智能體推理的核心能力是動態(tài)適應(yīng),可以根據(jù)環(huán)境反饋實時調(diào)整策略。一些行業(yè)內(nèi)的最新產(chǎn)品已經(jīng)初步展示了這種能力。例如,Model Context Protocol(MCP)和 Agent2Agent Protocol(A2A)促進了多樣化工具的無縫集成,并實現(xiàn)了跨各種外部環(huán)境的動態(tài)互動,這些協(xié)議強調(diào)了多模態(tài)智能體推理的重要性,使智能體能夠基于環(huán)境反饋實時調(diào)整策略,從而增強其在動態(tài)和多面現(xiàn)實世界應(yīng)用中的有效性。例如,Operater 將 GPT-4o 的視覺能力與通過強化學(xué)習(xí)實現(xiàn)的先進推理能力相結(jié)合,使其能夠通過圖形用戶界面(GUI)與操作系統(tǒng)和瀏覽器進行實時互動,并在任務(wù)執(zhí)行過程中持續(xù)改進其瀏覽和數(shù)據(jù)操作。同樣,Claude Computer Use 允許模型操縱和導(dǎo)航桌面環(huán)境,并通過試錯學(xué)習(xí)最佳互動策略。

此外,Search-o1 在推理過程中利用外部知識檢索來填補其理解空白。R1 - Searcher 和 DeepResearcher 通過強化學(xué)習(xí)增強了其自主使用搜索引擎收集信息的能力。通過將這種自主知識檢索整合到推理過程中,這些系統(tǒng)能夠以更精細(xì)的理解行動,并根據(jù)變化的任務(wù)調(diào)整其響應(yīng)。Gemini 2.0 能夠處理和生成多模態(tài)內(nèi)容,并通過與谷歌的各種工具深度集成以及結(jié)合其先進的推理能力,有效分解任務(wù),并在處理多步問題時逐步獲取所需信息。盡管當(dāng)前模型已經(jīng)展示了這種功能的初步版本,但它們在進行持續(xù)、跨模態(tài)的互動推理方面仍然力不從心。

另一個方面是大型多模態(tài)推理模型的具身學(xué)習(xí),用于處理外部環(huán)境。例如,Magma 通過與真實世界數(shù)據(jù)的互動進行學(xué)習(xí),提升其空間 - 時序推理能力,以在虛擬和物理環(huán)境中有效導(dǎo)航和操作物體。同樣,OpenVLA 結(jié)合視覺編碼器與語言模型,使系統(tǒng)能夠從真實世界機器人的示范中學(xué)習(xí)。這種具身方法使模型能夠獲取視覺和特定任務(wù)的推理技能,增強其執(zhí)行需要多模態(tài)理解和適應(yīng)的復(fù)雜現(xiàn)實世界操作的能力。總之,近期的 RL - 規(guī)模方法將極大地激發(fā)大型模型的智能行為,推動世界模型的發(fā)展。

全模態(tài)理解與生成推理多模態(tài)智能體的行為與其底層大型多模態(tài)模型的深度推理能力密切相關(guān),尤其是在感知范圍、理解準(zhǔn)確性和推理深度方面。因此,開發(fā)一個全面的全模態(tài)模型以用于現(xiàn)實世界應(yīng)用并增強其深度推理能力是基礎(chǔ)性的。

技術(shù)前景

原生大型多模態(tài)推理模型(N - LMRM)的技術(shù)前景目標(biāo)是原生地統(tǒng)一各種數(shù)據(jù)類型的理解、生成和推理,從語言和視覺到音頻、觸覺、傳感器讀數(shù)、時間序列和結(jié)構(gòu)化數(shù)據(jù),使我們更接近能夠看、聽、說和行動的統(tǒng)一且協(xié)調(diào)的系統(tǒng)。然而,構(gòu)建此類 N - LMRM 面臨著重大挑戰(zhàn)。這些模型必須在架構(gòu)上被設(shè)計為能夠在單個系統(tǒng)中處理異構(gòu)模態(tài),通過使用其內(nèi)在多模態(tài)推理鏈通用和多樣化工具,并支持從現(xiàn)實世界互動中持續(xù)學(xué)習(xí)。本節(jié)概述了構(gòu)建 N - LMRM 的關(guān)鍵挑戰(zhàn),并提出了可能的解決途徑。

統(tǒng)一表示與跨模態(tài)融合一個基本挑戰(zhàn)是創(chuàng)建一個能夠在統(tǒng)一方式下處理和生成不同模態(tài)的單一模型架構(gòu)。傳統(tǒng)方法通常為每個模態(tài)使用獨立的編碼器。相比之下,原生全模態(tài)模型尋求更統(tǒng)一的設(shè)計,允許模態(tài)間的無縫互動。一種可能的解決方案是將所有輸入和輸出同質(zhì)化為共同格式,并統(tǒng)一處理任何模態(tài)。這需要精心設(shè)計,以防止負(fù)向干擾,即一個模態(tài)可能主導(dǎo)或損害其他模態(tài)的表示。因此,混合專家(MoE)架構(gòu)的新興解決方案應(yīng)運而生,其中特定模態(tài)的專家僅在相關(guān)輸入被激活,而核心語言模型作為語言智能的骨干。

交織的多模態(tài)長鏈思考基于統(tǒng)一表示,N - LMRM 可以將傳統(tǒng)的長內(nèi)部思考鏈擴展到多個模態(tài)的交織推理過程中。這為測試時計算擴展提供了新的維度,無縫融合不同模態(tài)。OpenAI 最近發(fā)布的 O3 和 O4 - mini 標(biāo)志著這一方向的開創(chuàng)性嘗試,即在思考鏈中使用圖像進行推理(OpenAI, 2025),通過可以自動處理的工具進行縮放、裁剪、翻轉(zhuǎn)或增強圖像。重要的是,這些能力是原生的,不依賴于獨立的專用模型。受軟件工程、國際數(shù)學(xué)奧林匹克競賽、創(chuàng)意寫作和 GUI 操作等領(lǐng)域強化學(xué)習(xí)泛化能力的鼓舞,將強化學(xué)習(xí)擴展到更多模態(tài)、更長的工具增強推理鏈和更廣泛的推理任務(wù),可能是下一代 N - LMRM 的配方,能夠模擬跨模態(tài)推理并提升機器智能。

從世界經(jīng)驗中學(xué)習(xí)與演化在動態(tài)發(fā)展的智能系統(tǒng)中,“世界模型 2” 的核心價值不僅在于其在復(fù)雜環(huán)境中的實時建模和推理能力,如自動駕駛,還在于其通過與環(huán)境持續(xù)互動實現(xiàn)終生學(xué)習(xí)的演化機制。當(dāng) MCP 和 A2A 創(chuàng)建工具和智能集群的高密度網(wǎng)絡(luò)時,系統(tǒng)可以通過與環(huán)境、工具和其他智能體的多維度互動,將每次互動轉(zhuǎn)化為結(jié)構(gòu)化的經(jīng)驗。這包括從實時數(shù)據(jù)流中進行模式識別、跨工具操作鏈的因果推理、在通信網(wǎng)絡(luò)中的協(xié)作反饋以及在異常場景中的自主適應(yīng)。

這種持續(xù)學(xué)習(xí)范式使 LMRM 能夠克服靜態(tài)知識庫的限制。通過迭代積累世界經(jīng)驗,它動態(tài)更新其認(rèn)知架構(gòu)和決策策略。特別是在開放環(huán)境中,自主學(xué)習(xí)機制驅(qū)動模型積極探索工具組合的潛力。在解決新問題的過程中,它同時存儲可轉(zhuǎn)移的知識,最終形成一個既具有專業(yè)推理能力又保持跨場景泛化韌性的智能系統(tǒng)。研究者認(rèn)為,結(jié)合在線強化學(xué)習(xí)和離線驗證方法的互動學(xué)習(xí)方法,可能會持續(xù)激發(fā) LMRM 的能力,這已在 GUI 智能體模型中被利用以持續(xù)提升性能。

數(shù)據(jù)合成當(dāng)前 LMRM 的能力在很大程度上是數(shù)據(jù)驅(qū)動的。為了在預(yù)訓(xùn)練階段增強這些模型,開發(fā)高質(zhì)量的數(shù)據(jù)合成管道以定制其功能至關(guān)重要。大多數(shù)現(xiàn)有的數(shù)據(jù)合成工作集中在提高單模態(tài)或跨模態(tài)的理解和推理,特別是在視覺、語言和語音等領(lǐng)域。然而,在更復(fù)雜的方面,例如對齊三種或更多模態(tài)、創(chuàng)建多模態(tài)互動鏈?zhǔn)剿伎己鸵曈X生成、在動態(tài)環(huán)境中進行多步規(guī)劃以及協(xié)調(diào)多工具調(diào)用和并行工具使用,鮮有探索。這些領(lǐng)域為推進多模態(tài)推理模型提供了重大機遇。

數(shù)據(jù)集和基準(zhǔn)測試

多模態(tài)推理模型的發(fā)展和優(yōu)化催生了一系列任務(wù)和基準(zhǔn)測試,用于對模型在不同方面(如視頻理解、視覺推理等)進行實證能力評估和分析。以下將現(xiàn)有數(shù)據(jù)集總結(jié)并分類為四大類:理解、生成、推理和規(guī)劃,同時總結(jié)這些基準(zhǔn)或數(shù)據(jù)集常用的評估指標(biāo)和維度。

圖片

按任務(wù)類型劃分的多模態(tài)基準(zhǔn)測試和數(shù)據(jù)集(訓(xùn)練)概覽:理解(以視覺為中心、以音頻為中心)、生成(跨模態(tài)、聯(lián)合多模態(tài))、推理(通用視覺、特定領(lǐng)域)以及規(guī)劃(圖形用戶界面、具身與仿真環(huán)境)。這些基準(zhǔn)測試通常需要進行簡短或較長的推理才能成功完成任務(wù),例如具有挑戰(zhàn)性的視覺和音頻生成

圖片

數(shù)據(jù)集和基準(zhǔn)測試的概述。我們將多模態(tài)數(shù)據(jù)集和基準(zhǔn)測試重新劃分為四個主要類別:理解、生成、推理和規(guī)劃

多模態(tài)理解

多模態(tài)理解是指模型處理和解釋來自多種模態(tài)(如視覺和聽覺數(shù)據(jù))的能力,以執(zhí)行需要理解、推理和生成的任務(wù)。這些任務(wù)對于開發(fā)能夠以更類人方式與現(xiàn)實世界互動和響應(yīng)的模型至關(guān)重要。根據(jù)任務(wù)定義,現(xiàn)有的多模態(tài)理解任務(wù)可分為兩大領(lǐng)域:1)以視覺為中心的理解,涵蓋模型理解和推理視覺內(nèi)容的能力;2)以音頻為中心的理解,側(cè)重于涉及語音、音樂和環(huán)境聲音等的任務(wù)。

視覺中心理解

以視覺為中心的理解評估模型理解和推理視覺數(shù)據(jù)(如圖像和視頻)的能力,涵蓋從一般視覺理解到文檔和圖表解釋、多語言視覺推理、視頻理解、數(shù)學(xué)和科學(xué)推理以及綜合基準(zhǔn)等多個領(lǐng)域的專門任務(wù)。每個領(lǐng)域都針對視覺理解的不同方面,從自然圖像中的對象識別和空間推理到結(jié)構(gòu)化視覺數(shù)據(jù)(如文檔和圖表)的解釋。以下對這些類別進行詳細(xì)探討:

一般視覺理解一般的視覺問答(VQA)數(shù)據(jù)集在復(fù)雜性和范圍上都有所發(fā)展。早期的數(shù)據(jù)集如 VQA 和 GQA 主要關(guān)注自然圖像中的對象識別、屬性識別和簡單的空間推理。這些數(shù)據(jù)集通常包含圖像 - 問題 - 答案三元組,問題格式簡單(例如,“汽車是什么顏色?”)。重點主要放在自然圖像和基本感知上。更近期的數(shù)據(jù)集如 ALIGN 為了解決更復(fù)雜的視覺 - 語言任務(wù),包括圖像 - 文本對齊和多模態(tài)表示。Visual Genome 通過包含關(guān)系和對象級信息擴展了視覺理解,從而推動了推理的邊界。LAION - 400M 數(shù)據(jù)集是最大的圖像 - 文本對集合之一,為視覺 - 語言模型的大規(guī)模訓(xùn)練提供了基礎(chǔ)。FILIP 和 YFCC100M 整合了視覺和語言,提升了模型在各種基準(zhǔn)測試中的性能。

文檔、圖表和 OCR 視覺理解文檔、圖表和 OCR 基于 VQA 數(shù)據(jù)集構(gòu)成了一個專門領(lǐng)域,專注于理解和解釋包含文本元素的結(jié)構(gòu)化視覺信息。例如,DocVQA 針對文檔理解,要求模型在文檔中定位和解釋文本以回答問題。圖表 VQA,如 DVQA,專注于解釋視覺數(shù)據(jù)表示,包括條形圖、折線圖和餅圖,測試模型對這些結(jié)構(gòu)的理解能力。OCR - VQA 數(shù)據(jù)集如 TextVQA 和 OCR - VQA 強調(diào)閱讀和推理嵌入在自然圖像中的文本。這些數(shù)據(jù)集具有幾個獨特特征:1)OCR 與視覺理解的深度整合,2)結(jié)合文本和視覺元素的多步推理,3)對文檔結(jié)構(gòu)、圖表慣例或文本布局的特定領(lǐng)域知識。與通用 VQA 數(shù)據(jù)集不同,這些集合更加強調(diào)視覺和文本內(nèi)容之間的跨模態(tài)互動,特別是在更結(jié)構(gòu)化的上下文中。此外,像 AI2D 這樣的數(shù)據(jù)集側(cè)重于圖表和結(jié)構(gòu)化視覺表示,增強了對圖形內(nèi)容的推理。

多語言視覺理解多語言視覺理解數(shù)據(jù)集滿足了多模態(tài)系統(tǒng)對語言多樣性的日益增長的需求。數(shù)據(jù)集如 CMMLU、C - Eval、Exams - v、M3exam、VideoVista - CulturalLingo 和 MTVQA 超越了以英語為中心的 VQA 系統(tǒng)。這些數(shù)據(jù)集的特征包括:1)涵蓋多種語言的問題和注釋,涉及各種語言家族,2)在不同文化背景下測試視覺理解和語言能力,3)要求模型理解可能具有特定文化解釋或參考的視覺概念。與單語言 VQA 數(shù)據(jù)集相比,這些多語言數(shù)據(jù)集評估并增強了 MLLM 的跨語言遷移能力。

視頻理解視頻理解數(shù)據(jù)集,例如 ActivityNet - QA 和 Perception Test ,越來越多地被用于訓(xùn)練和評估模型在動態(tài)視覺任務(wù)中的表現(xiàn)。與靜態(tài)圖像數(shù)據(jù)集相比,這些數(shù)據(jù)集要求模型解決基于時間的理解問題,涉及多個幀中的動態(tài)視覺特征。它們包括對動作、事件和時間關(guān)系的注釋,并涵蓋從幾秒鐘到幾分鐘不等的多樣化視頻時長。現(xiàn)有的視頻評估數(shù)據(jù)集已擴展到應(yīng)對科學(xué)領(lǐng)域(例如 Video - MMMU )、長視頻領(lǐng)域(例如 Video - MME )以及全面的視頻理解和推理(例如 VideoVista )的挑戰(zhàn)。VideoVista 提供了一個多功能基準(zhǔn)測試,包含 14 類視頻,時長從幾秒鐘到超過 10 分鐘,并涵蓋 19 個理解任務(wù)和 8 個推理任務(wù)。它利用由 GPT - 4o 提供支持的自動注釋框架,增強了其可擴展性和多樣性。像 YouTube8M 這樣的數(shù)據(jù)集已成為視頻分類和多模態(tài)理解的大規(guī)模基礎(chǔ)。此外,VidGen - 1M 和 WebVid 作為訓(xùn)練數(shù)據(jù)集,通過整合多模態(tài)文本和視覺信號來增強視頻理解。

綜合基準(zhǔn)綜合評估基準(zhǔn)如 MMBench、Seed - Bench 和 MME - RealWorld 已出現(xiàn),以提供對現(xiàn)有多模態(tài)模型的更全面評估。這些基準(zhǔn)測試衡量模型在現(xiàn)實世界場景中整合視覺和語言理解的能力,包括 1)多維度評估框架,評估視覺理解的各個方面,從感知到推理和知識整合,2)精心設(shè)計的問題,為了探索特定能力并識別弱點,3)標(biāo)準(zhǔn)化評估流程,以實現(xiàn)跨模型的公平比較。與早期特定任務(wù)的數(shù)據(jù)集不同,這些基準(zhǔn)測試提供了模型整體能力的全面衡量。

音頻中心理解

以音頻為中心的理解指的是評估模型處理、解釋和響應(yīng)各種形式的音頻輸入(如語音、環(huán)境聲音和音樂)的能力。隨著這些模態(tài)在機器學(xué)習(xí)任務(wù)中的重要性日益增加,評估模型對音頻數(shù)據(jù)的理解和互動能力已成為一個關(guān)鍵關(guān)注點。評估涵蓋了語音、音頻和音樂理解的不同方面,包括準(zhǔn)確性、翻譯、情感識別和一般理解的多種基準(zhǔn)和數(shù)據(jù)集。

語音理解語音評估數(shù)據(jù)集在評估模型的音頻領(lǐng)域性能方面發(fā)揮著關(guān)鍵作用。這些數(shù)據(jù)集主要從幾個角度衡量模型是否能夠準(zhǔn)確清晰地理解現(xiàn)實世界中的語音。現(xiàn)有的數(shù)據(jù)集從語音識別的準(zhǔn)確性角度評估,如 Librispeech 是一個由不同演講者朗讀的有聲讀物數(shù)據(jù)集,是廣泛使用的英語語音識別評估指標(biāo)。Common Voice 收集來自全球志愿者的語音記錄,為模型訓(xùn)練提供了一個多元化的語音數(shù)據(jù)集。Aishell 系列是中國語音識別的標(biāo)準(zhǔn)。Fleurs 評估了多語言語音識別和語音 - 文本翻譯模型。從語音多語言翻譯任務(wù)的角度來看,CoVoST2 是一個多語言語音 - 文本翻譯數(shù)據(jù)集,評估了模型的實時語音識別翻譯能力。從語音情感識別的角度來看,MELD 數(shù)據(jù)集評估了模型在 TV 劇中多演講者的情感語音中識別情感的能力。

環(huán)境聲音理解環(huán)境聲音理解是音頻理解的另一個重要方面,涉及從非人類語音中提取和識別信息。與人類語音相比,環(huán)境聲音提供了更復(fù)雜和多樣化的信息。主要的評估數(shù)據(jù)集主要在兩個關(guān)鍵領(lǐng)域評估音頻理解:1)音頻描述,Clotho 包含來自免費聲音平臺的聲音,主要用于音頻描述任務(wù)。同樣,AudioCaps 源自 AudioSet 數(shù)據(jù)集,也專注于音頻描述,具有更廣泛的應(yīng)用范圍。2)音頻問答(AQA),ClothoAQA 是一個眾包的 AQA 數(shù)據(jù)集,AQUALLM 是基于 LLM 的自動音頻 QA 生成框架構(gòu)建的。這些基準(zhǔn)測試包括各種音頻類型及其配對的問題和答案,幫助模型學(xué)習(xí)理解音頻內(nèi)容并生成對音頻相關(guān)問題的準(zhǔn)確回應(yīng)。

音樂理解音樂憑借其結(jié)構(gòu)特性和復(fù)雜的變體,已成為音頻理解的一個重要研究領(lǐng)域。音樂評估主要考慮兩個方向:主流數(shù)據(jù)集如 MusicNet 和 NSynth 評估了模型識別音樂理論元素(如樂器、音符、音高和節(jié)奏)的能力。此外,MusicCaps 和 MusicBench 用于對整個音樂曲目的描述,測試模型理解音樂作品的詳細(xì)內(nèi)容和整體結(jié)構(gòu)的能力。

綜合基準(zhǔn)隨著大型音頻 - 語言模型(LALMs)的不斷發(fā)展,越來越多的模型能夠理解語音和各種聲音。因此,研究人員提出了新的評估基準(zhǔn),以全面評估模型的音頻理解能力。VoiceBench 重點關(guān)注模型在不同情境下理解語音的能力,包括基本能力、口語表達(dá)和嘈雜環(huán)境下的表現(xiàn)評估。AudioBench 整合了多種語音任務(wù)(如自動語音識別、語音問答)、聲音任務(wù)(如音頻描述、音頻問答)以及與人類語音相關(guān)的任務(wù)(如口音、年齡和性別)。Air - Bench 和 MMAU 通過加入音樂任務(wù)擴展了這一范圍。SD - eval 結(jié)合了語音任務(wù)和環(huán)境聲音任務(wù),使模型能夠理解復(fù)雜的混合音頻場景。

多模態(tài)生成

多模態(tài)生成是多模態(tài)推理模型的關(guān)鍵能力之一,涵蓋在不同數(shù)據(jù)類型(如文本、圖像、音頻或視頻)中創(chuàng)建新內(nèi)容。這種生成能力不僅對創(chuàng)意應(yīng)用至關(guān)重要,而且在模型需要用多模態(tài)格式傳達(dá)其理解或推理結(jié)果的任務(wù)中發(fā)揮著重要作用。根據(jù)模態(tài)間信息流動方式和生成輸出的性質(zhì),這些任務(wù)可分為兩類:(1)跨模態(tài)生成,評估模型基于一種模態(tài)的輸入生成另一種模態(tài)內(nèi)容的能力;(2)聯(lián)合多模態(tài)生成,評估模型同時在多種模態(tài)中生成內(nèi)容的能力。

跨模態(tài)生成

跨模態(tài)生成涉及模型基于一種模態(tài)的輸入生成另一種模態(tài)的內(nèi)容。這包括文本到圖像、文本到視頻和文本到語音等任務(wù),要求模型有效地將一種類型的輸入(如文本)映射到另一種形式(如圖像、視頻或語音)。本節(jié)探討為評估模型在各種跨模態(tài)任務(wù)中的性能而開發(fā)的數(shù)據(jù)集和基準(zhǔn)測試,重點關(guān)注對齊、連貫性和語義生成。

文本到圖像隨著文本到圖像生成(T2I)領(lǐng)域的快速發(fā)展,出現(xiàn)了多種數(shù)據(jù)集和基準(zhǔn)測試,專門用于文本到圖像生成、編輯和條件生成等任務(wù)。對于文本到圖像生成,數(shù)據(jù)集如 MSCOCO(30K)、CC12M 和 Flickr30k 提供了大規(guī)模的通用圖像 - 文本對,強調(diào)日常場景和對象。相比之下,數(shù)據(jù)集如 RedCaps 和 COMMONPOOL 引入了更復(fù)雜的文本描述和更高分辨率的圖像。基準(zhǔn)測試如 GenEval 和 ELLA 專注于評估文本到圖像的對齊情況,衡量生成圖像與文本描述的匹配程度。此外,GenAI - Bench 和 T2I - CompBench++ 強調(diào)處理復(fù)雜提示詞和對象交互的能力,突出有效組合生成和改進語義對齊的需求。

對于文本到圖像編輯,數(shù)據(jù)集如 MagicBrush、InstructPix2Pix和 HQ - Edit 關(guān)注基于指令的編輯,而 HQ - Edit 將任務(wù)擴展到高清圖像。UltraEdit和 SEED - Data - Edit 引入了多輪編輯任務(wù),改進了大型語言模型(LLMs)在多輪對話中的訓(xùn)練。這些數(shù)據(jù)集評估了圖像編輯的不同需求,MagicBrush 側(cè)重于創(chuàng)意方面,而 Emu Edit 則關(guān)注高質(zhì)量編輯中的精準(zhǔn)性和連貫性。

對于條件文本到圖像生成,數(shù)據(jù)集如 ADE20K 和 CocoStuff 提供了詳細(xì)的分割圖和場景解析注釋,使模型能夠根據(jù)特定場景結(jié)構(gòu)生成圖像。UniControl 引入了更全面的數(shù)據(jù),要求模型同時處理多個條件輸入。基準(zhǔn)測試如 UniCombine 專注于評估指令執(zhí)行的完整性、視覺連貫性和與約束的一致性。

文本到視頻在文本到視頻生成領(lǐng)域,高質(zhì)量的數(shù)據(jù)集和全面的基準(zhǔn)測試對于研究進展至關(guān)重要。數(shù)據(jù)集如 VidGen - 1M 、OpenVid - 1M 和 VidProM 涵蓋了廣泛的視頻內(nèi)容及其對應(yīng)的描述性文本。基準(zhǔn)測試工具如 AIGCBench 、EvalCrafter 和 VBench 從不同指標(biāo)(如相關(guān)性、連貫性和視覺質(zhì)量)評估模型。專門的基準(zhǔn)測試如 VideoScore 、WorldSimBench 和 WorldScore 將評估擴展到視頻質(zhì)量和現(xiàn)實世界準(zhǔn)確性,其中 VideoScore 評估用戶滿意度。

文本到語音文本到語音(TTS)生成受益于高質(zhì)量的數(shù)據(jù)集和基準(zhǔn)測試,這些資源推動了大型音頻 - 語言模型(LALM)的發(fā)展。早期模型使用合成數(shù)據(jù)集來評估語音對話能力,采用如 LlaMA - Questions 、Web Questions 和 Trivia QA 等數(shù)據(jù)集,評估基于詞錯誤率和文本與音頻輸出之間的一致性。最近的基準(zhǔn)測試如 ADU - Bench 評估了語音對話能力,涵蓋常規(guī)、專業(yè)、多語言和模糊場景,而 URO - Bench 包括語音風(fēng)格的評估,如語調(diào)和情感。

機器人在機器人領(lǐng)域,數(shù)據(jù)集和基準(zhǔn)測試為模型提供了高保真度的多模態(tài)環(huán)境,以評估其在如自動駕駛等任務(wù)中的性能。數(shù)據(jù)集如 ThreeDWorld 和 GAIA - 1 提供了用于機器人任務(wù)(如自動駕駛)的交互式模擬平臺。在基準(zhǔn)測試方面,Genesis 提供了標(biāo)準(zhǔn)化的評估框架,用于跨多種機器人任務(wù)評估模型,確保其在現(xiàn)實世界中的適用性。

聯(lián)合多模態(tài)生成

聯(lián)合多模態(tài)生成涉及同時在多種模態(tài)中創(chuàng)建內(nèi)容,例如生成文本和圖像或結(jié)合文本、音頻和視頻以產(chǎn)生連貫的輸出。這增加了額外的復(fù)雜性,因為模型必須確保生成模態(tài)之間的連貫性和一致性。為此,開發(fā)了專門的數(shù)據(jù)集和基準(zhǔn)測試,為模型創(chuàng)建與上下文相關(guān)的多模態(tài)輸出提供了豐富的訓(xùn)練環(huán)境。

文本到交錯圖像 - 文本近年來,多模態(tài)大型語言模型(MLLM)的發(fā)展顯著推進了交錯圖像 - 文本生成。數(shù)據(jù)集如 MM - Interleaved 和 ANOLE 通過提供高質(zhì)量的標(biāo)注圖像 - 文本對支持模型訓(xùn)練。這些數(shù)據(jù)集強調(diào)模型生成與上下文相關(guān)且視覺連貫內(nèi)容的必要性。基準(zhǔn)測試如 InterleavedEval 和 OpenLEAF 側(cè)重于評估模型生成連貫且一致的圖像 - 文本對的能力,而 OpenING 提供了更多樣化的任務(wù)以評估交錯圖像 - 文本生成。

文本到多模態(tài)輸出近期在文本到多模態(tài)輸出方面的研究通過結(jié)合跨模態(tài)和聯(lián)合多模態(tài)數(shù)據(jù),增強了多模態(tài)生成能力。模型如 NextGPT 和 DreamFactory 采用無訓(xùn)練的方法,將文本轉(zhuǎn)化為多模態(tài)故事,并結(jié)合視頻評估基準(zhǔn)如 Vbench。其他模型如 EVA 通過整合具身世界模型,基于文本輸入模擬和預(yù)測視頻序列中的事件。

多模態(tài)推理

多模態(tài)推理超越了簡單的理解或生成,要求模型整合來自多種模態(tài)的信息,以進行推斷、解決問題和回答需要對不同類型數(shù)據(jù)之間的關(guān)系有更深入理解的復(fù)雜問題。多模態(tài)推理模型可分為兩大類:(1)通用視覺推理,評估模型理解視覺內(nèi)容并運用一般知識、邏輯和常識解決問題的能力;(2)特定領(lǐng)域推理,評估模型在特定領(lǐng)域的專業(yè)推理能力,如基于視覺輸入的數(shù)學(xué)問題解決。

通用視覺推理

通用視覺推理是多模態(tài)推理模型中最關(guān)鍵的能力之一。它要求模型不僅要感知視覺信息,還要運用廣泛的知識、邏輯推理和常識在各種場景中理解和分析視覺信息。為了嚴(yán)格評估這一能力,開發(fā)了多種基準(zhǔn)測試,每個基準(zhǔn)測試都針對視覺推理的不同方面。除了簡單的問答任務(wù)(例如 VQA),視覺常識推理基準(zhǔn)測試如 VCR 和專門的數(shù)據(jù)集如 PhysBench 用于物理推理和 VideoPhy 用于理解視頻中的物理常識,這些都挑戰(zhàn)模型運用日常知識解釋視覺情境的能力。

對更廣泛 AI 能力的追求反映在多模態(tài)通用智能基準(zhǔn)測試中。這些包括全面評估如 MMBench(涵蓋多語言方面)、MMMU(跨越不同學(xué)科)、AGIEval (專注于以人為中心的評估)、VideoVista 和 MMStar (以視頻為中心)。這些基準(zhǔn)測試將視覺推理作為與其他模態(tài)和任務(wù)相結(jié)合的關(guān)鍵組成部分。此外,對圖表和結(jié)構(gòu)化視覺的理解至關(guān)重要,基準(zhǔn)測試如 AI2D 和 InfographicVQA 挑戰(zhàn)模型解釋空間布局、理解關(guān)系并從圖表、圖表和信息圖中提取信息的能力。

這些基準(zhǔn)測試的一個關(guān)鍵組成部分是用于訓(xùn)練和評估模型的數(shù)據(jù)集。例如,SWAG 是為了訓(xùn)練模型預(yù)測視覺場景中可能的動作延續(xù)。LLava - CoT 數(shù)據(jù)集 通過整合大型語言模型,使模型能夠進行視覺常識推理。CLEVR 挑戰(zhàn)模型在日常對象的合成圖像上進行復(fù)雜推理。其他數(shù)據(jù)集如 Mulberry - 260K 和 ShareGPT4oReasoning 進一步訓(xùn)練模型進行視覺常識推理和多模態(tài)對話。

Video - R1 - data 幫助訓(xùn)練模型在視頻序列中推理動態(tài)視覺內(nèi)容。最后,Visual - CoT 支持需要視覺理解和推理的各種任務(wù)的模型訓(xùn)練。隨著這些基準(zhǔn)測試和數(shù)據(jù)集不斷發(fā)展和演變,它們對于推進多模態(tài)推理模型至關(guān)重要。

特定領(lǐng)域推理

特定領(lǐng)域推理基準(zhǔn)測試在評估多模態(tài)模型在特定領(lǐng)域的專業(yè)推理能力方面發(fā)揮著關(guān)鍵作用,例如基于視覺輸入的數(shù)學(xué)問題解決。在數(shù)學(xué)推理方面,數(shù)據(jù)集如 MathVista 和 MATH - Vision 評估模型在視覺情境中解決數(shù)學(xué)問題的能力,這需要視覺理解和數(shù)學(xué)推理相結(jié)合。同樣,圖表 QA 和 ScienceQA 專注于特定領(lǐng)域的推理。

在機器人領(lǐng)域,幾個基準(zhǔn)測試評估了具身 AI 的不同方面,特別強調(diào)推理能力。模擬環(huán)境如 Habitat、AI2 - THOR 和 iGibson 要求智能體在復(fù)雜的 3D 環(huán)境中進行推理,以處理導(dǎo)航、交互和空間理解任務(wù)。基準(zhǔn)測試如 Isaac Lab 和 ProcTHOR 專注于在多樣化環(huán)境中進行操作任務(wù)的推理。其他如 WebArena 測試關(guān)于網(wǎng)絡(luò)內(nèi)容的推理,而語言引導(dǎo)推理則通過基準(zhǔn)測試如 CALVIN 進行評估。

對于物理推理,數(shù)據(jù)集如 PhysBench、VideoPhy 和 CRAVE 評估模型對視覺和視頻情境中物理定律和常識的理解。最后,基準(zhǔn)測試如 GAIA - 1 和 RoboGen 通過評估模型模擬和推理現(xiàn)實世界動態(tài)和互動的能力,支持世界模型的開發(fā)。

多模態(tài)規(guī)劃

多模態(tài)規(guī)劃基準(zhǔn)測試對于評估智能體在整合和處理多樣化輸入(如視覺、文本和交互數(shù)據(jù))同時執(zhí)行復(fù)雜、多步驟任務(wù)方面的能力至關(guān)重要。這些基準(zhǔn)測試涵蓋了從網(wǎng)絡(luò)導(dǎo)航到圖形用戶界面(GUI)、具身環(huán)境和開放式模擬等多種挑戰(zhàn),通過測試規(guī)劃、推理和適應(yīng)性,提供了對智能體能力的全面了解。可以將這些基準(zhǔn)測試分為兩個關(guān)鍵領(lǐng)域,以突出它們的獨特貢獻和創(chuàng)新。

GUI 導(dǎo)航

GUI 導(dǎo)航基準(zhǔn)測試評估智能體在數(shù)字界面中規(guī)劃和執(zhí)行任務(wù)的能力,這需要強大的視覺 - 語言接地和多步驟推理。例如,WebArena 和 Mind2Web 提供了現(xiàn)實的網(wǎng)絡(luò)環(huán)境用于導(dǎo)航和信息提取,而 Mind2Web 進一步引入跨網(wǎng)站任務(wù)以測試泛化能力。VisualWebBench 推進了視覺密集型規(guī)劃,擁有 1.5K 項任務(wù),專注于跨頁面集成和元素定位。Windows Agent Arena 評估了跨應(yīng)用規(guī)劃在桌面環(huán)境中的能力,而 Ferret - UI 專注于基于接地 UI 理解執(zhí)行多步驟指令。WebShop 等基準(zhǔn)測試在模擬的電子商務(wù)環(huán)境中測試視覺 - 語言接地。此外,OSWorld 和 OmniACT 提供了現(xiàn)實桌面操作系統(tǒng)環(huán)境,支持跨應(yīng)用工作流程,如文件操作和數(shù)據(jù)處理。VisualAgentBench 通過系統(tǒng)性地評估大型多模態(tài)模型在 GUI、具身和視覺設(shè)計任務(wù)中的表現(xiàn),建立了統(tǒng)一的規(guī)劃和行動基準(zhǔn),這得到了 LlamaTouch 等基準(zhǔn)測試的補充,后者通過 495 項任務(wù)擴展了移動 UI 自動化,測試多步驟操作,如應(yīng)用程序?qū)Ш健?/span>

具身和模擬環(huán)境

具身和模擬環(huán)境強調(diào)在動態(tài)、交互式環(huán)境中進行規(guī)劃,智能體必須適應(yīng)物理或虛擬世界。例如,MineDojo 在 Minecraft 中提供了一個開放式的基準(zhǔn)測試,支持在豐富、交互式環(huán)境中對通用智能體進行多樣化任務(wù)的訓(xùn)練和評估。其靈活性支持多模態(tài)規(guī)劃,用于對象交互、導(dǎo)航和資源管理。MuEP 專注于具身規(guī)劃,以視覺 - 語言輸入處理模擬環(huán)境中的路徑規(guī)劃任務(wù)。GVCCI 引入了一個終身學(xué)習(xí)框架,生成合成數(shù)據(jù)以增強視覺接地,用于語言引導(dǎo)的機器人操作,無需人類監(jiān)督即可實現(xiàn)顯著性能提升。BEHAVIOR - 1K 提供了 1,000 項家庭活動的數(shù)據(jù)集,使機器人能夠通過整合視覺、語義和動作數(shù)據(jù)規(guī)劃復(fù)雜任務(wù)。Habitat 3.0 推進了在模擬家庭環(huán)境中的人 - 機器人協(xié)作,支持多模態(tài)規(guī)劃以用于導(dǎo)航和互動。SAPIEN 提供了高保真度環(huán)境,用于基于部件的對象操作,增強機器人規(guī)劃的精確度。HomeRobot 及其 OpenVocabManip 基準(zhǔn)測試開創(chuàng)了開放詞匯移動操作的先河,結(jié)合語言、感知和動作以實現(xiàn)通用任務(wù)。HoloAssist 捕捉了以第一人稱視角進行的人 - 機器人互動,促進了現(xiàn)實世界協(xié)作任務(wù)的規(guī)劃。DrivingDojo 在實時駕駛場景中測試動態(tài)決策,利用視頻和多智能體數(shù)據(jù)。最后,V - MAGE 提出了一個基于游戲的評估框架,用于在定位、軌跡跟蹤和視覺記憶等任務(wù)中評估多模態(tài)大型語言模型(MLLM),提供了量化規(guī)劃能力的新方法。

多模態(tài)規(guī)劃基準(zhǔn)測試在評估智能體在多樣化任務(wù)中的能力方面取得了顯著進展,從網(wǎng)絡(luò)導(dǎo)航到具身環(huán)境。然而,挑戰(zhàn)依然存在,如長期規(guī)劃、處理噪聲輸入和現(xiàn)實世界適應(yīng)性。未來的基準(zhǔn)測試應(yīng)關(guān)注開放世界環(huán)境、實時人類反饋和協(xié)作規(guī)劃,特別是在多智能體或人類 - AI 場景中。解決這些差距將有助于開發(fā)能夠以更大靈活性和泛化能力處理不可預(yù)測現(xiàn)實任務(wù)的智能體。

評估方法

目前主流的評估方法包括精確 / 模糊匹配、選項匹配、LLM/MLLM 評分和智能體評估。

精確 / 模糊匹配主要用于一般開放式 VQA 任務(wù),包括 VQAv2 、OKVQA 等。這些評估數(shù)據(jù)集通常提供多個由人類標(biāo)注的候選答案,經(jīng)過規(guī)則處理的預(yù)測答案與候選答案進行精確或模糊匹配。最終的評估分?jǐn)?shù)根據(jù)特定規(guī)則計算。例如,在 VQAv2 評估中,與單一候選答案匹配僅得 1/3 分,與所有三個候選答案匹配才能獲得滿分 1 分;DocVQA 則使用 Levenshtein 距離來衡量預(yù)測結(jié)果的準(zhǔn)確性。

選項匹配由于答案的多樣性,精確和模糊匹配方法往往無法涵蓋所有候選選項。為了確保評估的公平性和準(zhǔn)確性,引入了選項匹配方法。在此方法中,系統(tǒng)提示包含幾個候選選項,模型需要從中選擇最合適的一個。此外,為了減少模型在選擇過程中對特定選項的偏好,如 MMBench 等工作采用了 CircularEval 方法,以最小化評估中的隨機變化。

LLM/MLLM 評分盡管選項選擇確保了公平性,但它與開放式問題和現(xiàn)實世界情境的性質(zhì)相去甚遠(yuǎn)。因此,基于 LLM 的評估方法被引入到開放式問題的評估中。此方法將特定提示、問題、標(biāo)準(zhǔn)答案和模型預(yù)測輸入到 LLM 或 MLLM(如 GPT - 4o)中,以生成分?jǐn)?shù)。提示通常包括評分指南、參考示例等信息,目的是引導(dǎo)模型提供公平和平衡的分?jǐn)?shù)。

智能體評估在評估過程中,單一模型的能力固有局限性可能導(dǎo)致在處理多樣化多模態(tài)信息時的不足。因此,基于智能體的方法可以利用工具來緩解模型本身的限制。例如,CIGEval 通過整合多功能工具箱,擴展了 MLLM 的視覺理解能力,從而實現(xiàn)更精細(xì)的評估。此外,多智能體討論在下游任務(wù)中被證明是有效的,通過促進共識產(chǎn)生更健壯的解決方案,這種優(yōu)勢也延伸到了評估場景。利用多個智能體之間的協(xié)作或?qū)够觼碓u估輸出的方法,已被證明能夠提供更可靠和可解釋的評估。

總結(jié)、感想

本文綜述了多模態(tài)推理模型的演變歷程,突出了該領(lǐng)域的關(guān)鍵進展和范式轉(zhuǎn)變。盡管當(dāng)前模型在視覺問答、視覺數(shù)學(xué)和視頻理解等任務(wù)中展現(xiàn)出了以語言為中心的推理范式的優(yōu)勢,但在視覺中心的長期推理(例如理解 3D 上下文、處理復(fù)雜的視覺信息檢索問題)和交互式多模態(tài)推理(例如動態(tài)跨模態(tài)對話或迭代反饋循環(huán))方面仍有待深入探索。

基于實證評估和實驗,研究者提出了原生大型多模態(tài)模型的概念,這些模型超越了以語言為主導(dǎo)的架構(gòu)。此類模型應(yīng)著重具備三項核心能力:多模態(tài)智能體推理,實現(xiàn)與環(huán)境的主動互動(例如,具身 AI 智能體可通過現(xiàn)實世界中的試錯學(xué)習(xí)進行學(xué)習(xí));全模態(tài)理解與生成推理,整合任意模態(tài)的語義(例如,在視覺、音頻和文本之間對齊抽象概念),同時在復(fù)雜的開放世界情境中解決歧義;以及在多模態(tài)輸出中生成連貫且與上下文相關(guān)的輸出(例如,根據(jù)口頭指令生成圖表,或從文本合成視頻敘事)。通過解決這些維度的問題,未來的模型有望實現(xiàn)類似人類的上下文適應(yīng)性,縮小孤立任務(wù)表現(xiàn)與通用現(xiàn)實問題解決之間的差距。

其實相關(guān)的綜述,之前還有一篇,感興趣的同學(xué)可以對比閱讀《MCoT:讓機器像人類一樣思考 (綜述)》。我在閱讀哈工大深圳校區(qū)的這篇論文時(見文末參考)注意到它僅是外部資料的引用就有458篇,素材算較為全面的。看到研究者通過對各個階段代表性模型、方法和實驗數(shù)據(jù)的剖析,我了解到了多模態(tài)推理模型在不同階段的特點、優(yōu)勢與局限性。從早期模塊化推理網(wǎng)絡(luò)對感知線索的巧妙利用,到預(yù)訓(xùn)練視覺 - 語言模型在統(tǒng)一表示和融合過程中的關(guān)鍵作用;從多模態(tài)鏈?zhǔn)剿伎挤椒ㄔ谔嵘评砩疃群涂山忉屝苑矫娴娘@著成效,到強化學(xué)習(xí)在增強模型推理能力上的獨特魅力,每一個技術(shù)節(jié)點都在加中多模態(tài)在我知識體系中的分量。同時,也讓我深刻認(rèn)識到當(dāng)前多模態(tài)推理模型在全模態(tài)理解和智能體推理方面的不足。

而論文后面提到的原生大型多模態(tài)推理模型(N-LMRM)的概念讓我很高興這與自己之前的認(rèn)知是吻合的,它所提出的多模態(tài)智能體推理和全模態(tài)理解與生成推理能力,是多模態(tài)推理領(lǐng)域為來重要的能力。一個能夠像人類一樣全面感知世界、精準(zhǔn)理解各種模態(tài)信息,并進行深度推理和決策的智能模型,將在多廣泛的領(lǐng)域帶來變革性的應(yīng)用,這會推動人工智能技術(shù)的邊界。閱讀論文,并輸出此文,真是收獲滿滿。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-27 08:40:00

模型推理AI

2025-03-05 00:22:00

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-05-28 02:40:00

AdaptThink推理模型AI

2024-09-24 11:01:03

2025-05-30 02:00:00

獎勵模型RRMAI

2025-03-19 09:00:00

模型AI訓(xùn)練

2024-12-25 09:30:00

2025-06-11 14:39:50

AILLMMistral

2021-09-30 11:14:47

服務(wù)器Web瀏覽器

2025-05-21 08:47:00

2025-06-17 08:40:44

2025-06-23 09:07:00

2023-12-28 17:31:44

PixelLM性能模型

2025-05-13 05:11:00

推理模型微調(diào)

2023-06-06 14:09:32

模型開源

2025-04-10 08:23:11

2025-04-30 09:00:00

模型推理AI
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 性国产丰满麻豆videosex | 国产精品成人一区二区三区吃奶 | 国产精品久久久久一区二区三区 | 亚洲成人网在线播放 | 男女av| 久久久久久免费看 | 亚洲一区成人 | 成人深夜小视频 | 久久久成| 97精品国产97久久久久久免费 | 欧洲高清转码区一二区 | 亚洲一区二区av | 免费国产一区二区视频 | 人人色视频 | 欧美日韩国产不卡 | 精品一区二区三区日本 | 一区二区蜜桃 | 国产福利视频 | 在线观看国产h | 精品在线观看一区二区 | 第四色影音先锋 | av永久免费 | 日韩高清一区二区 | 色综合色综合网色综合 | 久久精品中文字幕 | 欧美国产视频一区二区 | 亚洲欧美综合 | 国产区一区二区三区 | 日韩在线视频一区 | 日韩三级在线 | 国产欧美精品一区二区色综合朱莉 | 国产夜恋视频在线观看 | 日韩精品一区二区三区高清免费 | 成人免费xxxxx在线视频 | 日韩一区二区免费视频 | 久久国产视频一区 | 黄色一级大片在线免费看产 | 天天干天天插天天 | 亚洲一区视频在线 | 男人天堂99 | 一级a爱片性色毛片免费 |