UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成 原創
摘要
檢索增強生成(RAG)通過將模型響應與查詢相關的外部知識相結合,在提高事實準確性方面展現出巨大潛力。然而,大多數現有的 RAG 方法僅限于純文本語料庫。盡管最近的研究努力將 RAG 擴展到圖像和視頻等其他模態,但它們通常僅在單一模態特定的語料庫上運行。相比之下,現實世界中的查詢對知識類型的需求差異很大,單一類型的知識源無法滿足這些需求。為了解決這一問題,我們引入了通用檢索增強生成(UniversalRAG),這是一種新穎的 RAG 框架,旨在從具有不同模態和粒度的異構源中檢索和整合知識。具體而言,由于發現將所有模態強制納入從單個組合語料庫派生的統一表示空間會導致模態差距(即檢索傾向于選擇與查詢模態相同的項目),我們提出了一種模態感知路由機制,該機制可以動態識別最合適的特定模態語料庫,并在其中進行有針對性的檢索。此外,除了模態之外,我們將每個模態組織成多個粒度級別,以便根據查詢的復雜性和范圍進行微調檢索。我們在涵蓋多種模態的 8 個基準測試中驗證了通用檢索增強生成(UniversalRAG)的有效性,結果表明它優于特定模態和統一的基線方法。我們的項目頁面為??https://universalrag.github.io??。
1 引言
近年來,大語言模型(LLMs)在諸如問答(OpenAI 等人,2024;Anil 等人,2023)等各種任務中展現出卓越性能,并在 ChatGPT 等各種服務中得到廣泛應用,為人們的日常生活提供幫助。然而,大語言模型(LLMs)經常生成事實性錯誤或誤導性信息,尤其是在其訓練過程中較少接觸或未接觸過的主題(如近期事件)上(Zhang 等人,2023;Huang 等人,2025)。為了解決這一問題,檢索增強生成(RAG)應運而生,它是一種很有前景的方法,能夠使模型的響應基于從外部知識源檢索到的與查詢相關的知識,從而提高事實準確性(Lewis 等人,2020;Gao 等人,2024;Chen 等人,2024a)。
然而,盡管檢索增強生成(RAG)很有效,但現有的方法通常是為單一語料庫和模態設計的,這限制了它們處理需要不同類型知識源的用戶查詢的能力。在實際應用中,如圖 1 所示,用戶查詢對知識類型的需求差異很大:有些查詢使用文本(如表面事實和定義)就能得到最佳解答;有些則需要從圖像中獲取視覺理解(如物體的空間關系);還有些需要視頻提供的時間推理支持(如具有動態場景的分步指令)。相反,檢索增強生成(RAG)領域最初主要關注文本語料庫(Lewis 等人,2020;Jiang 等人,2023;Yan 等人,2024)。盡管最近的研究已將其擴展到文本以外的模態(如圖像和視頻)(Abootorabi 等人,2025;Riedler 和 Langer,2024;Jeong 等人,2025),但現有的檢索增強生成(RAG)方法通常是特定于模態和語料庫的。因此,它們可能無法作為一個通用的、萬能的框架,靈活處理知識需求各異的廣泛查詢。
在這項工作中,我們提出了通用檢索增強生成(UniversalRAG),這是一種新穎的檢索增強生成(RAG)框架,它整合了分布在多個特定模態語料庫(包括文本、圖像和視頻源)中的知識,并利用這些知識在通用工作流程中生成針對查詢的有依據的響應。為了實現這一點,最直接的方法可能是匯總收集到的異構知識語料庫中的所有條目,并使用多模態編碼器將它們嵌入到統一的表示空間中(如果不同模態的輸入在語義上相似,多模態編碼器通常經過訓練以對齊這些輸入)。然而,盡管進行了這種對齊努力,我們發現這種策略存在模態差距,即輸入傾向于根據其模態而不是語義含義進行聚類(如圖 2 所示),在先前的不同研究中也觀察到了類似現象(Zhang 等人,2025;Wei 等人,2024)。結果,檢索過程會偏向于與查詢模態相同的知識源,而忽略了其他模態的相關內容。
圖1:現有檢索增強生成(RAG)方法的局限性(a, b)以及所提出的檢索增強生成(RAG)框架通用檢索增強生成(UniversalRAG)(c)的示意圖
圖2:統一嵌入空間的t-SNE可視化
圖3:基線模型和通用檢索增強生成(UniversalRAG)的平均得分
為了應對這一挑戰,我們沒有依賴于將所有模態強制納入共享表示的統一嵌入空間,而是采取了不同的方法:引入模態感知路由策略。具體而言,通用檢索增強生成(UniversalRAG)會根據給定查詢的模態需求,動態確定最合適的知識源進行檢索,然后將檢索過程路由到相應的特定模態語料庫。值得注意的是,這種策略不僅通過避免直接的跨模態比較來規避模態差距,還通過擴展路由邏輯實現了新模態的無縫集成,而無需修改現有的特定模態檢索器。
除了模態之外,另一個重要維度是數據粒度(語料庫中每個條目的大小或單位),它在檢索精度和生成質量方面都起著關鍵作用(Chen 等人,2024b;Zhong 等人,2025)。因為即使在同一模態內,不同的查詢也會從不同的粒度級別中受益。這是因為過細的粒度條目會稀釋上下文信息,而過粗的條目可能會將不相關的信息捆綁在一起。例如,一個復雜的分析性問題可能需要長篇文檔或完整視頻來獲取足夠的上下文信息,而一個簡單的事實性問題用單個段落或短視頻片段就能得到最佳解答 。
為了適應這一方面,我們進一步將每個模態細分為多個粒度級別,并將它們組織成不同的語料庫:文本文檔會額外分割成段落,并存儲在段落級語料庫中;類似地,完整長度的視頻會被分割成短視頻片段并存儲;而圖像由于本身就是碎片化的,所以保持不變。總體而言,通過這些考慮模態和粒度的語料庫(包括段落、文檔、圖像、片段和視頻),以及一個額外的 “無需檢索” 選項來高效處理簡單查詢(即不需要外部知識的查詢),我們的通用檢索增強生成(UniversalRAG)會將每個查詢動態路由到最相關的知識源,最終滿足現實世界用戶多樣化的信息需求。
我們在 8 個具有不同模態的基準測試中對通用檢索增強生成(UniversalRAG)進行了驗證(Hendrycks 等人,2021;Rajpurkar 等人,2016;Kwiatkowski 等人,2019;Yang 等人,2018;Chang 等人,2022;Wang 等人,2024a;Jeong 等人,2025)。通用檢索增強生成(UniversalRAG)在平均得分上超過了所有基線方法,表明其在各種查詢上都具有強大的性能。我們還通過實驗結果研究了多模態和多粒度語料庫的有效性。
2 方法
在本節中,我們將介紹通用檢索增強生成(UniversalRAG),這是一種新穎的檢索增強生成(RAG)框架,它可以根據給定的查詢,從跨越多種模態和粒度的不同語料庫中檢索知識。
2.1 預備知識
我們從預備知識開始,正式介紹大型視覺語言模型(LVLMs)和檢索增強生成(RAG)。
?大型視覺語言模型:為了將大語言模型(LLMs)的強大能力擴展到文本之外,并支持對圖像和視頻等視覺輸入的理解,最近引入了大型視覺語言模型(LVLMs)。它通過將視覺編碼器集成到大語言模型(LLMs)中,使其能夠處理文本和圖像、視頻等視覺輸入。形式上,大型視覺語言模型(LVLMs)將輸入序列x=[x_{1}, x_{2}, ..., x_{n}](其中可能包括文本和視覺標記),并生成輸出標記序列y=[y_{1}, y_{2}, ..., y_{m}],表示為:y=LVLM(x)。然而,盡管大型視覺語言模型(LVLMs)具有多模態能力,但它們仍然局限于參數化知識,并且在處理需要超出預訓練時編碼信息的詳細或有依據的信息的查詢時,往往會遇到困難。
?檢索增強生成:為了解決僅依賴參數化模型的上述局限性,檢索增強生成(RAG)從大型外部語料庫中檢索與查詢相關的信息,并將其整合到生成過程中。具體而言,在檢索步驟中,檢索器從語料庫C中選擇相關上下文c,形式化為c = Retriever(q; C),其中c \in C。在隨后的生成步驟中,大型視覺語言模型(LVLM)根據輸入查詢和檢索到的上下文生成響應a,表示為a = LVLM(q, c)。然而,大多數現有的檢索增強生成(RAG)方法僅限于從單一模態(如僅圖像)的單個語料庫中進行檢索,這限制了它們處理通常需要多模態信息的現實世界多樣化查詢的能力。
?統一檢索中的模態差距:鑒于現實場景中的外部知識通常涵蓋多種模態,如文本、圖像和視頻,我們定義了三個特定模態的語料庫:文本語料庫C_{text }={t_{1}, ..., t_{n}}、圖像語料庫C_{image }={i_{1}, ..., i_{m}}和視頻語料庫C_{video }={v_{1}, ..., v_{k}}。處理這種異構數據的一種常見方法是使用多模態編碼器將所有項目統一到共享的嵌入空間中,從而得到統一語料庫C_{unified }=C_{text } \cup C_{image } \cup C_{video },其中每個項目都表示為共享空間中的向量(Zhang 等人,2025;Wei 等人,2024),然后進行檢索c = Retriever(q; C_{unified })。然而,我們的實驗揭示了這種統一空間中存在明顯的模態差距,如圖 2 所示,查詢本質上是文本形式的,無論實際需要何種模態,都傾向于與文本語料庫項目更緊密地對齊。結果,即使查詢需要視覺或時間理解,檢索器也會返回基于文本的內容,導致次優或不相關的響應。這一觀察結果凸顯了統一檢索策略的基本局限性,并表明需要為不同模態維護單獨的特征空間。
2.2 通用檢索增強生成(UniversalRAG)
現在我們來介紹通用檢索增強生成(UniversalRAG),這是一個新穎的框架,它能動態識別查詢,并將其路由到最合適的知識模態和粒度進行檢索。
?模態感知檢索:為了解決檢索中的模態差距問題,我們為每個模態維護單獨的嵌入空間,將整體語料庫組織成三個不同的子語料庫:C_{text }、C_{image }和C_{video },每個子語料庫都由特定模態的向量表示組成。然后,我們引入一個路由模塊 Router,它為每個查詢動態選擇最合適的模態。具體來說,給定一個查詢q,Router 預測與查詢相關的模態r \in {'Text', 'Image', 'Video'},形式化為r = Router(q) 。一旦確定了模態r,特定模態的檢索器就會從相應的語料庫C_{r}中選擇相關項目c,大型視覺語言模型(LVLM)會根據查詢和檢索到的內容生成最終響應。然而,雖然這種設計減輕了模態差距,但僅按模態分隔語料庫可能仍然不夠,因為不同的查詢可能需要不同的粒度級別,即使在同一模態內也是如此。
?粒度感知檢索:為了靈活滿足不同查詢的信息需求,我們擴展了通用檢索增強生成(UniversalRAG),使其能夠在每個模態內的多個粒度級別上運行,為文本和視頻模態構建了兩個語料庫級別:細粒度和粗粒度。具體來說,文本語料庫最初是在段落級別組織的,每個項目通常包含關于單個實體的知識,但一些復雜查詢需要跨多個段落進行推理。為了解決這個問題,我們構建了一個文檔級語料庫C_{document }={d_{1}, ..., d_{l}},其中每個d是通過連接多個段落并對結果文本進行編碼得到的文檔的向量表示。另一方面,原始視頻語料庫由完整長度的視頻組成,這些視頻的時長通常超過一小時,當某些問題僅用短視頻片段就能回答時,檢索整個視頻的效率很低。因此,我們將每個完整長度的視頻分割成多個固定時長的片段,構建了一個片段級語料庫C_{clip }={k_{1}, ..., k_{p}},其中每個k表示從原始完整視頻中提取的修剪后視頻片段的表示。請注意,由于圖像本身就是細粒度的,我們不對圖像語料庫進行額外分割,保持其原樣。為此,Router 做出的路由決策r分為六類之一:{'None', 'Paragraph', 'Document', 'Image', 'Clip', 'Video'},檢索過程形式化如下:
最后,大型視覺語言模型(LVLM)根據檢索到的內容c生成最終響應a,這反映了為給定查詢q確定的最合適的模態和粒度。此外,如果不需要檢索(即c = None),大型視覺語言模型(LVLM)僅根據q直接生成響應,無需任何額外上下文。
2.3 通用檢索增強生成(UniversalRAG)中的路由設計
在這里,我們探討路由的兩種設計,它負責根據查詢動態選擇檢索模態和粒度。
?無訓練路由:無訓練路由利用預訓練大語言模型(LLM)的固有知識和推理能力,將查詢分類為合適的檢索類型,而無需額外訓練。具體來說,給定一個查詢q,向大語言模型(LLM)提供描述路由任務的詳細指令,并附帶幾個上下文示例,然后從一組六個預定義選項中預測最合適的檢索類型。
?訓練路由:我們進一步探索訓練路由模塊,以實現更準確的路由決策。然而,這種策略的一個關鍵挑戰是缺乏用于選擇最優語料庫的真實查詢 - 標簽對。為了解決這個問題,我們利用現有基準測試的特定模態歸納偏差來構建路由的訓練數據集,即我們假設每個基準測試主要與特定的模態和檢索粒度相關聯。具體來說,對于文本問答基準測試,僅基于模型參數知識就能回答的數據集查詢標記為 “None”,單跳檢索增強生成(RAG)基準測試的查詢標記為 “Paragraph”,多跳檢索增強生成(RAG)基準測試的查詢標記為 “Document”。類似地,基于圖像的檢索增強生成(RAG)基準測試的查詢標記為 “Image”。對于視頻問答基準測試,關注視頻中局部事件或特定時刻的查詢,如識別特定時間戳的動作,標記為 “Clip”,而需要理解完整故事情節或更廣泛時間上下文的查詢標記為 “Video”。使用這個構建的數據集,我們訓練路由在推理時預測給定查詢的適當檢索類型。
3 實驗設置
在本節中,我們將解釋實驗設置,包括數據集、模型、評估指標和實現細節。
3.1 數據集
為了評估我們的框架在不同模態下的性能,我們編制了一個全面的問答基準測試,涵蓋六種不同的檢索設置:無檢索、段落、文檔、圖像、片段和視頻。
?問答數據集:對于無檢索設置,我們使用 MMLU(Hendrycks 等人,2021),它在不需要外部知識源的情況下評估模型的知識。對于文本檢索設置,我們納入了三個基準測試:SQuAD(Rajpurkar 等人,2016)和自然問題(NQ)(Kwiatkowski 等人,2019)作為單跳檢索增強生成(RAG)基準測試,其中檢索單元是段落;而 HotpotQA(Yang 等人,2018)作為多跳檢索增強生成(RAG)基準測試,其中檢索單元是文檔。對于圖像檢索設置,我們使用 WebQA(Chang 等人,2022)的一個子集,該子集包含需要外部圖像支持的查詢。最后,對于視頻檢索設置,我們使用來自 LVBench(Wang 等人,2024a)、VideoRAG-Wiki(Jeong 等人,2025)和 VideoRAG-Synth(Jeong 等人,2025)的查詢。其中,針對短視頻片段或局部內容的查詢被歸類為片段級查詢,而需要理解長視頻或整個視頻的查詢被視為視頻級查詢。
?檢索語料庫:為了支持跨模態和粒度的檢索,我們為每個模態和粒度構建了特定的檢索語料庫。對于段落級檢索,我們使用從 SQuAD 和自然問題(NQ)派生的維基百科段落語料庫(Karpukhin 等人,2020)。在文檔級檢索的情況下,我們遵循 LongRAG(Jiang 等人,2024)的構建方法,構建一個聚合的維基百科文章語料庫。在圖像檢索方面,我們使用的檢索語料庫由WebQA數據集中的圖像構成。對于與視頻相關的檢索,我們定義了兩個單獨的語料庫:視頻檢索語料庫由來自LVBench和VideoRAG的完整YouTube視頻組成,而片段級檢索語料庫則包含從相同視頻中提取的剪輯片段。附錄A中提供了有關數據集構建的更多詳細信息。
3.2 模型
我們將 UniversalRAG 與八種不同的基線模型進行比較,具體如下:1)Na?ve 模型在回答查詢時不檢索外部知識。2)Paragraph、3)Document、4)Image、5)Clip 和 6)Video 模型僅從各自特定模態的語料庫中檢索信息。7)Unified 模型使用多模態編碼器 InternVideo2(Wang 等人,2024b)在不同語料庫的所有數據的單一統一嵌入空間中檢索信息,類似于(Zhang 等人,2025;Wei 等人,2024)。8)Random 模型隨機選擇一個特定模態的語料庫進行檢索。我們還實現了 UniversalRAG 的三個變體,其檢索器組件有所不同。9)GPT-4o 采用 GPT-4o(OpenAI 等人,2024)作為無訓練的路由器。10)DistilBERT 和 11)T5-Large 分別使用 DistilBERT(Sanh 等人,2019)和 T5-Large(Raffel 等人,2020),并在路由數據集上進行訓練。12)Oracle 是我們的理想設置,其中每個查詢都被路由到最合適的特定模態語料庫,模擬完美的路由。
3.3 評估指標
我們使用以下指標評估 UniversalRAG 和基線模型的性能。對于多項選擇題的基準測試,我們使用 Top1 準確率(Acc),它表示正確回答的問題數量。對于答案較短的基準測試,我們使用精確匹配(EM),用于檢查預測響應是否與正確答案完全匹配;以及 F1 分數(F1),用于衡量響應與參考答案在單詞級別的重疊程度。最后,對于答案較長的基準測試,我們使用 ROUGE-L,它捕捉預測答案與正確答案之間最長的匹配序列(Lin,2004);以及 BERTScore,它使用上下文嵌入來衡量響應與注釋之間的語義相似度(Zhang 等人,2020)。
3.4 實現細節
為了有效地從不同模態中檢索信息,我們利用特定模態的編碼器:bge-large-en-v1.5(Xiao 等人,2024)作為文本編碼器,InternVideo2(Wang 等人,2024b)作為視覺編碼器。對于響應生成,我們使用多種大型視覺語言模型(LVLMs),包括 InternVL2.5-8B(Chen 等人,2025)、Qwen2.5-VL7B-Instruct(Bai 等人,2025)和 Phi-3.5-Vision-Instruct(Abdin 等人,2024)。對于路由器模塊,可訓練的路由器以 2e-5 的學習率訓練 5 個 epoch,并根據驗證準確率選擇最佳的檢查點。在無訓練設置中,通過圖 6 所示的提示實例化 GPT-4o(OpenAI 等人,2024)。附錄 B 中提供了更多詳細信息。
4 實驗結果與分析
現在我們展示結果并進行深入分析。
4.1 主要結果
這里,我們展示了跨多種模態和粒度級別的不同檢索場景的整體結果。
?整體結果:首先,圖 3 展示了 UniversalRAG 和基線模型在八個多模態基準測試中的平均得分,表 1 提供了結果的詳細細分。UniversalRAG 在平均得分上始終優于所有基線模型,證明了通過自適應語料庫選擇利用多種模態的有效性。與提供有限信息的單模態語料庫不同,UniversalRAG 為每個查詢動態選擇最相關的模態,實現更準確的檢索和生成。有趣的是,UniversalRAG 顯著優于 Unified 基線模型,突出了我們的路由策略在現實多模態設置中的有效性。具體而言,Unified 基線模型由于其統一嵌入空間中的模態差距而表現不佳,常常默認僅檢索文本數據,從而導致性能下降。UniversalRAG 通過使用路由器選擇單個特定模態語料庫進行檢索來緩解此問題,有效地解決了模態差距。鑒于在構建跨模態統一嵌入空間時避免模態差距存在固有的挑戰,我們基于路由器的策略為解決這一問題提供了一個有前景的方向。
表1:不同檢索增強生成(RAG)變體,包括通用檢索增強生成(UniversalRAG)和基線模型,在特定模態基準測試上的結果。我們的方法通用檢索增強生成(UniversalRAG),以彩色單元格表示,包括針對DistilBERT和T5-Large的訓練方法,而GPT-4o以無訓練方式運行。加粗表示每個指標的最佳性能;下劃線表示通用檢索增強生成(UniversalRAG)方法中的第二好性能。R-L和BERT分別指ROUGE-L和BERTScore。
?路由器的有效性:在 UniversalRAG 模型中,經過訓練的路由器模型在所有使用不同大型視覺語言模型(LVLMs)的實驗中均比無訓練的路由器模型取得更好的結果。這種改進是由于經過訓練的路由器在訓練過程中針對路由任務進行了明確的優化,從而帶來了卓越的路由性能。因此,具有訓練路由器的 UniversalRAG 模型更擅長識別最優數據源并生成更準確的答案。盡管如此,無訓練的路由器仍然優于包括隨機路由器在內的其他基線方法,表明在我們的框架中零樣本路由仍然有效。為了進一步了解路由對整體系統性能的影響,我們分析了每個路由器模型的準確率和相應的整體得分。圖 4 展示了零樣本和訓練路由器模型的混淆矩陣。雖然兩種路由器通常都能成功將輸入導向適當的模態,但訓練路由器的準確率明顯高于無訓練的模型。值得注意的是,對于 Clip 和 Video 模態,存在一些誤路由的查詢,主要是由于區分兩種不同粒度的模糊性。盡管如此,輸入仍然被正確路由到視頻模態,突出了路由機制的穩健性。如表 2 所示,我們的路由方法在路由準確率方面顯著優于隨機和統一基線模型。這種準確率的提高直接轉化為更好的整體性能,證明了準確路由與端到端有效性之間的強相關性。這些結果強調了將查詢正確路由到適當模態語料庫的重要性,證明了在多模態檢索增強生成(RAG)場景中可靠路由器的必要性。
圖4:不同模型在域內和域外查詢上的路由器預測混淆矩陣
表2:不同檢索方法在域內和域外數據集上的路由器準確率和生成性能
?多粒度的有效性:為了進一步研究納入多個粒度級別的有效性,我們在粗粒度和細粒度檢索設置下評估 UniversalRAG。在無粒度(粗粒度)設置中,路由器將查詢分類為四個主要模態:無、文本、圖像或視頻。在有粒度(細粒度)設置中,我們進一步細分模態以進行更精確的檢索:文本分為段落和文檔級別,而視頻分為片段和完整視頻。在基準測試中,我們使用 HotpotQA 評估跨多個實體的文檔級推理,使用 LVBench 評估片段級任務,因為其問題通常可以使用短視頻片段回答。如表 3 所示,在所有路由器模型下,具有粒度的 UniversalRAG 在兩個基準測試上始終優于無粒度的模型。這突出了在文本和視頻語料庫中支持不同粒度級別可以通過使模型能夠根據每個查詢檢索適量的信息來提高 UniversalRAG 的性能。相比之下,沒有粒度控制的模型對所有查詢應用相同的粒度級別,這可能導致信息檢索不足或過多。因此,支持多個粒度級別對于自適應處理廣泛的用戶查詢至關重要。
表3:粒度對三個模型在兩個基準測試上性能的影響。Gn表示粒度
4.2 分析與討論
這里,我們對性能改進進行詳細分析。
?域外數據集上的結果:為了研究我們方法的泛化能力,我們在五個未見數據集上評估 UniversalRAG,附錄 A.2 中提供了每個基準測試的詳細描述。如表 2 所示,GPT-4o 實現了最高的路由準確率,甚至超過了其在域內的性能,展示了強大的泛化能力。然而,訓練后的路由器在域外數據上表現不佳,表明路由器對訓練數據過擬合,這主要是由于訓練數據中查詢的多樣性不足。圖 4 進一步突出了域內和域外數據集之間的性能權衡。受益于其穩健的路由,GPT-4o 還實現了最高的平均問答得分,優于訓練后的路由器和基線模型。作為解決兩種設置之間性能權衡的一種方法,我們引入了一種使用訓練和無訓練路由器的集成路由器。具體而言,如果訓練路由器的路由結果置信度足夠高,則選擇該結果;否則,使用無訓練路由器的響應。這種策略使得在處理與域內數據集特征相似的查詢時利用訓練路由器,而對于不熟悉或域外的查詢則依賴無訓練路由器的泛化路由能力。如表 2 所示,具有集成路由器的 UniversalRAG 在域內和域外基準測試中均表現出更好的性能。
?路由器大小的分析:為了評估路由器大小對路由準確率的影響,我們使用不同模型大小的訓練路由器評估 UniversalRAG。具體而言,我們訓練了四個不同參數數量的 T5 模型變體,并使用 InternVL2.5 作為生成器來測量路由器準確率。如表 4 所示,路由器準確率隨模型大小變化很大,表明較大的模型在跨模態和粒度進行準確路由決策方面更有效。
表4:不同路由器模型大小下的路由器準確率
?不同模型大小的分析:為了了解 UniversalRAG 的性能如何隨大型視覺語言模型(LVLM)大小擴展,我們使用不同大小的 InternVL2.5 模型評估我們的模型和基線模型,如圖 5 所示。在所有模型大小下,UniversalRAG 的得分持續提高并優于其他基線模型。這表明 UniversalRAG 具有可擴展性,并意味著通過使用更大的大型視覺語言模型(LVLMs)可以提高其性能。
?案例研究:我們在附錄 D 中展示了 UniversalRAG 的案例研究。
圖5:不同生成模型(InternVL2.5)大小下的生成性能
5 相關工作
5.1 大型視覺語言模型
基于大語言模型(LLMs)的強大性能,研究人員致力于使大語言模型(LLMs)能夠理解視覺信息。Liu 等人(2023)率先引入了大型視覺語言模型(LVLMs),通過采用基于 CLIP(Radford 等人,2021)的圖像編碼器,使語言模型能夠在其文本特征空間中理解輸入圖像。此后,各種圖像理解語言模型相繼推出,它們在大語言模型(LLMs)上使用不同的視覺編碼器(Bai 等人,2023;Chen 等人,2024c;Liu 等人,2024)。隨著圖像理解性能的提升,一些研究將這些方法擴展到視頻數據,視頻可視為圖像幀的序列(Li 等人,2024a;Chen 等人,2025;Bai 等人,2025)。由于更大的訓練數據集和改進的模型結構,當前的大型視覺語言模型(LVLMs)在多個基準測試評估中顯示出強大的圖像和視頻理解能力(Yue 等人,2024;Mathew 等人,2021;Li 等人,2024b;Fu 等人,2024)。然而,獨立的大型視覺語言模型(LVLMs)經常受到幻覺的困擾,這主要是由于其基礎語言模型繼承的有限知識邊界。
5.2 檢索增強生成
檢索增強生成(RAG)可以通過在生成答案時納入外部知識來解決上述挑戰;然而,傳統的檢索增強生成(RAG)方法僅依賴文本數據,而最近的研究開始探索跨多種多模態語料庫的檢索增強生成(RAG),凸顯了其在純文本設置之外的巨大潛力。具體而言,基于圖像的檢索增強生成(RAG)(Chen 等人,2022;Riedler 和 Langer,2024)是多模態檢索增強生成(RAG)的首次嘗試,它檢索并使用視覺信息來回答查詢。此外,Jeong 等人(2025)最近將檢索增強生成(RAG)擴展到視頻,捕捉視覺和時間元素以回答與過程相關的問題。盡管取得了這些進展,但大多數現有方法僅考慮單模態語料庫,鑒于現實世界的查詢可能需要任何模態的信息,這并不實際。因此,利用所有可用數據來生成最佳答案至關重要,而不是將模型限制在有限的模態中。最近的方法(Cui 等人,2024;Liu 等人,2025a)支持從多模態語料庫中檢索,但通常從所有可用模態中檢索,并且僅在檢索后甚至生成后才決定使用哪些信息,這效率低下且無法使檢索適應查詢的特定需求。
處理多樣化的查詢需要一種能夠適應特定上下文和查詢的檢索增強生成(RAG)方法,而不是使用單一固定的方法。一種有前景的方法是根據預定義的復雜度級別對查詢進行路由(Jeong 等人,2024;Tang 等人,2025;Islam 等人,2024),將它們分類為不需要檢索、單步檢索或多步檢索,以平衡性能和延遲。另一種策略利用模型置信度(Ding 等人,2024;Yao 等人,2024),僅在模型置信度較低時檢索外部信息,從而有效地將資源分配給具有挑戰性的查詢。盡管自適應檢索已成為檢索增強生成(RAG)的核心,但現有基準測試(Zhang 等人,2024;Li 等人,2024c)主要評估純文本系統,如何在多模態中進行自適應檢索仍是一個開放問題。在現實世界場景中,查詢從不同的數據類型中受益,因此在混合模態語料庫中識別最適合檢索的模態至關重要。
5.3 檢索粒度
語料庫索引的大小,即檢索粒度,是檢索中的一個關鍵設計選擇,因為它顯著影響檢索增強生成(RAG)的性能和效率。Chen 等人(2024b)發現,從以命題為索引的語料庫中檢索優于句子或段落級別的檢索性能。最近的研究(Liu 等人,2025b;Zhong 等人,2025)也表明,考慮多個粒度可以實現更好的檢索性能。同樣,研究了粒度感知的文本到視頻檢索,以從視頻語料庫中找到與查詢相關的特定片段,而不僅僅是完整視頻(Chen 等人,2023)。因此,在多模態語料庫中,僅選擇合適的模態是不夠的;系統還應確定最佳的檢索粒度級別。
6 結論
在本文中,我們提出了 UniversalRAG,這是一種新穎的檢索增強生成(RAG)框架,旨在從具有不同模態和粒度的語料庫中進行檢索。通過模態和粒度感知的路由機制,UniversalRAG 為每個查詢動態選擇最合適的知識源,有效地解決了模態差距和固定粒度檢索帶來的限制。在 8 個基準測試中的廣泛評估表明,UniversalRAG 始終優于特定模態和統一的基線模型,展示了在不同模態下的強大性能。此外,我們的分析強調了細粒度檢索的重要性以及無訓練和訓練路由器的互補優勢。這些發現展示了 UniversalRAG 作為一種自適應解決方案的潛力,用于將大型視覺語言模型(LVLMs)與異構外部知識相結合,為更可靠的多模態推理和模態感知信息集成開辟了新的方向。
本文轉載自?AIRoobt?? ,作者:Yunxin Li等
