Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%

CourseAI

發布于 2025-4-14 23:56

瀏覽

0收藏

文檔問答太難了

含有豐富文本和視覺元素（如圖表、圖像等）的長文檔，在進行文檔問答時，現有的方案有其局限性：

傳統的大型語言模型（LLMs）僅能處理文本信息
大型視覺語言模型（LVLMs）雖然能夠處理視覺內容，但在處理長文檔時往往效率低下，并且難以對文本和視覺信息進行有效的融合與推理。
現有的檢索增強生成（RAG）方法雖然能夠從長文檔中提取關鍵信息，但它們通常僅依賴于單一模態（文本或圖像）進行檢索，缺乏跨模態的信息整合能力。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

MDocAgent

5個智能體

MDocAgent通過引入多個專門的智能體（agents），協同處理文本和圖像信息，以實現對文檔內容的深入理解。具體而言，MDocAgent 包含以下五個智能體：

通用智能體（General Agent）：負責初步的多模態信息整合，為后續的分析提供基礎。
關鍵信息提取智能體（Critical Agent）：識別并提取對回答問題至關重要的文本和視覺信息，為其他智能體提供指導。
文本智能體（Text Agent）：專注于文本信息的分析，從文本中提取與問題相關的細節。
圖像智能體（Image Agent）：專注于圖像信息的分析，從圖像中提取與問題相關的視覺細節。
總結智能體（Summarizing Agent）：綜合所有智能體的輸出，生成最終的答案。

MDocAgent架構

MDocAgent 通過多模態多智能體的協同工作，實現對文檔內容的全面理解。
該框架不僅關注文本和圖像信息的獨立分析，還強調跨模態信息的融合與推理。
通過將文檔預處理、多模態上下文檢索、關鍵信息提取、專門智能體處理以及答案合成等步驟有機結合，MDocAgent 能夠在復雜的文檔環境中，精準地定位和整合關鍵信息，從而生成準確的答案。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

文檔預處理：

a.文檔預處理的目的是，將文檔轉換為適合后續分析的格式。

b.對于文檔中的每一頁，使用 OCR 技術識別圖像中的文本內容，同時通過 PDF 解析技術提取數字化文本。

c.將提取的文本表示為文本段落序列，每個段落包含一頁中的部分或全部文本。

d.同時，將每一頁的原始圖像保留下來，以便后續的視覺分析。

多模態上下文檢索：

a.多模態上下文檢索階段的目標是，從文檔中檢索與問題最相關的文本和圖像信息。

b.使用 ColBERT 對文檔中的文本段落進行索引，并根據問題檢索出最相關的文本段落。

c.使用 ColPali 對文檔中的圖像頁面進行處理，生成視覺嵌入向量，并根據問題檢索出最相關的圖像頁面。

d.通過比較文本和圖像的相關性得分，選擇最相關的文本段落和圖像頁面作為后續分析的上下文。

e.這一階段通過結合文本和圖像檢索，為后續的智能體分析提供了豐富的上下文信息。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

關鍵信息提取：

a.關鍵信息提取階段目的是，從檢索到的上下文中提取對回答問題至關重要的信息。

b.通用智能體對檢索到的文本和圖像信息進行初步分析，生成初步答案。

c.關鍵信息提取智能體則進一步分析這些信息，提取出對回答問題至關重要的文本和視覺信息。

d.提取的關鍵信息將作為后續專門智能體處理的輸入，指導它們的分析過程。

e.這一階段通過提取關鍵信息，為后續的專門智能體處理提供明確的指導，提高系統的效率和準確性。

專門智能體處理：

a.專門智能體處理的目的是，對提取的關鍵信息進行深入分析。

b.文本智能體接收提取的關鍵文本信息和相關的文本上下文，通過分析文本內容，生成詳細的文本答案。

c.圖像智能體接收提取的關鍵視覺信息和相關的圖像上下文，通過分析圖像內容，生成詳細的視覺答案。

d.文本智能體和圖像智能體分別從文本和圖像的角度對問題進行分析，生成的答案將作為后續答案合成階段的輸入。

e.這一階段通過專門智能體的協同工作，實現對文本和圖像信息的深入分析，為最終答案的生成提供了豐富的依據。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

答案合成：

a.答案合成階段目的是，綜合所有智能體的輸出，生成最終的答案。

b.總結智能體接收來自通用智能體、文本智能體和圖像智能體的答案。

c.總結智能體分析這些答案，識別其中的共同點、差異和互補信息。

d.總結智能體根據這些分析結果，生成一個綜合性的答案，該答案不僅考慮了文本和圖像信息，還考慮了它們之間的關系。

e.這一階段通過綜合分析所有智能體的輸出，生成了一個全面且準確的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1

案例1

要求比較文檔中兩個不同拉丁裔群體的人口數量：外國出生的拉丁裔和通過手機采訪的拉丁裔。
文檔中包含了相關的文本描述和表格數據，但這些信息分散在不同的位置，需要同時從文本和圖像中提取并整合。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

檢索階段：

a.ColBERT 和 ColPali 成功檢索到了包含相關信息的頁面，但僅檢索到頁面是不夠的，還需要進一步分析頁面中的具體內容。

b.ColBERT：僅依賴文本信息，未能準確解析文本中的數值數據，錯誤地得出“外國出生的拉丁裔人口更多”的結論。

c.M3DocRAG：雖然結合了文本和圖像信息，但由于缺乏對關鍵信息的細致提取和跨模態整合能力，未能正確回答問題。

d.MDocAgent 通過多模態上下文檢索，同時利用文本和圖像信息，避免了單一模態方法的局限性。

初步分析與關鍵信息提取：

a.通用智能體（General Agent）生成了一個初步但較為模糊的答案，指出“通過手機采訪的拉丁裔人口更多”。

關鍵信息提取智能體（Critical Agent）識別出關鍵信息，包括文本中的“外國出生（排除波多黎各）”和圖像中的“手機抽樣框架”表格。
專門智能體處理：

a.文本智能體（Text Agent）根據關鍵信息提取智能體提供的線索，從文本中提取到“外國出生（排除波多黎各）的人數為 795”。

b.圖像智能體（Image Agent）從表格中提取到“通過手機采訪的人數為 1051”。

答案合成：

a.總結智能體（Summarizing Agent）整合所有智能體的輸出，生成最終答案：“通過手機采訪的拉丁裔人數（1051）大于外國出生的拉丁裔人數（795）”。

案例2：

要求從一個列表中識別出唯一一個沒有包含人員的相應圖像的原因。
文檔中包含了一個關于 NTU 智慧校園的列表，但列表沒有明確編號，且每個原因旁邊都有相應的圖像。

檢索階段：

a.ColBERT 未能檢索到正確的證據頁面，導致 ColBERT + Llama-3.1-8B 無法回答問題。

b.ColPali 成功檢索到了包含證據的頁面，但由于缺乏對關鍵信息的細致提取和跨模態整合能力，未能正確回答問題。

c.MDocAgent 通過多模態檢索，成功定位到包含關鍵信息的頁面。

初步分析與關鍵信息提取：

a.通用智能體（General Agent）生成了一個初步答案，但未能準確識別。

b.關鍵信息提取智能體（Critical Agent）識別出關鍵文本線索“Most Beautiful Campus”和相應的視覺元素（NTU 校園的圖像）。

專門智能體處理：

a.文本智能體（Text Agent）根據關鍵信息提取智能體提供的線索，嘗試從文本中找到相關信息，但由于文本中沒有明確的列表編號，未能直接找到答案。

b.圖像智能體（Image Agent）利用關鍵信息，正確識別出“NTU campus without people”作為答案。

答案合成：

a.總結智能體（Summarizing Agent）綜合所有智能體的輸出，最終確定答案為“Most Beautiful Campus”，并指出該原因的圖像中沒有人員

案例3：

要求從文檔中識別出 Professor Lebour 的學位。
文檔中包含相關文本描述和圖像，但信息分散在不同的位置，需要同時從文本和圖像中提取并整合。

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%-AI.x社區

檢索階段：

a.ColBERT 成功檢索到了包含相關信息的頁面，但 ColBERT + Llama-3.1-8B 在生成答案時錯誤地將 “F.G.S.” 識別為一個學位，導致答案不準確。

b.ColPali 未能檢索到正確的頁面，導致 M3DocRAG 無法回答問題。

c.MDocAgent 通過多模態檢索，成功定位到包含關鍵信息的頁面。

初步分析與關鍵信息提取：

a.通用智能體（General Agent）生成了一個初步答案，但未能準確識別所有信息，錯誤地將 “F.G.S.” 識別為一個學位。

b.關鍵信息提取智能體（Critical Agent）識別出關鍵文本線索 “M.A.”，并從圖像中提取了相關的視覺線索。

專門智能體處理：

a.文本智能體（Text Agent）根據關鍵信息提取智能體提供的線索，從文本中提取到 “G. A. Lebour, M.A., F.G.S.”，并確認 “M.A.” 是一個學位。

b.圖像智能體（Image Agent）利用關鍵信息，確認圖像中沒有提供額外的學位信息，但支持文本中的 “M.A.”。

答案合成：

a.總結智能體（Summarizing Agent）綜合所有智能體的輸出，最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

??https://arxiv.org/pdf/2503.13964??
??https://github.com/aiming-lab/MDocAgent??

本文轉載自??CourseAI??，作者：CourseAI

標簽

Agent

MDocAgent

視覺

已于2025-4-15 09:43:43修改

贊

回復

舉報

社區頭條

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

Adobe首發多Agent、跨模態框架MDocAgent：復雜文檔理解性能爆炸12%，錯誤率直降21%

文檔問答太難了

MDocAgent

5個智能體

MDocAgent架構

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1

案例1

案例2：

案例3：

目錄