成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%

發布于 2025-4-14 23:56
瀏覽
0收藏

文檔問答太難了 

含有豐富文本和視覺元素(如圖表、圖像等)的長文檔,在進行文檔問答時,現有的方案有其局限性:

  • 傳統的大型語言模型(LLMs)僅能處理文本信息
  • 大型視覺語言模型(LVLMs)雖然能夠處理視覺內容,但在處理長文檔時往往效率低下,并且難以對文本和視覺信息進行有效的融合與推理。
  • 現有的檢索增強生成(RAG)方法雖然能夠從長文檔中提取關鍵信息,但它們通常僅依賴于單一模態(文本或圖像)進行檢索,缺乏跨模態的信息整合能力。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

MDocAgent 

5個智能體

MDocAgent通過引入多個專門的智能體(agents),協同處理文本和圖像信息,以實現對文檔內容的深入理解。 具體而言,MDocAgent 包含以下五個智能體:

  • 通用智能體(General Agent):負責初步的多模態信息整合,為后續的分析提供基礎。
  • 關鍵信息提取智能體(Critical Agent):識別并提取對回答問題至關重要的文本和視覺信息,為其他智能體提供指導。
  • 文本智能體(Text Agent):專注于文本信息的分析,從文本中提取與問題相關的細節。
  • 圖像智能體(Image Agent):專注于圖像信息的分析,從圖像中提取與問題相關的視覺細節。
  • 總結智能體(Summarizing Agent):綜合所有智能體的輸出,生成最終的答案。

MDocAgent架構

  • MDocAgent 通過多模態多智能體的協同工作,實現對文檔內容的全面理解。
  • 該框架不僅關注文本和圖像信息的獨立分析,還強調跨模態信息的融合與推理。
  • 通過將文檔預處理、多模態上下文檢索、關鍵信息提取、專門智能體處理以及答案合成等步驟有機結合,MDocAgent 能夠在復雜的文檔環境中,精準地定位和整合關鍵信息,從而生成準確的答案。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

  • 文檔預處理:

a.文檔預處理的目的是,將文檔轉換為適合后續分析的格式。

b.對于文檔中的每一頁,使用 OCR 技術識別圖像中的文本內容,同時通過 PDF 解析技術提取數字化文本。

c.將提取的文本表示為文本段落序列,每個段落包含一頁中的部分或全部文本。

d.同時,將每一頁的原始圖像保留下來,以便后續的視覺分析。

  • 多模態上下文檢索:

a.多模態上下文檢索階段的目標是,從文檔中檢索與問題最相關的文本和圖像信息。

b.使用 ColBERT 對文檔中的文本段落進行索引,并根據問題檢索出最相關的文本段落。

c.使用 ColPali 對文檔中的圖像頁面進行處理,生成視覺嵌入向量,并根據問題檢索出最相關的圖像頁面。

d.通過比較文本和圖像的相關性得分,選擇最相關的文本段落和圖像頁面作為后續分析的上下文。

e.這一階段通過結合文本和圖像檢索,為后續的智能體分析提供了豐富的上下文信息。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

  • 關鍵信息提取:

a.關鍵信息提取階段目的是,從檢索到的上下文中提取對回答問題至關重要的信息。

b.通用智能體對檢索到的文本和圖像信息進行初步分析,生成初步答案。

c.關鍵信息提取智能體則進一步分析這些信息,提取出對回答問題至關重要的文本和視覺信息。

d.提取的關鍵信息將作為后續專門智能體處理的輸入,指導它們的分析過程。

e.這一階段通過提取關鍵信息,為后續的專門智能體處理提供明確的指導,提高系統的效率和準確性。

  • 專門智能體處理:

a.專門智能體處理的目的是,對提取的關鍵信息進行深入分析。

b.文本智能體接收提取的關鍵文本信息和相關的文本上下文,通過分析文本內容,生成詳細的文本答案。

c.圖像智能體接收提取的關鍵視覺信息和相關的圖像上下文,通過分析圖像內容,生成詳細的視覺答案。

d.文本智能體和圖像智能體分別從文本和圖像的角度對問題進行分析,生成的答案將作為后續答案合成階段的輸入。

e.這一階段通過專門智能體的協同工作,實現對文本和圖像信息的深入分析,為最終答案的生成提供了豐富的依據。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

  • 答案合成:

a.答案合成階段目的是,綜合所有智能體的輸出,生成最終的答案。

b.總結智能體接收來自通用智能體、文本智能體和圖像智能體的答案。

c.總結智能體分析這些答案,識別其中的共同點、差異和互補信息。

d.總結智能體根據這些分析結果,生成一個綜合性的答案,該答案不僅考慮了文本和圖像信息,還考慮了它們之間的關系。

e.這一階段通過綜合分析所有智能體的輸出,生成了一個全面且準確的答案。

MDocAgent方案VS M3DocRAG & ColBERT+Llama3.1 

案例1

  • 要求比較文檔中兩個不同拉丁裔群體的人口數量:外國出生的拉丁裔和通過手機采訪的拉丁裔。
  • 文檔中包含了相關的文本描述和表格數據,但這些信息分散在不同的位置,需要同時從文本和圖像中提取并整合。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

  • 檢索階段:

a.ColBERT 和 ColPali 成功檢索到了包含相關信息的頁面,但僅檢索到頁面是不夠的,還需要進一步分析頁面中的具體內容。

b.ColBERT:僅依賴文本信息,未能準確解析文本中的數值數據,錯誤地得出“外國出生的拉丁裔人口更多”的結論。

c.M3DocRAG:雖然結合了文本和圖像信息,但由于缺乏對關鍵信息的細致提取和跨模態整合能力,未能正確回答問題。

d.MDocAgent 通過多模態上下文檢索,同時利用文本和圖像信息,避免了單一模態方法的局限性。

  • 初步分析與關鍵信息提取:

a.通用智能體(General Agent)生成了一個初步但較為模糊的答案,指出“通過手機采訪的拉丁裔人口更多”。

  • 關鍵信息提取智能體(Critical Agent)識別出關鍵信息,包括文本中的“外國出生(排除波多黎各)”和圖像中的“手機抽樣框架”表格。
  • 專門智能體處理:

a.文本智能體(Text Agent)根據關鍵信息提取智能體提供的線索,從文本中提取到“外國出生(排除波多黎各)的人數為 795”。

b.圖像智能體(Image Agent)從表格中提取到“通過手機采訪的人數為 1051”。

  • 答案合成:

a.總結智能體(Summarizing Agent)整合所有智能體的輸出,生成最終答案:“通過手機采訪的拉丁裔人數(1051)大于外國出生的拉丁裔人數(795)”。

案例2:

  • 要求從一個列表中識別出唯一一個沒有包含人員的相應圖像的原因。
  • 文檔中包含了一個關于 NTU 智慧校園的列表,但列表沒有明確編號,且每個原因旁邊都有相應的圖像。
  • 檢索階段:

a.ColBERT 未能檢索到正確的證據頁面,導致 ColBERT + Llama-3.1-8B 無法回答問題。

b.ColPali 成功檢索到了包含證據的頁面,但由于缺乏對關鍵信息的細致提取和跨模態整合能力,未能正確回答問題。

c.MDocAgent 通過多模態檢索,成功定位到包含關鍵信息的頁面。

  • 初步分析與關鍵信息提取:

a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別。

b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索“Most Beautiful Campus”和相應的視覺元素(NTU 校園的圖像)。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據關鍵信息提取智能體提供的線索,嘗試從文本中找到相關信息,但由于文本中沒有明確的列表編號,未能直接找到答案。

b.圖像智能體(Image Agent)利用關鍵信息,正確識別出“NTU campus without people”作為答案。

  • 答案合成:

a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為“Most Beautiful Campus”,并指出該原因的圖像中沒有人員

案例3:

  • 要求從文檔中識別出 Professor Lebour 的學位。
  • 文檔中包含相關文本描述和圖像,但信息分散在不同的位置,需要同時從文本和圖像中提取并整合。

Adobe首發多Agent、跨模態框架MDocAgent:復雜文檔理解性能爆炸12%,錯誤率直降21%-AI.x社區

  • 檢索階段:

a.ColBERT 成功檢索到了包含相關信息的頁面,但 ColBERT + Llama-3.1-8B 在生成答案時錯誤地將 “F.G.S.” 識別為一個學位,導致答案不準確。

b.ColPali 未能檢索到正確的頁面,導致 M3DocRAG 無法回答問題。

c.MDocAgent 通過多模態檢索,成功定位到包含關鍵信息的頁面。

  • 初步分析與關鍵信息提取:

a.通用智能體(General Agent)生成了一個初步答案,但未能準確識別所有信息,錯誤地將 “F.G.S.” 識別為一個學位。

b.關鍵信息提取智能體(Critical Agent)識別出關鍵文本線索 “M.A.”,并從圖像中提取了相關的視覺線索。

  • 專門智能體處理:

a.文本智能體(Text Agent)根據關鍵信息提取智能體提供的線索,從文本中提取到 “G. A. Lebour, M.A., F.G.S.”,并確認 “M.A.” 是一個學位。

b.圖像智能體(Image Agent)利用關鍵信息,確認圖像中沒有提供額外的學位信息,但支持文本中的 “M.A.”。

  • 答案合成:

a.總結智能體(Summarizing Agent)綜合所有智能體的輸出,最終確定答案為 “Prof. Lebour holds a Master of Arts (M.A.) degree.”。

??https://arxiv.org/pdf/2503.13964??

??https://github.com/aiming-lab/MDocAgent??

本文轉載自??CourseAI??,作者:CourseAI

已于2025-4-15 09:43:43修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 欧美在线国产精品 | 日韩在线播放一区 | 精品国产一区久久 | 亚洲精品电影 | 99这里只有精品 | 久久久久亚洲精品国产 | 日韩二区 | 成人国内精品久久久久一区 | 久久久久久免费毛片精品 | 黄色三级在线播放 | 欧美一级黄色网 | 日韩成人免费视频 | 精品国产一区二区三区日日嗨 | 国产精品3区 | 精一区二区 | 一区二区三区四区不卡 | 男女羞羞视频在线 | 午夜在线小视频 | 亚洲一区二区三区在线 | 亚洲另类视频 | 国产精品久久久久久久久久三级 | 欧美在线视频不卡 | 成人欧美在线 | 日韩免费福利视频 | 五月天婷婷狠狠 | 亚洲天堂一区 | 天天干天天插 | 涩涩视频网站在线观看 | 精品美女视频在线观看免费软件 | 精品一区二区三区免费毛片 | 国产一区二区三区久久久久久久久 | www..99re | 久久国产一区二区 | 狼色网| 欧美一区二区三区视频 | 国产精品区一区二区三区 | 在线日韩 | 精品一区久久 | 欧美成ee人免费视频 | 精品香蕉一区二区三区 | 99热这里有精品 |