成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GPT-4o弱點暴露了,PDF長文檔閱讀理解僅45分

人工智能 新聞
為了評測多模態(tài)大模型在PDF長文檔上的閱讀理解能力,由上海AI Lab領銜提出的MMLongBench-Doc評估基準測試了14個LVLMs(視覺語言大模型)。

圖文并茂的PDF長文檔在日常生活中無處不在。過去人們通常使用OCR,layout detection等方法對PDF長文檔進行解析。但隨著多模態(tài)大模型的發(fā)展,PDF長文檔的端到端閱讀理解成為了可能。

為了評測多模態(tài)大模型在PDF長文檔上的閱讀理解能力,由上海AI Lab領銜提出的MMLongBench-Doc評估基準測試了14個LVLMs(視覺語言大模型)。

評估結果表明:表現(xiàn)最好的GPT-4o在整體F1分數(shù)上也只達到了 44.9%。

GPT-4V排名第二,得分30.5%。

除了這兩個模型,其他被評測LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。

圖片

這些結果表明,目前的LVLMs在端到端PDF長文檔閱讀任務上雖然表現(xiàn)出了一定的潛力,但仍然還有很大的提升空間。

135個PDF、1091個問題

LVLMs的出現(xiàn)有效促進了文檔理解任務的解決。針對單頁文檔,常見的閉源和開源模型都展示出了相當不錯的表現(xiàn)(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財報、宣傳資料,往往有更多的頁數(shù),許多文檔長度可以達到數(shù)十頁甚至上百頁。面對長文檔,無論是單頁信息的查詢還是跨頁信息的理解都極具挑戰(zhàn)性,因此對LVLMs的能力提出了更高的要求。

因此研究團隊提出了《MMLONGBENCH-DOC: Benchmarking Long-context Document Understanding with Visualizations》,以進一步評估LVLMs在超長文檔解析方面的能力。

圖片

MMLongBench-Doc的數(shù)據(jù)統(tǒng)計量、文檔格式和問題類型示例如圖1所示。

與之前的文檔理解數(shù)據(jù)集相比,MMLongBench-Doc在文檔側和問題側都具有顯著優(yōu)勢:

圖片

△MMLongBench-Doc的數(shù)據(jù)統(tǒng)計量

文檔側:研究團隊手動選取了135篇PDF格式的文檔,涵蓋學術論文、財務報告、教程、宣傳手冊等7個不同領域。絕大多數(shù)文檔都具有復雜的版式結構,并且包含多種模態(tài)(文字、表格、圖片等)的內容。文檔的平均長度為47.5頁,文本信息超過兩萬個單詞,篇幅和信息量遠遠超過其他數(shù)據(jù)集中的文檔。

圖片

△文檔的分布(左)。文檔的頁數(shù)與字符數(shù)統(tǒng)計(右;包含和之前數(shù)據(jù)集的比較)

問題側:由10名phd-level的標注者人工標注了1091個問題:

這些問題可以分為三類:single-page、cross-page和unanswerable。

Single-page question:44.5%的問題是針對某一頁內容設計的,重點考察大模型從長文本中查找信息的能力(類似于大海撈針);

Cross-page question: 33%的問題需要綜合兩頁甚至更多頁內容的信息來回答,重點考察大模型面對多跳問題的綜合推理能力;

Unanswerable question: 為了防止模型利用文檔中的捷徑回答問題,22.5%的問題被設計為沒有答案,即無法根據(jù)文檔中提供的信息進行回答。

這些問題均勻分布在文檔的不同位置(page index)和不同模態(tài)(分為text, layout, table, chart, image五種)的內容中。

圖片

△問題均勻分布在文章的不同位置

其他被評測LVLMs整體表現(xiàn)弱于OCR+LLMs

研究評測了14個LVLMs(4個閉源模型,10個開源模型)在MMLongBench-Doc上的表現(xiàn)。

通過給定一篇文檔和一個基于該文檔的問題,研究人員將PDF格式的文檔轉化成多張PNG格式的頁面截圖,并將這些截圖輸入給LVLMs。作為比較,還使用OCR工具將PDF文檔轉化為TXT文本,并使用這些TXT文本評測了10個LLMs的表現(xiàn)。評測的具體結果如下所示。

圖片

△LVLMs與LLMs在MMLongBench-Doc上的實驗結果

研究團隊發(fā)現(xiàn):

GPT-4o在所有LVLMs中表現(xiàn)最佳,F(xiàn)1分數(shù)達到了約45%;排名第二的GPT-4V的F1分數(shù)則為約31%。其余LVLMs的表現(xiàn)則在20%左右甚至更低。這說明,目前的LVLMs尚不足以勝任端到端的長文檔閱讀理解。

通過對比LVLMs和OCR+LLMs的表現(xiàn)。盡管OCR解析會對PDF文本帶來損耗(尤其是對圖表類信息),除了GPT-4o和GPT-4V這兩個模型外,其他被評測的LVLMs整體表現(xiàn)弱于OCR+LLMs。這進一步說明目前的LVLMs在長文檔閱讀理解上還有很大的潛力。

圖片
△LVLMs與LLMs的實驗結果對比

對于能力更強的LVLM模型,比如GPT-4o,其直接讀取PDF圖片的表現(xiàn)則優(yōu)于其讀取OCR版本的文檔,這說明了多模態(tài)大語言模型在端到端的長文檔閱讀理解任務上具有更高的上限。

此外,研究團隊還對六個不同模型進行了定性分析。

如下圖所示,這個問題來自于一個40頁長的文檔,需要綜合第9,10頁中的兩個表格和第16頁中的一個圖表進行多步推理才能夠回答。

可以看到除了GPT-4o回答正確外,GPT-4V也給出了正確的分析思路(但因為在抽取第10頁的信息時出錯導致最終的答案不正確),而其他模型的回答則明顯存在很大的問題。

圖片
△案例分析

更多定量和定性的分析討論可閱讀論文原文。

論文地址:https://arxiv.org/pdf/2407.01523
項目頁:https://mayubo2333.github.io/MMLongBench-Doc/
數(shù)據(jù)集:https://huggingface.co/datasets/yubo2333/MMLongBench-Doc
GitHub:https://github.com/mayubo2333/MMLongBench-Doc

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-05-06 12:17:44

GPT-4自然語言人類語言

2024-06-28 18:13:05

2025-01-02 11:01:45

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-05-26 08:33:00

2024-11-28 15:51:19

GPT-4o微軟

2024-05-24 14:04:04

2025-04-01 09:25:00

2025-04-08 02:26:00

2025-06-04 13:53:22

代碼模型AI

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI

2025-03-31 08:44:00

GPT-4o模型技術

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技術

2025-05-26 09:05:00

2025-01-02 13:00:00

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久青青| 欧美日韩福利视频 | 夜夜草 | 免费小视频在线观看 | 中文字幕高清 | 国产二区av | 91天堂| 国产精品国产成人国产三级 | 国产精品精品视频一区二区三区 | 色呦呦网站 | 亚洲 精品 综合 精品 自拍 | 成人午夜在线 | 玖玖玖在线观看 | 国产永久免费 | 精品日韩一区 | 青娱乐av| 成人免费激情视频 | 日韩精品免费在线观看 | 国产成人免费网站 | 国产一区二区久久 | 日韩欧美一区二区三区免费观看 | 999www视频免费观看 | 久久99精品久久久久久国产越南 | 97久久久 | 久久爆操| 国产一区二区三区在线 | 欧美精品在线播放 | 欧美精品一区在线发布 | 天天澡天天狠天天天做 | 欧美成人黄色小说 | 日韩中文在线观看 | 国产综合精品一区二区三区 | 91精品欧美久久久久久久 | 欧美不卡网站 | 九九国产在线观看 | 日本一区二区三区四区 | 四虎精品在线 | 久操av在线| 久久精品国产a三级三级三级 | 日韩中文字幕在线视频 | 成人性视频免费网站 |