成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓GPT-4o準(zhǔn)確率大降,這個文檔理解新基準(zhǔn)揭秘大模型短板

人工智能 新聞
字節(jié)跳動 OCR 團(tuán)隊聯(lián)合華中科技大學(xué)打造了?WildDoc——?首個真實世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

本文的共同第一作者為字節(jié)跳動算法工程師王安瀾和廖蕾,本文的通訊作者為字節(jié)跳動算法工程師唐景群。 

在文檔理解領(lǐng)域,多模態(tài)大模型(MLLMs)正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識別到復(fù)雜文檔理解,它們在掃描或數(shù)字文檔基準(zhǔn)測試(如 DocVQA、ChartQA)中表現(xiàn)出色,這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而,現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷:

  • 脫離真實場景:現(xiàn)實中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖,面臨光照不均、物理扭曲(褶皺 / 彎曲)、拍攝視角多變、模糊 / 陰影、對焦不準(zhǔn)等復(fù)雜干擾;
  • 無法評估魯棒性:現(xiàn)有基準(zhǔn)未模擬真實環(huán)境的復(fù)雜性和多樣性,導(dǎo)致模型在實際應(yīng)用中表現(xiàn)存疑;

圖片

這些缺陷引出了一個關(guān)鍵疑問:當(dāng)前 MLLMs 模型距離在自然環(huán)境中實現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)?

為了揭開這個謎底,字節(jié)跳動 OCR 團(tuán)隊聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個真實世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

WildDoc 選取了 3 個常用的具有代表性的文檔場景作為基準(zhǔn)(Document/Chart/Table), 包含超過 12,000 張手動拍攝的圖片,覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個影響真實世界文檔理解效果的因素,且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對比。

為了嚴(yán)格評估模型的魯棒性,WildDoc 構(gòu)建了一致性評估指標(biāo)(Consistency Score)。實驗發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降,揭示了現(xiàn)有模型在真實場景文檔理解的性能瓶頸,并為技術(shù)改進(jìn)提供可驗證的方向。本工作不僅填補(bǔ)了真實場景基準(zhǔn)的空白,更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.11015
  • 項目主頁:https://bytedance.github.io/WildDoc/
  • Github:https://github.com/bytedance/WildDoc

WildDoc 數(shù)據(jù)構(gòu)造與組成

WildDoc 數(shù)據(jù)包含超 1.2 萬張手動采集的真實文檔圖像,模擬自然環(huán)境中的復(fù)雜挑戰(zhàn),并引入一致性分?jǐn)?shù)指標(biāo),量化評估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對,其構(gòu)造過程如下:

1、數(shù)據(jù)采集:

  • 場景多樣化:在自然環(huán)境(如戶外、室內(nèi)不同光照條件)中手動拍攝文檔,確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
  • 基準(zhǔn)對齊:復(fù)用現(xiàn)有基準(zhǔn)的電子文檔,通過物理打印后拍攝,保證與傳統(tǒng)基準(zhǔn)的可比性。

2、多條件拍攝:

  • 對同一文檔進(jìn)行四次拍攝,每次改變環(huán)境參數(shù)(如光照強(qiáng)度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對比樣本。

3、標(biāo)注與驗證:

  • 對圖像中的文本、布局等關(guān)鍵信息以及對于問題的可回答性進(jìn)行人工驗證,確保準(zhǔn)確性。
  • 通過一致性分?jǐn)?shù)計算,評估模型在不同條件下的穩(wěn)定性,輔助篩選高質(zhì)量數(shù)據(jù)。

圖片

實驗結(jié)果

研究團(tuán)隊對眾多具有代表性的 MLLMs 進(jìn)行了測試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文檔理解的 MLLMs(如 Monkey、TextHarmony)和領(lǐng)先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實驗結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實場景下的諸多不足。

圖片

首先,現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)(如 DocVQA)測試大幅下降。例如,GPT-4o 平均準(zhǔn)確率下降 35.3,ChartQA 子集下降達(dá) 56.4;開源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6,為開源最佳,但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)(平均準(zhǔn)確率 73.7%),但其一致性分?jǐn)?shù)僅 55.0,這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明,當(dāng)前 MLLMs 模型在面對真實場景的變化時,缺乏足夠的穩(wěn)定性和適應(yīng)性。

實驗結(jié)果揭示了在真實世界文檔理解中 MLLMs 模型的表現(xiàn),有以下幾點發(fā)現(xiàn):

  • 物理扭曲最具挑戰(zhàn)性:皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著(如 GPT-4o 下降 34.1-34.7),遠(yuǎn)超光照(-25.9)或視角(-26.2)變化的影響。
  • 非正面視角與圖像質(zhì)量:非正面拍攝(如傾斜視角)因文本形變和模糊導(dǎo)致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟,性能下降較小(-8.3 至 - 9.1)。
  • 語言模型規(guī)模影響有限:大參數(shù)量模型(如 72B 參數(shù)的 Qwen2.5-VL)在 WildDoc 上表現(xiàn)略優(yōu),但未完全克服真實場景挑戰(zhàn),表明模型架構(gòu)需針對性優(yōu)化。

圖片

圖片

圖片

另外,一些模型在原始基準(zhǔn)測試上表現(xiàn)差異不大,甚至已經(jīng)接近飽和,但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說明傳統(tǒng)基準(zhǔn)測試已經(jīng)難以區(qū)分模型的真實能力,而 WildDoc 則能更敏銳地捕捉到模型在真實場景下的不足。

未來之路:如何讓 MLLMs 更好地理解真實世界的文檔?

面對這些挑戰(zhàn),研究團(tuán)隊提出了幾點改進(jìn)策略,為未來的研究指明了方向。

  • 一是數(shù)據(jù)增強(qiáng)。通過更多的增強(qiáng)技術(shù)來模擬真實世界的條件,如變化的光照、陰影等,讓模型在訓(xùn)練中接觸到更多樣化的場景,從而提高其適應(yīng)能力。
  • 二是魯棒特征學(xué)習(xí)。讓模型學(xué)會提取對真實世界變化不敏感的特征,這樣即使文檔圖像發(fā)生了一些變化,模型也能準(zhǔn)確理解其內(nèi)容。
  • 三是真實數(shù)據(jù)引入。收集更多的真實世界文檔圖像,豐富訓(xùn)練數(shù)據(jù)集,讓模型在更多的「實戰(zhàn)」中積累經(jīng)驗,提升性能。

WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實文檔理解中的不足,為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向,更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測試

2023-10-14 13:09:53

谷歌模型

2023-10-14 17:24:49

2024-08-02 13:14:51

2024-06-20 10:43:15

2024-06-27 12:45:30

2025-02-13 09:40:00

2024-09-06 13:00:29

2024-06-18 12:54:39

2024-12-06 14:19:50

2024-06-05 13:09:26

2025-01-02 11:01:45

2024-08-14 12:54:46

2024-04-01 08:00:00

AI模型

2024-12-18 13:24:30

谷歌AI大語言模型

2025-02-18 12:30:00

2024-08-09 12:50:02

2023-10-26 08:40:15

模型隱私推理
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产农村一级国产农村 | 人人做人人澡人人爽欧美 | 久久久噜噜噜久久中文字幕色伊伊 | 国产永久免费 | 天天干免费视频 | 亚洲精品久久 | 久草免费在线视频 | 黄色毛片一级 | 一区二视频 | 天天操,夜夜爽 | av中文在线 | 日韩精品免费看 | 欧美视频在线看 | 久久精品视频免费看 | 欧美日韩在线播放 | 日韩三级一区 | 色婷婷久久 | 国产成人免费视频网站高清观看视频 | 久久国产精品视频 | 精品久久精品 | 草在线| 一区二区三区久久久 | 国产在线精品一区二区 | 精品视频一区二区 | 日本精品一区二区三区在线观看视频 | 国产91久久精品一区二区 | 中文字幕在线播放不卡 | 国产精品成人一区二区三区夜夜夜 | 国产区在线 | 在线视频一区二区 | 成人av免费 | 97免费在线视频 | 国产精品一区二区三区久久久 | 国产日韩精品视频 | 日韩在线播放视频 | 免费在线观看av的网站 | 日韩精品久久一区二区三区 | 久久99一区二区 | 中文字幕精品一区二区三区精品 | 亚洲精品2 | 一区二区在线观看免费视频 |