讓GPT-4o準(zhǔn)確率大降，這個文檔理解新基準(zhǔn)揭秘大模型短板

2025-05-26 08:33:00

字節(jié)跳動 OCR 團(tuán)隊聯(lián)合華中科技大學(xué)打造了?WildDoc——?首個真實世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

本文的共同第一作者為字節(jié)跳動算法工程師王安瀾和廖蕾，本文的通訊作者為字節(jié)跳動算法工程師唐景群。

在文檔理解領(lǐng)域，多模態(tài)大模型（MLLMs）正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識別到復(fù)雜文檔理解，它們在掃描或數(shù)字文檔基準(zhǔn)測試（如 DocVQA、ChartQA）中表現(xiàn)出色，這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而，現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷：

脫離真實場景：現(xiàn)實中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖，面臨光照不均、物理扭曲（褶皺 / 彎曲）、拍攝視角多變、模糊 / 陰影、對焦不準(zhǔn)等復(fù)雜干擾；
無法評估魯棒性：現(xiàn)有基準(zhǔn)未模擬真實環(huán)境的復(fù)雜性和多樣性，導(dǎo)致模型在實際應(yīng)用中表現(xiàn)存疑；

這些缺陷引出了一個關(guān)鍵疑問：當(dāng)前 MLLMs 模型距離在自然環(huán)境中實現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)？

為了揭開這個謎底，字節(jié)跳動 OCR 團(tuán)隊聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個真實世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

WildDoc 選取了 3 個常用的具有代表性的文檔場景作為基準(zhǔn)（Document/Chart/Table），包含超過 12,000 張手動拍攝的圖片，覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個影響真實世界文檔理解效果的因素，且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對比。

為了嚴(yán)格評估模型的魯棒性，WildDoc 構(gòu)建了一致性評估指標(biāo)（Consistency Score）。實驗發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降，揭示了現(xiàn)有模型在真實場景文檔理解的性能瓶頸，并為技術(shù)改進(jìn)提供可驗證的方向。本工作不僅填補(bǔ)了真實場景基準(zhǔn)的空白，更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。

論文鏈接：https://arxiv.org/abs/2505.11015
項目主頁：https://bytedance.github.io/WildDoc/
Github：https://github.com/bytedance/WildDoc

WildDoc 數(shù)據(jù)構(gòu)造與組成

WildDoc 數(shù)據(jù)包含超 1.2 萬張手動采集的真實文檔圖像，模擬自然環(huán)境中的復(fù)雜挑戰(zhàn)，并引入一致性分?jǐn)?shù)指標(biāo)，量化評估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對，其構(gòu)造過程如下：

1、數(shù)據(jù)采集：

場景多樣化：在自然環(huán)境（如戶外、室內(nèi)不同光照條件）中手動拍攝文檔，確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
基準(zhǔn)對齊：復(fù)用現(xiàn)有基準(zhǔn)的電子文檔，通過物理打印后拍攝，保證與傳統(tǒng)基準(zhǔn)的可比性。

2、多條件拍攝：

對同一文檔進(jìn)行四次拍攝，每次改變環(huán)境參數(shù)（如光照強(qiáng)度、拍攝角度、紙張扭曲程度），獲取各種不同效果的對比樣本。

3、標(biāo)注與驗證：

對圖像中的文本、布局等關(guān)鍵信息以及對于問題的可回答性進(jìn)行人工驗證，確保準(zhǔn)確性。
通過一致性分?jǐn)?shù)計算，評估模型在不同條件下的穩(wěn)定性，輔助篩選高質(zhì)量數(shù)據(jù)。

實驗結(jié)果

研究團(tuán)隊對眾多具有代表性的 MLLMs 進(jìn)行了測試，包括通用 MLLMs（如 Qwen2.5-VL、InternVL2.5）、專注文檔理解的 MLLMs（如 Monkey、TextHarmony）和領(lǐng)先的閉源 MLLMs（如 GPT4o、Doubao-1.5-pro）。實驗結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實場景下的諸多不足。

首先，現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)（如 DocVQA）測試大幅下降。例如，GPT-4o 平均準(zhǔn)確率下降 35.3，ChartQA 子集下降達(dá) 56.4；開源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6，為開源最佳，但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)（平均準(zhǔn)確率 73.7%），但其一致性分?jǐn)?shù)僅 55.0，這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明，當(dāng)前 MLLMs 模型在面對真實場景的變化時，缺乏足夠的穩(wěn)定性和適應(yīng)性。

實驗結(jié)果揭示了在真實世界文檔理解中 MLLMs 模型的表現(xiàn)，有以下幾點發(fā)現(xiàn)：

物理扭曲最具挑戰(zhàn)性：皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著（如 GPT-4o 下降 34.1-34.7），遠(yuǎn)超光照（-25.9）或視角（-26.2）變化的影響。
非正面視角與圖像質(zhì)量：非正面拍攝（如傾斜視角）因文本形變和模糊導(dǎo)致性能下降（Qwen2.5-VL-72B 下降 17.6），但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟，性能下降較小（-8.3 至 - 9.1）。
語言模型規(guī)模影響有限：大參數(shù)量模型（如 72B 參數(shù)的 Qwen2.5-VL）在 WildDoc 上表現(xiàn)略優(yōu)，但未完全克服真實場景挑戰(zhàn)，表明模型架構(gòu)需針對性優(yōu)化。

另外，一些模型在原始基準(zhǔn)測試上表現(xiàn)差異不大，甚至已經(jīng)接近飽和，但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說明傳統(tǒng)基準(zhǔn)測試已經(jīng)難以區(qū)分模型的真實能力，而 WildDoc 則能更敏銳地捕捉到模型在真實場景下的不足。

未來之路：如何讓 MLLMs 更好地理解真實世界的文檔？

面對這些挑戰(zhàn)，研究團(tuán)隊提出了幾點改進(jìn)策略，為未來的研究指明了方向。

一是數(shù)據(jù)增強(qiáng)。通過更多的增強(qiáng)技術(shù)來模擬真實世界的條件，如變化的光照、陰影等，讓模型在訓(xùn)練中接觸到更多樣化的場景，從而提高其適應(yīng)能力。
二是魯棒特征學(xué)習(xí)。讓模型學(xué)會提取對真實世界變化不敏感的特征，這樣即使文檔圖像發(fā)生了一些變化，模型也能準(zhǔn)確理解其內(nèi)容。
三是真實數(shù)據(jù)引入。收集更多的真實世界文檔圖像，豐富訓(xùn)練數(shù)據(jù)集，讓模型在更多的「實戰(zhàn)」中積累經(jīng)驗，提升性能。

WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實文檔理解中的不足，為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向，更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 數(shù)據(jù)集模型

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

讓GPT-4o準(zhǔn)確率大降，這個文檔理解新基準(zhǔn)揭秘大模型短板

WildDoc 數(shù)據(jù)構(gòu)造與組成

實驗結(jié)果

未來之路：如何讓 MLLMs 更好地理解真實世界的文檔？