讓GPT-4o準(zhǔn)確率大降,這個文檔理解新基準(zhǔn)揭秘大模型短板
本文的共同第一作者為字節(jié)跳動算法工程師王安瀾和廖蕾,本文的通訊作者為字節(jié)跳動算法工程師唐景群。
在文檔理解領(lǐng)域,多模態(tài)大模型(MLLMs)正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識別到復(fù)雜文檔理解,它們在掃描或數(shù)字文檔基準(zhǔn)測試(如 DocVQA、ChartQA)中表現(xiàn)出色,這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而,現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷:
- 脫離真實場景:現(xiàn)實中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖,面臨光照不均、物理扭曲(褶皺 / 彎曲)、拍攝視角多變、模糊 / 陰影、對焦不準(zhǔn)等復(fù)雜干擾;
- 無法評估魯棒性:現(xiàn)有基準(zhǔn)未模擬真實環(huán)境的復(fù)雜性和多樣性,導(dǎo)致模型在實際應(yīng)用中表現(xiàn)存疑;
這些缺陷引出了一個關(guān)鍵疑問:當(dāng)前 MLLMs 模型距離在自然環(huán)境中實現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)?
為了揭開這個謎底,字節(jié)跳動 OCR 團(tuán)隊聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個真實世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。
WildDoc 選取了 3 個常用的具有代表性的文檔場景作為基準(zhǔn)(Document/Chart/Table), 包含超過 12,000 張手動拍攝的圖片,覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個影響真實世界文檔理解效果的因素,且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對比。
為了嚴(yán)格評估模型的魯棒性,WildDoc 構(gòu)建了一致性評估指標(biāo)(Consistency Score)。實驗發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降,揭示了現(xiàn)有模型在真實場景文檔理解的性能瓶頸,并為技術(shù)改進(jìn)提供可驗證的方向。本工作不僅填補(bǔ)了真實場景基準(zhǔn)的空白,更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。
- 論文鏈接:https://arxiv.org/abs/2505.11015
- 項目主頁:https://bytedance.github.io/WildDoc/
- Github:https://github.com/bytedance/WildDoc
WildDoc 數(shù)據(jù)構(gòu)造與組成
WildDoc 數(shù)據(jù)包含超 1.2 萬張手動采集的真實文檔圖像,模擬自然環(huán)境中的復(fù)雜挑戰(zhàn),并引入一致性分?jǐn)?shù)指標(biāo),量化評估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對,其構(gòu)造過程如下:
1、數(shù)據(jù)采集:
- 場景多樣化:在自然環(huán)境(如戶外、室內(nèi)不同光照條件)中手動拍攝文檔,確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
- 基準(zhǔn)對齊:復(fù)用現(xiàn)有基準(zhǔn)的電子文檔,通過物理打印后拍攝,保證與傳統(tǒng)基準(zhǔn)的可比性。
2、多條件拍攝:
- 對同一文檔進(jìn)行四次拍攝,每次改變環(huán)境參數(shù)(如光照強(qiáng)度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對比樣本。
3、標(biāo)注與驗證:
- 對圖像中的文本、布局等關(guān)鍵信息以及對于問題的可回答性進(jìn)行人工驗證,確保準(zhǔn)確性。
- 通過一致性分?jǐn)?shù)計算,評估模型在不同條件下的穩(wěn)定性,輔助篩選高質(zhì)量數(shù)據(jù)。
實驗結(jié)果
研究團(tuán)隊對眾多具有代表性的 MLLMs 進(jìn)行了測試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文檔理解的 MLLMs(如 Monkey、TextHarmony)和領(lǐng)先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實驗結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實場景下的諸多不足。
首先,現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)(如 DocVQA)測試大幅下降。例如,GPT-4o 平均準(zhǔn)確率下降 35.3,ChartQA 子集下降達(dá) 56.4;開源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6,為開源最佳,但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)(平均準(zhǔn)確率 73.7%),但其一致性分?jǐn)?shù)僅 55.0,這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明,當(dāng)前 MLLMs 模型在面對真實場景的變化時,缺乏足夠的穩(wěn)定性和適應(yīng)性。
實驗結(jié)果揭示了在真實世界文檔理解中 MLLMs 模型的表現(xiàn),有以下幾點發(fā)現(xiàn):
- 物理扭曲最具挑戰(zhàn)性:皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著(如 GPT-4o 下降 34.1-34.7),遠(yuǎn)超光照(-25.9)或視角(-26.2)變化的影響。
- 非正面視角與圖像質(zhì)量:非正面拍攝(如傾斜視角)因文本形變和模糊導(dǎo)致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟,性能下降較小(-8.3 至 - 9.1)。
- 語言模型規(guī)模影響有限:大參數(shù)量模型(如 72B 參數(shù)的 Qwen2.5-VL)在 WildDoc 上表現(xiàn)略優(yōu),但未完全克服真實場景挑戰(zhàn),表明模型架構(gòu)需針對性優(yōu)化。
另外,一些模型在原始基準(zhǔn)測試上表現(xiàn)差異不大,甚至已經(jīng)接近飽和,但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說明傳統(tǒng)基準(zhǔn)測試已經(jīng)難以區(qū)分模型的真實能力,而 WildDoc 則能更敏銳地捕捉到模型在真實場景下的不足。
未來之路:如何讓 MLLMs 更好地理解真實世界的文檔?
面對這些挑戰(zhàn),研究團(tuán)隊提出了幾點改進(jìn)策略,為未來的研究指明了方向。
- 一是數(shù)據(jù)增強(qiáng)。通過更多的增強(qiáng)技術(shù)來模擬真實世界的條件,如變化的光照、陰影等,讓模型在訓(xùn)練中接觸到更多樣化的場景,從而提高其適應(yīng)能力。
- 二是魯棒特征學(xué)習(xí)。讓模型學(xué)會提取對真實世界變化不敏感的特征,這樣即使文檔圖像發(fā)生了一些變化,模型也能準(zhǔn)確理解其內(nèi)容。
- 三是真實數(shù)據(jù)引入。收集更多的真實世界文檔圖像,豐富訓(xùn)練數(shù)據(jù)集,讓模型在更多的「實戰(zhàn)」中積累經(jīng)驗,提升性能。
WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實文檔理解中的不足,為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向,更推動文檔理解研究向「實用化、泛化性」邁出關(guān)鍵一步。