大模型理解復雜表格,字節&中科大出手了
只要一個大模型,就能解決打工人遇到的表格難題!
字節聯手中科大推出了一款統一表格理解大模型,可以以用戶友好的方式解決多種表格理解任務。
同時提出的還有一套開源測試基準,可以更好地評估模型在表格理解任務上的表現。
該模型名為TabPedia,利用多模態大模型,將不同處理表格任務的專有模型進行了整合。
在這之前,不同的任務都有獨立的模型和解決方案,單是找到適合的模型就是已經很讓人頭疼。
而TabPedia通過概念協同 (Concept Synergy)機制來實現多個任務、多種源信息的整合協作,打工人再也不用為找模型而煩惱了。
那么,這款新模型都能實現怎樣的效果呢?
無需裁剪識別多表格結構
首先來看,在測試數據集上,TabPedia可以在不借助后處理算法的條件下,精準識別表格位置并直接生成無重疊的檢測框。
在判斷出表格位置的基礎之上,對于表格結構識別任務,TabPedia可以繼續生成一系列連續的表格結構元素以及相應的檢測框。
不僅判斷準確,還有效地解決了標記語言(HTML或者Markdown)處理空間坐標的不足和非法語法潛在造成解析錯誤的弊端。
而且不再需要將表格從圖片中手動裁剪,研究者們借助大模型的理解能力,讓模型可以直接在原始文檔圖像中實現多表格實例的表格結構識別。
值得一提的是,此類任務是由TabPedia團隊的作者首次提出的。
當然,只識別表格的位置和結構是遠遠不夠的,而對于表格問答任務,TabPedia不僅可以給出正確的答案,同時還能基于表格的內容給出相應的理由。
實戰方面,面對多種不同的開放場景,TabPedia同樣表現優異。
比如在論文中的表格檢測任務當中,TabPedia可以準確地檢測出圖像中的所有表格實例。
對于表格結構識別能力,研究者們隨機選取了不同論文中的表格圖像,對于包含密集文本信息的表格結構,依然預測出準確的結構信息。
而在問答任務上,TabPedia仍然可以像在數據集測試中一樣,根據表格內容和表格結構信息,做出合理且正確的回答。
此外,為了更好地評估各種模型在現實世界表格圖像上的TQA性能,作者還構建了一個復雜的TQA數據集(ComTQA)。
與現有的基準WTQ和TabFact相比,ComTQA具有更具挑戰性的問題,例如多個答案、數學計算和邏輯推理。
通過專家標注,作者們從大約1.5k張圖像中注釋了約9k個高質量的表格問答對。該數據集的標注目前已經在Huggingface開源。
那么,TabPedia具體是如何實現的呢?
高低分辨率分別訓練
如下圖所示,TabPedia包含兩個視覺編碼器以及各自的映射層,一個分詞器以及大語言模型。
在預訓練階段,TabPedia主要學習如何對齊視覺表征和語言模型的輸入空間;在微調階段,TabPedia進一步專注于視覺表格理解。
其中,高分辨率視覺編碼器用于2560x1920的高分辨文檔圖像,可以提供豐富的細粒度視覺信息;
低分辨率視覺編碼器為了保持整圖的結構信息,編碼224x224的低分辨圖像。
為了更好地讓語言模型理解視覺信息,該工作沿襲了主流多模態大模型的對齊策略,設計了兩個簡單的映射層。
對于高分辨率支路的映射層,TabPedia采用2D的卷積層來聚合近鄰的視覺特征,同時有效地緩解視覺token數量冗余的現狀。
給定大量的視覺tokens以及文本指令的嵌入特征,TabPedia采用Vicuna-7B作為語言模型生成回答。
考慮到表格感知和理解任務之間的差異,TabPedia引入了Meditative Tokens M 來實現概念協同機制,它可以自適應地激活不同區域的視覺tokens,并理解特定任務問題的意圖。
整體的輸入序列為 X = [Q; ; V_l ; ; V_h, ; M],其中 ,都是可學習的特殊token,分別代表視覺tokens的開始、結束,以及區分不同分辨率的視覺tokens。(勘誤:此處顯示有問題,具體請見評論)
由于TabPedia和其它LLMs一樣執行next token預測,因此僅需要簡單的交叉熵損失函數作為目標函數來優化整個框架。
通過預訓練,TabPedia能夠很好地理解各種文檔圖像的文本和結構,但無法根據指示執行不同的表格理解任務。
為了增強模型的指令跟隨能力,該工作首先構建了一個用于視覺表格理解的大規模數據集。
基于該數據集,研究者引入了四個與表格相關的任務,即表格檢測,表格結構識別,表格查詢以及表格問答,來同步執行感知和理解任務。
在該階段,LLM也參與訓練微調,進一步增強大模型的指令跟隨和視覺信息抓取的能力。
開源數據集與合成數據共同訓練
數據方面,TabPedia的全部數據來源于五個公開的表格數據集,包括PubTab1M、FinTabNet、 PubTabNet、WikiTableQuestions(WTQ)和TabFact,具體的數據使用情況如下圖所示:
同時,對于不同任務的指令設計,作者也給出了對應的示例以便模型更好地理解。
其中最值得注意的是,表格檢測和表格結構識別的任務擺脫了之前繁瑣的后處理的弊端,TabPedia直接可以預測無重疊的檢測框,高效率地輸出用戶需要的答案。
除此之外,研究者們進一步借助大模型的理解能力,克服之前工作需要將表格從原文檔中裁剪出來做結構識別的流程,直接在原文檔圖像中實現多表格實例的表格結構識別。
該任務為利用大語言模型實現更復雜的表格理解奠定了強有力的基礎。
對于表格問答任務,現有的數據絕大多數是基于文本的表格中生成的,僅在背景顏色和字體大小存在變化,導致在現實世界的表格中泛化能力較差。此外,TQA數據的量級遠遠落后于其他任務。
為了克服這些障礙,研究者們利用開源多模態大模型,基于FinTabNet和PubTab1M中部分圖像數據生成了大量的TQA數據。
另外作者表示,盡管TabPedia已經在視覺表格理解展現出強大的能力,仍然有很多未解決的挑戰激發研究者更深入的探索:
- 對于扭曲表格無法準確的理解和識別。該能力不足一方面源于訓練數據的不足,另一方面是對于表格結構的表示采用了規則的矩形框。
- 目前的表格問答仍需要table-centic圖像,如何將其遷移到在原始文檔圖像直接問答也是一項挑戰性的工作。
- 增加表格單元格內容識別可以提升模型對于表格內容的理解以及細粒度信息的抓取能力。
總體來說,視覺表格理解任務依然有很多技術難點等待攻克。TabPedia初步探究了多模態大模型的表格理解能力,作者希望能對大家的研究有所幫助。
論文地址:https://arxiv.org/abs/2406.01326ComTQA數據集:
https://huggingface.co/datasets/ByteDance/ComTQA