成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser 原創

發布于 2025-6-16 08:29
瀏覽
0收藏

前期《文檔智能》專欄詳細中介紹了文檔智能解析詳細pipline鏈路技術方案,如下圖:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

現在來看一個新思路,指出pipline鏈路依賴大量標注數據、并且會出現錯誤傳播問題,導致解析效果不佳,故提出一個基于布局強化學習(layoutRL)的多模態大模型的端到端的解析框架,通過強化學習(GRPO)的方式訓練模型的布局感知能力。(ps:筆者看來,在通用場景下解析效果也許并不會有文中評價的那么好,但這個數據合成思路及強化學習的訓練方式可以參考。)

方法

如下圖所示,方法分兩步走:數據合成和GRPO強化學習訓練多模態文檔解析模型。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

1、數據集構建

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

為了構建Infinity-Doc-55K,設計了一個雙管道框架,結合了合成和真實世界文檔生成。數據細節如上圖:數據集涵蓋了七個不同的文檔領域(ps:說實話,這個場景數量還不夠多)。

1.1、真實世界數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

這一個還是聯合了pipline解析流程中的專家小模型,收集了來自金融報告、醫療記錄、學術論文、書籍、雜志和網頁等多樣化的掃描文檔。為了生成標注數據,其中專業模型處理不同的結構元素,如布局塊、文本、公式和表格。

  • 布局分析:使用視覺布局模型分析整體布局。
  • 公式識別:使用專門的公式識別模型處理公式區域。
  • 表格解析:使用基于Transformer的表格提取器解析表格。

然后通過交叉驗證機制,比較專家模型和VLM的輸出,過濾掉不一致的結果,只保留跨模型預測一致的區域的注釋作為高置信度的偽GT。

1.2、合成數據

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

合成數據構建管道通過將采樣內容注入預定義的單列、雙列或三列HTML布局中,使用Jinja模板從維基百科、網絡爬蟲和在線語料庫中收集文本和圖像。這些頁面使用瀏覽器引擎渲染成掃描文檔,隨后自動過濾掉低質量或重疊的圖像。通過解析原始HTML生成對齊的Markdown表示作為真實注釋。

2、采用布局感知的強化學習

布局感知的強化學習框架(layoutRL),通過優化多方面的獎勵函數來訓練模型,使其能夠更好地理解和解析文檔的布局結構。使用GRPO方法,通過從基于規則的獎勵信號中學習訓練架構如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

layoutRL訓練架構

那么這一部分的核心就是獎勵函數的設計了。主要分三部分:

2.1、編輯距離獎勵

編輯距離獎勵基于預測輸出與參考輸出之間的歸一化Levenshtein距離。該獎勵通過計算將預測輸出轉換為參考輸出所需的最小插入、刪除或替換操作的數量來衡量預測的準確性。

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.2、段落計數獎勵

目的是鼓勵模型準確地分割段落。該獎勵通過比較預測段落數量與參考段落數量的差異來計算:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

2.3、順序獎勵

通過計算預測段落與參考段落之間的順序反轉次數來衡量閱讀順序的保真度。公式如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

最終獎勵計算

最終的獎勵是上述三個部分的加權和,通過匈牙利算法確定預測與參考段落之間的最佳匹配,然后計算每個匹配對的編輯相似性、段落數量和順序保真度。公式如下:

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

該設計平衡了內容保真度與結構正確性和順序保真度,為端到端的文檔解析提供監督。

實驗評估

  • OmniDocBench評估:在OmniDocBench基準上,Infinity-Parser-7B在所有子任務中表現均衡

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

  • 表格識別評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

  • 文檔級OCR評估

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

GRPO訓練布局感知的強化學習多模態文檔解析框架-Infinity-Parser-AI.x社區

示例

參考文獻:Infinity-Parser: Layout-Aware Reinforcement Learning for Scanned Document Parsing,https://arxiv.org/pdf/2506.03197repo:https://github.com/infly-ai/INF-MLLM/tree/main/Infinity-Parser


本文轉載自??大模型自然語言處理??   作者:余俊暉


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-6-16 09:35:16修改
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 五月天国产视频 | 欧美一区二区在线看 | 噜噜噜噜狠狠狠7777视频 | 手机av在线| 一区二区三区国产 | 99国内精品久久久久久久 | 性一交一乱一透一a级 | 一区二区三区国产精品 | 国产成人影院 | 亚洲 自拍 另类 欧美 丝袜 | 极品销魂美女一区二区 | 色婷婷精品| a黄在线观看 | 中文字幕二区 | 欧美一区二区三区免费在线观看 | 久久久久久久久国产成人免费 | 91一区二区 | 夜夜爽夜夜操 | www.玖玖玖 | 久久精品欧美一区二区三区不卡 | 日日夜夜视频 | 韩日一区 | 色播久久 | 亚洲精品在线免费 | 国产精品99久久久久久久久久久久 | 日本久久久一区二区三区 | 男女污污动态图 | 超碰97免费 | 福利影院在线看 | 日韩中文字幕在线不卡 | 欧美大片一区二区 | 欧美成人精品一区二区男人看 | 国产农村妇女精品一区 | 亚洲一区二区在线视频 | 97碰碰碰 | 成年人在线视频 | 免费一区二区在线观看 | 青青草在线视频免费观看 | 国产一区二区三区四区五区3d | 91精品国产91久久综合桃花 | 国产成人精品一区二区三 |