成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析 原創(chuàng)

發(fā)布于 2025-3-4 10:40
瀏覽
0收藏

先說結(jié)論,實(shí)際體驗(yàn)一般,如果是下游rag文檔的元素不是特別復(fù)雜可以用一用這個(gè)端到端的多模態(tài)模型,如果版式元素豐富,還是老實(shí)進(jìn)行文檔解析吧。但通過pdfparser工具結(jié)合prompt結(jié)合的方式值得一看。

  • 在線demo:https://olmocr.allenai.org/
  • 開源權(quán)重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview
  • paper:Efficient PDF Text Extraction with Vision Language Models,https://arxiv.org/pdf/2502.18443v1
  • code:https://github.com/allenai/olmocr

筆者測(cè)試case:

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

原圖

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

OLMOCR解析后,紅色框表格缺失部分

核心問題與背景

PDF文檔蘊(yùn)含海量高質(zhì)量文本數(shù)據(jù),但因其復(fù)雜的視覺布局(多欄、表格、公式等)和元數(shù)據(jù)缺失,傳統(tǒng)OCR工具難以準(zhǔn)確提取內(nèi)容?,F(xiàn)有解決方案存在以下痛點(diǎn):


allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

pipline系統(tǒng)

  • 端到端模型(如Nougat)僅依賴圖像輸入,忽略PDF原生元數(shù)據(jù),成本高昂(如GPT-4o處理百萬頁需$6,200);
  • 數(shù)據(jù)稀缺:缺乏大規(guī)模、多樣化的PDF訓(xùn)練數(shù)據(jù)。

OLMOCR創(chuàng)新點(diǎn)

  1. DOCUMENT-ANCHORING技術(shù)


allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

Prompt如:原圖:

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

通過pdfpaser得到元數(shù)據(jù)拼接提示詞得到:

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)


  • 兼容性:對(duì)無元數(shù)據(jù)的掃描文檔仍保持高精度,僅依賴圖像輸入。
  • 元數(shù)據(jù)提取:通過pypdf庫解析PDF結(jié)構(gòu),提取關(guān)鍵元素的位置信息,動(dòng)態(tài)注入模型提示(Prompt)。
  • 多模態(tài)輸入融合(通過提示詞):同時(shí)利用PDF原生元數(shù)據(jù)(文本塊坐標(biāo)、圖像位置)和頁面圖像,顯著減少模型幻覺。

 2.蒸餾模型

  • 模型架構(gòu):基于Qwen2-VL-7B-Instruct微調(diào),支持Markdown結(jié)構(gòu)化輸出(公式LaTeX、表格Markdown)。
  • 訓(xùn)練數(shù)據(jù):構(gòu)建olmOCR-mix-0225數(shù)據(jù)集(26萬頁P(yáng)DF),涵蓋學(xué)術(shù)論文、法律文件、手冊(cè)等多樣化來源(表1-2)。

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

實(shí)驗(yàn)結(jié)果

與教師模型GPT-4o的文本對(duì)齊度達(dá)87.5%,優(yōu)于GPT-4o mini(83.3%)。溫度(τ=0.8)下對(duì)齊度略降(85.9%),但減少生成重復(fù)。

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)

在2,017份PDF的對(duì)比測(cè)試中,OLMOCR以ELO 1800+顯著優(yōu)于Marker、MinerU等工具(圖6)。使用OLMOCR數(shù)據(jù)微調(diào)OLMo-2模型,在MMLU、ARC等基準(zhǔn)上平均提升1.3%。

allenai開源多模態(tài)的文檔智能解析大模型(OLMOCR)方法、效果淺析-AI.x社區(qū)


公眾號(hào)大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/9JfKg1HTVKO6s2wQi-qW7Q??


?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-3-4 10:41:20修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
主站蜘蛛池模板: 国产美女视频 | 亚洲精品高清视频 | 日本午夜精品 | 午夜视频在线免费观看 | 久久青| 久久极品| 精品国产乱码久久久久久1区2区 | 久久免费精品 | 亚洲精品一区二三区不卡 | 日韩在线视频一区 | 免费亚洲成人 | 久久国产成人精品国产成人亚洲 | 国产一级成人 | 亚洲成人一二区 | 亚洲精品99 | 久久久免费在线观看 | 精品久久一区 | 91精品一区二区三区久久久久久 | 欧美精品一区在线 | 日韩欧美国产一区二区三区 | 亚洲天堂免费 | 国产精品久久久久久久久久免费看 | 色综网 | 欧洲视频一区二区 | 91视频在线看 | 午夜视频免费在线观看 | 久久久久久国产精品三区 | 国产一区在线免费 | 黄网站涩免费蜜桃网站 | 欧美一区精品 | 久草视频在 | 成人在线一区二区三区 | 黄色片免费看视频 | 成人黄色a | 北条麻妃99精品青青久久 | 婷婷丁香在线视频 | www.887色视频免费 | 国产av毛片| 国产免费拔擦拔擦8x高清 | 精品国产一区二区三区性色av | 中文字幕一区二区三区四区五区 |