成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Allenai開源多模態的文檔智能解析大模型(Olmocr)方法、效果淺析

人工智能
如果是下游rag文檔的元素不是特別復雜可以用一用這個端到端的多模態模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結合prompt結合的方式值得一看。

先說結論,實際體驗一般,如果是下游rag文檔的元素不是特別復雜可以用一用這個端到端的多模態模型,如果版式元素豐富,還是老實進行文檔解析吧。但通過pdfparser工具結合prompt結合的方式值得一看。

  • 在線demo:https://olmocr.allenai.org/
  • 開源權重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview
  • paper:Efficient PDF Text Extraction with Vision Language Models,https://arxiv.org/pdf/2502.18443v1
  • code:https://github.com/allenai/olmocr

筆者測試case:

原圖原圖

OLMOCR解析后,紅色框表格缺失部分OLMOCR解析后,紅色框表格缺失部分

核心問題與背景

PDF文檔蘊含海量高質量文本數據,但因其復雜的視覺布局(多欄、表格、公式等)和元數據缺失,傳統OCR工具難以準確提取內容。現有解決方案存在以下痛點:

  • pipline系統(如Grobid)依賴多組件串聯,對復雜布局泛化性差;

pipline系統pipline系統

  • 端到端模型(如Nougat)僅依賴圖像輸入,忽略PDF原生元數據,成本高昂(如GPT-4o處理百萬頁需$6,200);
  • 數據稀缺:缺乏大規模、多樣化的PDF訓練數據。

OLMOCR創新點

  1. DOCUMENT-ANCHORING技術

圖片圖片

PromptPrompt

如:原圖:圖片通過pdfpaser得到元數據拼接提示詞得到:

圖片圖片

  • 兼容性:對無元數據的掃描文檔仍保持高精度,僅依賴圖像輸入。
  • 元數據提取:通過pypdf庫解析PDF結構,提取關鍵元素的位置信息,動態注入模型提示(Prompt)。
  • 多模態輸入融合(通過提示詞):同時利用PDF原生元數據(文本塊坐標、圖像位置)和頁面圖像,顯著減少模型幻覺。
  1. 蒸餾模型
  • 模型架構:基于Qwen2-VL-7B-Instruct微調,支持Markdown結構化輸出(公式LaTeX、表格Markdown)。
  • 訓練數據:構建olmOCR-mix-0225數據集(26萬頁PDF),涵蓋學術論文、法律文件、手冊等多樣化來源(表1-2)。圖片

實驗結果

與教師模型GPT-4o的文本對齊度達87.5%,優于GPT-4o mini(83.3%)。溫度(τ=0.8)下對齊度略降(85.9%),但減少生成重復。

圖片圖片

在2,017份PDF的對比測試中,OLMOCR以ELO 1800+顯著優于Marker、MinerU等工具(圖6)。使用OLMOCR數據微調OLMo-2模型,在MMLU、ARC等基準上平均提升1.3%。

圖片圖片


責任編輯:武曉燕 來源: 大模型自然語言處理
相關推薦

2024-12-12 00:25:09

2025-01-08 08:21:16

2023-08-14 07:20:10

2024-03-25 12:40:19

訓練模型

2023-05-28 23:26:16

多模態機器學習大腦

2024-01-22 13:59:00

模型訓練

2024-07-12 11:35:20

2024-10-28 08:55:19

2024-04-02 09:17:50

AI數據開源

2024-12-30 00:01:00

多模態大模型Python

2025-03-19 09:30:00

2024-09-10 12:11:18

2025-03-13 08:13:47

DeepSeekMLLMVision-R1

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-05-17 16:02:00

2024-09-25 14:53:00

2025-04-25 02:30:00

機械臂大模型多模態

2023-12-25 13:24:00

模型OCR頁面
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伊人网站在线观看 | 国产精品久久久久久久久免费 | 欧美久久一区二区三区 | 国产激情精品视频 | 亚洲精品播放 | 亚洲男人天堂 | 国户精品久久久久久久久久久不卡 | 欧美一二三区 | 中文字幕 亚洲一区 | 国产区视频在线观看 | 69福利影院| 精品成人一区二区 | 影视先锋av资源噜噜 | 一区免费看 | 日韩精品一区二区三区老鸭窝 | 在线观看中文字幕 | 国产精品一二三区 | 亚洲综合精品 | 国产精品久久久久久久久污网站 | 亚洲成人免费电影 | 亚洲国产精品99久久久久久久久 | 99福利视频 | 亚洲精品欧美一区二区三区 | 一级毛片视频在线 | 国产天天操 | 日韩精品一区二区三区在线观看 | 色欧美日韩| 国产精产国品一二三产区视频 | 欧美色图综合网 | 国产精品九九视频 | 伊人免费观看视频 | 一区二区三区国产 | 亚洲国产欧美在线人成 | 91麻豆久久久 | 97色在线视频| 国产乱精品一区二区三区 | 成人影音 | 九九久久精品 | 黄色在线免费观看 | 有码一区 | 婷婷成人在线 |