成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

RAG系列:MinerU、Docling還是Unstructured?用OmniDocBench評測開源文檔解析工具

人工智能 開源
本文將介紹一款由上海人工智能實驗室開源的多源文檔解析評測框架 - OmniDocBench,憑借其多樣性、全面性和高質量標注數(shù)據(jù)以及配套的評測代碼,是一個不錯的衡量文檔解析工具性能的選擇。

引言

從寫 RAG 開發(fā)入門這一系列文章開始,特別是文檔解析這個環(huán)節(jié),有很多讀者詢問某個文檔解析工具的能力怎么樣,和其它工具對比如何,這表明開源社區(qū)雖然涌現(xiàn)出了很多的文檔解析工具,但是它們在實際場景的表現(xiàn)到底如何,這在很多人中是沒有太明確答案的。因而,面對眾多工具的選擇,我們期望能有一個統(tǒng)一的基準來評估其實際效果,而且對于大部分人來說是需要開箱即用的。

本文我將介紹一款由上海人工智能實驗室開源的多源文檔解析評測框架  - OmniDocBench[1],憑借其多樣性、全面性和高質量標注數(shù)據(jù)以及配套的評測代碼,是一個不錯的衡量文檔解析工具性能的選擇。

目前OmniDocBench已被CVPR2025接受! CVPR2025是計算機視覺與模式識別領域的頂級國際學術會議,被譽為計算機視覺領域的“三大頂會”之一(與ICCV、ECCV并列)。

OmniDocBench論文[2]

https://arxiv.org/html/2412.07626v1

image.png

高質量基準測試集

OpenDataLab下載地址:https://opendatalab.com/OpenDataLab/OmniDocBench

Hugging Face下載地址:https://huggingface.co/datasets/opendatalab/OmniDocBench

高質量基準測試集是OmniDocBench的核心價值,其特點主要包括:

  • 文檔類型多樣:該評測集涉及 981 個 PDF 頁面,涵蓋9 種文檔類型(如學術文獻、財報、報紙、教材、手寫筆記等)、4 種排版類型(表格密集型、圖文混合型、純文本型等)和3 種語言類型(中文、英文、混合語種);
  • 標注信息豐富:包含 15 個 block 級別(文本段落、標題、表格等,總量超過 20k)和 4 個 Span 級別(文本行、行內公式、角標等,總量超過 80k)的文檔元素的定位信息,以及每個元素區(qū)域的識別結果(文本 Text 標注,公式 LaTeX 標注,表格包含 LaTeX 和 HTML 兩種類型的標注)。OmniDocBench 還提供了各個文檔組件的閱讀順序的標注。除此之外,在頁面和 block 級別還包含多種屬性標簽,標注了 5 種頁面屬性標簽、3 種文本屬性標簽和 6 種表格屬性標簽
  • 標注質量高: 經過人工篩選、智能標注、人工標注及全量專家質檢和大模型質檢,數(shù)據(jù)質量較高。

image.png

數(shù)據(jù)展示

支持多種衡量指標

OmniDocBench目前支持的衡量指標包括:

1. Normalized Edit Distance(歸一化編輯距離):這個指標計算兩個字符串之間的最小編輯操作次數(shù)(包括插入、刪除、替換),并將這個距離進行歸一化處理,通常用于衡量兩個字符串或文本序列之間的相似度。歸一化處理是為了讓結果在 0 到 1 之間,便于比較;

2. BLEU(雙語評價替補/Bilingual Evaluation Understudy):BLEU 是機器翻譯領域中常用的自動評估指標,它通過比較候選譯文和一組參考譯文之間的  n-gram  重疊程度來計算得分,以此衡量機器翻譯的質量。BLEU 分數(shù)越高,表示機器翻譯的結果越接近人工翻譯;

3. METEOR(基于明確排序的翻譯評估/Metric for Evaluation of Translation with Explicit ORdering):METEOR 是一個更加復雜的翻譯質量評估指標,它不僅考慮了單詞精確匹配,還包括詞干匹配、同義詞匹配等,并且會根據(jù)詞序差異對得分進行調整。因此,它比 BLEU 更能反映句子間的語義相似性;

4. TEDS(基于樹編輯距離的表格相似度/Tree-based Edit Distance for Tables):TEDS 是一種專門用來評估表格結構相似度的指標。它將表格轉換為樹形結構,然后計算兩棵樹之間的編輯距離,以此來衡量表格結構上的相似度。這種指標特別適用于表格解析或者表格生成任務中的準確性評估;

5. COCODet (mAP, mAR, etc.):COCODet 指的是使用在 COCO 數(shù)據(jù)集上定義的一系列目標檢測性能評估指標,主要包括:

  • mAP(平均精度均值/Mean Average Precision):衡量模型在不同 IoU(交并比)閾值下的平均精度;
  •  mAR(平均召回率均值/Mean Average Recall):衡量模型在不同 IoU 閾值下的平均召回率。

每個指標都有其特定的應用場景和優(yōu)勢,你可根據(jù)具體的應用需求和上下文配置合適的衡量指標。

開箱即用的評測方法

OmniDocBench開發(fā)了一套基于文檔組件拆分和匹配的評測方法,對文本、表格、公式、閱讀順序這四大模塊分別提供了對應的指標計算,評測結果除了整體的精度結果以外,還提供了分頁面以及分屬性的精細化評測結果,精準定位模型文檔解析的痛點問題。

image.png

下載項目

git clone https://github.com/opendatalab/OmniDocBench.git

環(huán)境配置和運行

conda create -n omnidocbench pythnotallow=3.10
conda activate omnidocbench
pip install -r requirements.txt

下載評測集

OpenDataLab下載地址:https://opendatalab.com/OpenDataLab/OmniDocBench

Hugging Face下載地址:https://huggingface.co/datasets/opendatalab/OmniDocBench

評測集的文件夾結構如下:

OmniDocBench/
├── images/     // Image files
│   ├── xxx.jpg
│   ├── ...
├── pdfs/       // Same page as images but in PDF format
│   ├── xxx.pdf
│   ├── ...
├── OmniDocBench.json // OmniDocBench ground truth

評測配置

所有的評測的輸入都是通過config文件進行配置的,在configs路徑下提供了各個任務的模板。

比如端到端評測,你只需要在end2end.yaml文件中的ground_truth的data_path中提供 OmniDocBench.json的路徑,在prediction的data_path中提供包含推理結果的文件夾路徑,如下:

# -----以下是需要修改的部分 -----
dataset:
  dataset_name: end2end_dataset
  ground_truth:
    data_path: ./OmniDocBench.json
  prediction:
    data_path: path/to/your/model/result/dir

配置好config文件后,只需要將config文件作為參數(shù)傳入,運行以下命令即可進行評測:

python pdf_validation.py --config configs/end2end.yaml

對開源工具的評測

可以端對端評測綜合能力,也可以分項(文本、公式、表格、布局)評測。

下面各個開源工具/模型的評測結果均是基于OmniDocBench的真實評測,可直接作為選擇的依據(jù)。

端到端評測

端到端評測是對模型在PDF頁面內容解析上的精度作出的評測。以模型輸出的對整個PDF頁面解析結果的Markdown作為Prediction。

image.png

公式識別評測

OmniDocBench包含每個PDF頁面的公式的bounding box信息以及對應的公式識別標注(包括行間公式equation_isolated和行內公式equation_inline),因此可以作為公式識別評測的benchmark。

image.png

文字OCR評測

OmniDocBench包含每個PDF頁面的所有文字的bounding box信息以及對應的文字識別標注(包含block_level的標注和span_level的標注),因此可以作為OCR評測的benchmark。

image.png

表格識別評測

OmniDocBench包含每個PDF頁面的公式的bounding box信息以及對應的表格識別標注(包括HTML和LaTex兩種格式),因此可以作為表格識別評測的benchmark。

image.png

布局檢測

OmniDocBench包含每個PDF頁面的所有文檔組件的bounding box信息,因此可以作為布局檢測任務評測的benchmark。

image.png

結語

本文給大家介紹了一款由上海人工智能實驗室開源的多源文檔解析評測框架-OmniDocBench,希望大家通過該評測框架,可以選出適合自己實際業(yè)務場景的文檔解析工具。

引用鏈接

[1] OmniDocBench: https://github.com/opendatalab/OmniDocBench

[2] OmniDocBench論文: https://arxiv.org/html/2412.07626v1

責任編輯:龐桂玉 來源: 燃哥講AI
相關推薦

2024-09-13 13:48:10

MinerU開源數(shù)據(jù)提取工具

2025-07-15 09:31:31

2025-05-16 07:23:59

2025-05-06 09:38:50

2025-06-10 04:30:00

2013-06-08 09:05:06

2025-02-06 11:20:00

開發(fā)工具AI

2025-02-27 01:00:00

大模型OLMOCRrag

2021-03-08 16:08:21

AIOps工具開源

2024-02-05 14:12:37

大模型RAG架構

2009-03-31 16:41:38

網絡性能網絡監(jiān)控開源

2025-07-11 02:20:00

2025-04-09 11:59:29

2024-08-19 09:40:00

人工智能診斷

2025-05-22 06:23:48

2025-05-22 06:48:50

RAGAI應用開發(fā)框架DeepSeek

2024-12-27 09:05:18

2024-10-25 11:56:33

OCRVisRAGRAG

2025-06-23 09:21:53

2021-08-10 08:52:15

微軟GCToolkit工具
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久i | 99久久精品一区二区毛片吞精 | 久久精品欧美一区二区三区不卡 | 成人在线精品视频 | 狠狠久久| 国产在线观看一区 | 日韩国产中文字幕 | 日韩一区二区三区在线视频 | 久久综合亚洲 | 人干人操 | 亚洲精品大全 | 狠狠操狠狠干 | 91在线精品秘密一区二区 | 国产午夜精品久久久 | 欧美精品导航 | 国产免费a| 超碰97免费在线 | 精品影院 | 日韩资源| 伊人伊成久久人综合网站 | 黄色精品视频网站 | 久久久人成影片一区二区三区 | 天天操天天干天天爽 | 国产日韩一区二区三免费高清 | 日日摸日日爽 | 超碰最新在线 | 亚洲高清视频在线观看 | 祝你幸福电影在线观看 | 亚洲高清av在线 | 亚洲第一网站 | 国产精品区二区三区日本 | 91视频久久 | 91欧美激情一区二区三区成人 | www.天天操.com | 中文字幕在线观看视频一区 | 夜夜夜夜草 | 国产农村一级片 | 天天视频一区二区三区 | 一级毛片免费完整视频 | 国产女人与拘做受免费视频 | 最新中文在线视频 |