成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

最新總結(jié),不同抽取任務(wù)哪個模型最能打

人工智能
在數(shù)字化時代,文檔無處不在,從發(fā)票、合同到研究報告,它們承載著海量的信息。然而,這些信息大多以非結(jié)構(gòu)化的形式存在,難以直接被計算機理解和處理。

圖片圖片

在人工智能的浪潮中,多模態(tài)大模型(VLM)正以前所未有的速度改變著我們的世界。從自然語言處理(NLP)到計算機視覺(CV),從大型語言模型(LLM)到檢索增強生成(RAG)和智能體(Agent),AI的邊界不斷被拓展。而今天,我們將聚焦于一個關(guān)鍵領(lǐng)域——文檔結(jié)構(gòu)化抽取,看看12種頂尖的VLM多模態(tài)大模型,誰才是真正的強者!

一、什么是文檔結(jié)構(gòu)化抽取?

在數(shù)字化時代,文檔無處不在,從發(fā)票、合同到研究報告,它們承載著海量的信息。然而,這些信息大多以非結(jié)構(gòu)化的形式存在,難以直接被計算機理解和處理。文檔結(jié)構(gòu)化抽取的目標就是從這些非結(jié)構(gòu)化的文檔中提取出結(jié)構(gòu)化的數(shù)據(jù),讓機器能夠像人類一樣理解和分析文檔內(nèi)容。

二、docext的六大能力

為了全面評估這些多模態(tài)大模型的性能,docext提供了以下六大能力的測試:

1. 關(guān)鍵信息提取(KIE)

從發(fā)票、合同等文檔中提取名稱、日期、金額等關(guān)鍵字段,這是文檔處理的基礎(chǔ)。

2. 視覺問答(VQA)

通過問答的形式評估模型對文檔內(nèi)容的理解能力,這不僅考驗?zāi)P偷奈淖掷斫饽芰Γ€考驗其視覺理解能力。

3. 光學字符識別(OCR)

衡量模型識別印刷文本和手寫文本的準確性,這對于處理各種字體、布局和文檔條件至關(guān)重要。

4. 文檔分類

評估模型對各種文檔類型的分類準確性,這對于文檔管理和檢索非常關(guān)鍵。

5. 長文檔處理

測試模型在長篇、有豐富上下文的文檔上的推理能力,這對于處理復(fù)雜的文檔結(jié)構(gòu)至關(guān)重要。

6. 表格提取

基準測試從復(fù)雜表格格式中提取結(jié)構(gòu)化數(shù)據(jù),這對于數(shù)據(jù)分析和處理非常關(guān)鍵。

三、模型大比拼

方法論

方法論

根據(jù)任務(wù)提出不同的問題,模型的答案可以是文本或 JSON 格式。對于 OCR、VQA 和分類等任務(wù),我們期望模型給出純文本答案。對于 KIE、LongDocBench 和表格提取等任務(wù),我們期望模型根據(jù)提示中的說明返回格式正確的 JSON 格式。

所有數(shù)據(jù)集均附有真實答案(正確答案)。我們根據(jù)任務(wù)使用不同的準確率指標:

  • 對于KIE、OCR、VQA和LongDocBench,我們使用編輯距離準確度。
  • 對于分類,我們使用精確匹配準確度。
  • 對于表格提取,我們使用GriTS 度量。

在這場激烈的競爭中,12種頂尖的VLM多模態(tài)大模型展開了全方位的較量。讓我們來看看它們的表現(xiàn):

1. 綜合表現(xiàn)最強:gemini-2.5-flash-preview-04-17

在關(guān)鍵信息提取方面,gemini-2.5-flash-preview-04-17表現(xiàn)卓越,能夠準確識別和提取發(fā)票的名稱、日期、金額等結(jié)構(gòu)化數(shù)據(jù)。這使得它在處理復(fù)雜的文檔結(jié)構(gòu)時游刃有余。

圖片圖片

2. 信息抽取能手:gemini-2.5-flash-preview-04-17

在文檔問答方面,gemini-2.5-flash-preview-04-17展現(xiàn)了強大的能力。無論是基于文本的問題,還是需要了解文檔視覺布局和結(jié)構(gòu)的問題,它都能給出準確的答案。

圖片圖片

3. OCR能力之星:gemini-2.0-flash

在OCR能力方面,gemini-2.0-flash表現(xiàn)突出。它能夠識別包括手寫文本、數(shù)字印刷文本和帶變音符號的文本,處理各種字體、布局和文檔條件,同時保持高精度的文本識別。

圖片圖片

4. 文檔分類高手:qwen2.5-vl-72b-instruct

在文檔分類方面,qwen2.5-vl-72b-instruct表現(xiàn)卓越,能夠以99%以上的準確率對文檔進行分類。這使得它在文檔管理和檢索方面具有巨大的優(yōu)勢。

圖片圖片

5. 長文檔處理專家:claude-3.7-sonnet (reasoning:low)

在長文檔處理方面,帶有推理能力的claude-3.7-sonnet (reasoning:low)表現(xiàn)卓越。它能夠跨多個頁面維護上下文,了解文檔結(jié)構(gòu),并從大型文檔中準確檢索信息。

圖片圖片

6. 表格提取挑戰(zhàn)者:claude-3.7-sonnet (reasoning:low)

在表格提取方面,qwen2.5-vl-72b-instruct差點跌出榜單嘍,但在其他方面卻有著出色的表現(xiàn)。這表明在表格處理方面,仍有很大的提升空間。

圖片圖片

四、未來展望

這場多模態(tài)大模型的較量,不僅展示了當前技術(shù)的頂尖水平,也為未來的發(fā)展指明了方向。隨著技術(shù)的不斷進步,我們有理由相信,未來的多模態(tài)大模型將在文檔結(jié)構(gòu)化抽取領(lǐng)域達到更高的水平,為我們的工作和生活帶來更多的便利。

責任編輯:武曉燕 來源: 哎呀AIYA
相關(guān)推薦

2023-08-16 16:28:09

數(shù)據(jù)中心CDN

2024-08-12 08:50:00

智能體AI

2023-07-03 13:23:47

OpenChatOpenLLMChatGPT

2024-07-09 00:00:00

JavaScript圖表庫Web

2024-05-21 09:41:15

3DLLM

2024-07-18 09:48:07

2009-12-11 09:57:08

PHP控制語句

2025-06-13 01:33:00

2023-11-29 07:25:58

2009-07-14 11:30:15

Swing線程

2010-03-02 10:01:37

Android SDK

2022-09-28 15:34:06

機器學習語音識別Pytorch

2025-03-25 09:24:05

2022-02-28 17:43:27

AI模型訓練

2023-10-13 15:34:55

時間序列TimesNet

2021-10-25 09:06:29

模型人工智能計算

2011-07-26 17:19:32

SQL Server數(shù)隨機抽取數(shù)據(jù)

2010-02-25 09:44:53

WCF behavio

2010-05-04 13:59:09

負載均衡技術(shù)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 日韩av在线一区 | 成人免费一级 | 国产美女一区 | 欧美日韩高清在线观看 | 黄色片在线看 | 99色在线视频| 毛片一区二区三区 | 农夫在线精品视频免费观看 | jlzzjlzz国产精品久久 | 国产精品视频网 | 久久免费精彩视频 | 精品一级 | 免费看爱爱视频 | 在线视频国产一区 | 在线国产一区 | 国产一区在线免费观看 | 国产激情在线观看 | 日韩成人精品在线观看 | 狠狠色狠狠色综合日日92 | 亚洲精品视频在线 | 亚洲国产成人精品女人久久久 | 精品成人在线观看 | 久久中文字幕av | 中文字幕乱码视频32 | 国产精品jizz在线观看老狼 | 亚洲aⅴ | 久草在线视频中文 | 91国内精品久久 | 久久精品亚洲精品国产欧美 | 国产一区不卡 | 精品1区2区 | 色橹橹欧美在线观看视频高清 | 国产在线不卡视频 | 成人在线精品视频 | 欧美国产精品一区二区三区 | 欧美日韩在线一区二区三区 | 欧美性精品 | 欧美国产激情二区三区 | 久草综合在线 | 亚洲国产欧美国产综合一区 | 成人av网页 |