成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

通用端到端OCR模型開源,拒絕多模態(tài)大模型降維打擊

人工智能
要想引入新OCR feature如支持一項新語言,不是SFT一下就能訓進模型的,得打開vision encoder做pre-training或者post-training,這都是相當耗資源的。

在AI-2.0時代,OCR模型的研究難道到頭了嗎???
(OCR:一種將圖像中的文字轉(zhuǎn)換為可編輯和可搜索文本的技術)

Vary作者團隊開源了第一個邁向OCR-2.0的通用端到端模型GOT。

用實驗結果向人們證明:No~No~No~

圖片圖片

GOT模型效果如何?

話不多說,直接上效果圖:

最常用的PDF image轉(zhuǎn)markdown能力最常用的PDF image轉(zhuǎn)markdown能力

 

圖片

△ 雙欄文本感知能力

圖片圖片

△ 自然場景以及細粒度OCR能力

動態(tài)分辨率OCR能力動態(tài)分辨率OCR能力

多頁OCR能力多頁OCR能力

更多符號的OCR能力更多符號的OCR能力


研究團隊稱,盡管GOT模型表現(xiàn)不錯,但也存在一些局限,如更多的語言支持,更復雜的幾何圖,chart上的OCR性能。

他們說OCR-2.0的研究還遠的很,GOT也還有不小提升空間(該項目在數(shù)據(jù)和算力資源上都是非常受限的)。

正是因為深知GOT以及OCR-2.0的潛力,我們希望通過開源GOT吸引更多的人,放棄VQA,再次投向強感知。都說純OCR容易背鍋,但也正好說明做的不夠work,不是嗎?

GOT: Towards OCR-2.0

通用OCR模型須要夠通用,體現(xiàn)在輸入輸出都要通用上。

GOT的通用具體表現(xiàn)為:在輸入方面,模型支持Scene Text OCR、Document OCR、Fine-grained OCR、More General OCR等任務。

圖片圖片

△ 通用OCR模型須“通用”

輸出方面,模型同時支持plain texts輸出以及可讀性強、可編輯的formatted文本輸出,如markdown等。

模型的結構和訓練方法,采用vision encoder+input embedding layer+decoder的pipeline。

Encoder主體采用帶local attention的VITDet架構,不會讓CLIP方案的全程global attention在高分辨率下激活太大,炸顯存。

Encoder后兩層采用Vary的雙卷積設計方案。整個Encoder將1024×1024×3的圖像壓縮為256×1024的image tokens,足以做好A4紙級別的dense OCR。

圖片圖片

△ GOT結構與訓練流程圖

研究團隊將整個訓練過程分為三個步驟,沒有一個階段鎖LLM,過程中沒有存在圖像到文本的對齊階段,進而導致?lián)p害image token的文字壓縮率。

三個訓練階段分別為:

第一階段:高效預訓練encoder,GOT在整個訓練過程中,沒有A100級別的卡,為了節(jié)省資源,該階段使用小型OPT-125M作為decoder為encoder提供優(yōu)化方向,快速灌入大量數(shù)據(jù)。

第二階段:聯(lián)合訓練encoder-decoder,該階段GOT的基本結構搭建完成,為上一階段預訓練好的encoder,以及Qwen團隊預訓練好的Qwen0.5B。

研究團隊稍稍加大了decoder的大小,因為該階段需要喂入大量OCR-2.0的知識,而不少數(shù)據(jù)(如化學式的OCR)其實也是帶點reasoning的,不過更小的decoder他們未敢嘗試。

第三階段:鎖住encoder,加強decoder以適配更多的OCR應用場景,如支持坐標或者顏色引導的細粒度OCR(點讀筆可能會用到),支持動態(tài)分辨率OCR技術(超大分辨率圖可能會用到),多頁OCR技術。

該feature主要是為了后續(xù)follower能更好地訓練Arxiv這種數(shù)據(jù),我們的設想是多頁PDF直接訓練,無須再對.tex斷頁而苦惱!

面對整個GOT模型設計中最困難的數(shù)據(jù)工程環(huán)節(jié)。研究團隊為了構造各種各樣的數(shù)據(jù),還學習了眾多數(shù)據(jù)渲染工具,包括Latex,Mathpix-markdown-it,Matplotlib,Tikz,Verovio, Pyecharts等等。

圖片圖片

△ GOT使用到的數(shù)據(jù)渲染工具

OCR的研究才剛剛開始

關于為什么在大模型相互梭哈的時代繼續(xù)研究OCR?

研究團隊有他們自己的理由:

OCR一直是離落地最近的研究方向之一,是AI-1.0時代的技術結晶。


到了以LLM(LVLM)為核心的AI-2.0時代,OCR成了多模大模型的一項基本能力,各家模型甚至有梭哈之勢。


多模態(tài)大模型作為通用模型,總有種降維打擊OCR模型的感覺。


那么純OCR的研究真的到頭了嗎?我們想說:當然沒有!沒準才剛剛開始。


首先盤一下AI-1.0 OCR系統(tǒng)和LVLM OCR的缺點:


首先是AI-1.0流水線式的OCR系統(tǒng),缺點不用多說,各個模塊比較獨立,局部最優(yōu),維護成本也大。


最重要的是不通用,不同OCR任務需路由不同模型,不太方便。


那么多模態(tài)大模型在pure OCR任務上有什么缺陷呢?我們認為有以下兩點:


1、為Reasoning讓路必然導致image token數(shù)量過多,進而導致在純OCR任務上存在bottle-neck。


Reasoning(VQA-like)能力來自LLM(decoder),要想獲得更好的VQA能力(至少在刷點上),就要充分利用起LLM來,那么image token就得越像text token(至少高維上,這樣就會讓LLM更舒服)。


試想一下,100個text token在LLM詞表上能編碼多少文字?那么一頁PDF的文字,又需要多少token呢?不難發(fā)現(xiàn),保VQA就會導致在做OCR任務上,尤其是dense OCR任務上,模型搞得比較丑陋。


例如,一頁PDF圖片只有A4紙大小,很多LVLM要都需要切圖做OCR,切出幾千個image token。單張都要切圖,拿出多頁PDF拼接圖,閣下又當如何應對?


我們認為對于OCR模型這么多token大可不必。


2、非常直觀的一點就是模型太大,迭代困難。


要想引入新OCR feature如支持一項新語言,不是SFT一下就能訓進模型的,得打開vision encoder做pre-training或者post-training,這都是相當耗資源的。

對于OCR需求來說太浪費了。


有人會說,小模型能同時做好這么多OCR任務嗎?


我們的答案是肯定的,而且甚至還能更好

論文地址:https://arxiv.org/pdf/2409.01704

項目地址:https://github.com/Ucas-HaoranWei/GOT-OCR2.0

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-01-08 08:21:16

2024-03-25 12:40:19

訓練模型

2025-01-16 10:11:58

2024-10-14 14:10:00

大模型AI開源

2025-07-02 09:46:30

2024-03-25 12:30:18

AI訓練開源

2024-12-12 00:25:09

2024-01-22 13:59:00

模型訓練

2023-12-25 13:24:00

模型OCR頁面

2024-05-27 07:21:43

2024-12-30 00:01:00

多模態(tài)大模型Python

2024-09-25 14:53:00

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-08-19 13:35:09

2025-04-07 03:00:00

自動駕駛
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99精品国产一区二区三区 | av一区二区三区四区 | 日本三级线观看 视频 | 久久成人精品视频 | 亚洲欧美成人影院 | 高清18麻豆| 日韩一区二区三区在线看 | 欧美8一10sex性hd | 日一区二区 | 国产欧美一区二区三区另类精品 | 成人a视频片观看免费 | 免费精品 | 亚洲国产欧美在线 | caoporn地址| 国产精品亚洲片在线播放 | 免费久草| 国产精品99精品久久免费 | 婷婷91| 羞羞的视频免费在线观看 | 久久中文视频 | 午夜看看 | 国产日韩久久 | 在线免费观看黄视频 | 亚洲精品色 | 欧美极品少妇xxxxⅹ免费视频 | 国产黄色大片在线免费观看 | 欧美激情在线一区二区三区 | 欧美日本在线观看 | 国产免费一区二区三区网站免费 | 成人日韩精品 | 亚洲网址在线观看 | 特黄色一级毛片 | 成人免费黄视频 | 91精品国产综合久久久久久蜜臀 | 久草视频观看 | 国产四虎| 一级免费看片 | 中文字幕日韩在线观看 | 91高清在线观看 | 国产精品久久久爽爽爽麻豆色哟哟 | 成人免费一区二区三区牛牛 |