成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

OCR終結(jié)了?曠視提出支持文檔級(jí)OCR的多模態(tài)大模型,支持中英文,已開(kāi)源!

人工智能
研究團(tuán)隊(duì)注意到原本可能需要幾千tokens 的頁(yè)面內(nèi)容,通過(guò)文檔圖片輸入,信息被Vary壓縮在了256個(gè)圖像tokens中,這也為進(jìn)一步的頁(yè)面分析和總結(jié)提供了更多的想象空間。

想將一份文檔圖片轉(zhuǎn)換成Markdown格式?

以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——

這一次,只需一句話命令,多模態(tài)大模型Vary直接端到端輸出結(jié)果:

圖片圖片

無(wú)論是中英文的大段文字:

圖片圖片

還是包含了公式的文檔圖片:

圖片圖片

又或是手機(jī)頁(yè)面截圖:

圖片圖片

甚至可以將圖片中的表格轉(zhuǎn)換成latex格式:

圖片圖片

當(dāng)然,作為多模大模型,通用能力的保持也是必須的:

圖片圖片

Vary表現(xiàn)出了很大的潛力和極高的上限,OCR可以不再需要冗長(zhǎng)的pipline,直接端到端輸出,且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。

通過(guò)大模型極強(qiáng)的語(yǔ)言先驗(yàn),這種架構(gòu)還可以避免OCR中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語(yǔ)言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的OCR效果。

項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼“kill the game!”

圖片圖片

那么這樣的效果,是如何做到的呢?

受大模型啟發(fā)打造

目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說(shuō)視覺(jué)詞表。確實(shí),在400M圖像文本對(duì)訓(xùn)練的CLIP有很強(qiáng)的視覺(jué)文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。

但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的OCR、Chart理解,特別是在非英文場(chǎng)景,CLIP表現(xiàn)出了明顯的編碼低效和out-of-vocabulary問(wèn)題。

純NLP大模型(如LLaMA)從英文過(guò)渡到中文(對(duì)大模型來(lái)說(shuō)是“外語(yǔ)”)時(shí),因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大text詞表才能實(shí)現(xiàn)較好的效果。

正是這一特點(diǎn)給研究團(tuán)隊(duì)帶來(lái)了啟發(fā)。

現(xiàn)在基于CLIP視覺(jué)詞表的多模態(tài)大模型,面臨著同樣的問(wèn)題,遇到“foreign language image”,如一頁(yè)論文密密麻麻的文字,很難高效地將圖片token化。

而Vary就是這一問(wèn)題的一種解決方案,它可以在不重建原有詞表前提下,高效擴(kuò)充視覺(jué)詞表。

圖片圖片

不同于現(xiàn)有方法直接用現(xiàn)成的CLIP詞表,Vary分兩個(gè)階段:

第一階段先用一個(gè)很小的decoder-only網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺(jué)詞表;

然后在第二階段融合新詞表和CLIP詞表,從而高效地訓(xùn)練LVLM擁有新feature。

Vary的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:

圖片圖片

通過(guò)在公開(kāi)數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary極大增強(qiáng)了細(xì)粒度的視覺(jué)感知能力。

在保持vanilla多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。

另外,研究團(tuán)隊(duì)注意到原本可能需要幾千tokens 的頁(yè)面內(nèi)容,通過(guò)文檔圖片輸入,信息被Vary壓縮在了256個(gè)圖像tokens中,這也為進(jìn)一步的頁(yè)面分析和總結(jié)提供了更多的想象空間。

目前,Vary的代碼和模型均已開(kāi)源,還給出了供大家試玩的網(wǎng)頁(yè)demo。

感興趣的小伙伴可以去試試了~

責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2024-03-20 13:18:46

模型多模態(tài)體系

2024-09-10 12:11:18

2020-07-20 09:49:56

開(kāi)源技術(shù) 趨勢(shì)

2020-07-16 13:00:18

人工智能機(jī)器學(xué)習(xí)技術(shù)

2024-12-12 00:25:09

2020-06-08 11:16:06

百度

2025-01-06 10:00:00

模型視覺(jué)生成

2025-03-10 18:50:57

2024-04-02 09:17:50

AI數(shù)據(jù)開(kāi)源

2025-01-08 08:21:16

2025-06-03 08:22:00

模型評(píng)估視頻

2025-02-27 01:00:00

大模型OLMOCRrag

2021-10-15 15:26:10

AI 數(shù)據(jù)人工智能

2025-03-11 10:00:00

圖片模型數(shù)據(jù)

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2023-09-02 12:49:01

2023-05-17 15:22:45

識(shí)別開(kāi)源工具

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-05-15 17:30:51

開(kāi)源模型

2023-08-09 10:08:00

模型AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲精品永久免费 | 日韩av啪啪网站大全免费观看 | 成人免费视频网站在线看 | 日韩中文在线视频 | 久久综合久色欧美综合狠狠 | 欧美一页 | 国产精品久久久久一区二区三区 | 日韩小视频 | 欧美日韩高清一区二区三区 | 成人免费xxxxx在线视频 | 这里只有精品99re | 国产高清视频 | 黄网站在线观看 | 理论片87福利理论电影 | 四虎伊人 | www.久久久久久久久久久 | 久久久精品网站 | 成人片免费看 | 精品国产乱码久久久久久牛牛 | 国产精品一区在线观看 | 91大神在线资源观看无广告 | 国产高清视频在线播放 | 一区二区三区日韩精品 | 成人在线观看免费爱爱 | 日本天堂一区二区 | 国产精品久久久久影院色老大 | 欧美激情啪啪 | 黄色在线免费观看 | 少妇久久久 | 蜜桃在线一区二区三区 | 在线播放中文字幕 | 国产专区在线 | 欧美一级毛片免费观看 | 久久精品一级 | 中文字幕在线视频免费观看 | 成人1区2区 | 国产精品久久久久久久免费观看 | 成人午夜在线 | 国产日韩在线观看一区 | 免费一级欧美在线观看视频 | japan25hdxxxx日本|