OCR終結(jié)了?曠視提出支持文檔級(jí)OCR的多模態(tài)大模型,支持中英文,已開(kāi)源!
想將一份文檔圖片轉(zhuǎn)換成Markdown格式?
以往這一任務(wù)需要文本識(shí)別、布局檢測(cè)和排序、公式表格處理、文本清洗等多個(gè)步驟——
這一次,只需一句話命令,多模態(tài)大模型Vary直接端到端輸出結(jié)果:
圖片
無(wú)論是中英文的大段文字:
圖片
還是包含了公式的文檔圖片:
圖片
又或是手機(jī)頁(yè)面截圖:
圖片
甚至可以將圖片中的表格轉(zhuǎn)換成latex格式:
圖片
當(dāng)然,作為多模大模型,通用能力的保持也是必須的:
圖片
Vary表現(xiàn)出了很大的潛力和極高的上限,OCR可以不再需要冗長(zhǎng)的pipline,直接端到端輸出,且可以按用戶的prompt輸出不同的格式如latex 、word 、markdown。
通過(guò)大模型極強(qiáng)的語(yǔ)言先驗(yàn),這種架構(gòu)還可以避免OCR中的易錯(cuò)字,比如“杠桿”和“杜桿”等, 對(duì)于模糊文檔,也有望在語(yǔ)言先驗(yàn)的幫助下實(shí)現(xiàn)更強(qiáng)的OCR效果。
項(xiàng)目一出,引發(fā)了不少網(wǎng)友的關(guān)注,有網(wǎng)友看后直呼“kill the game!”
圖片
那么這樣的效果,是如何做到的呢?
受大模型啟發(fā)打造
目前的多模態(tài)大模型幾乎都是用CLIP作為Vision Encoder或者說(shuō)視覺(jué)詞表。確實(shí),在400M圖像文本對(duì)訓(xùn)練的CLIP有很強(qiáng)的視覺(jué)文本對(duì)齊能力,可以覆蓋多數(shù)日常任務(wù)下的圖像編碼。
但是對(duì)于密集和細(xì)粒度感知任務(wù),比如文檔級(jí)別的OCR、Chart理解,特別是在非英文場(chǎng)景,CLIP表現(xiàn)出了明顯的編碼低效和out-of-vocabulary問(wèn)題。
純NLP大模型(如LLaMA)從英文過(guò)渡到中文(對(duì)大模型來(lái)說(shuō)是“外語(yǔ)”)時(shí),因?yàn)樵荚~表編碼中文效率低,必須要擴(kuò)大text詞表才能實(shí)現(xiàn)較好的效果。
正是這一特點(diǎn)給研究團(tuán)隊(duì)帶來(lái)了啟發(fā)。
現(xiàn)在基于CLIP視覺(jué)詞表的多模態(tài)大模型,面臨著同樣的問(wèn)題,遇到“foreign language image”,如一頁(yè)論文密密麻麻的文字,很難高效地將圖片token化。
而Vary就是這一問(wèn)題的一種解決方案,它可以在不重建原有詞表前提下,高效擴(kuò)充視覺(jué)詞表。
圖片
不同于現(xiàn)有方法直接用現(xiàn)成的CLIP詞表,Vary分兩個(gè)階段:
第一階段先用一個(gè)很小的decoder-only網(wǎng)絡(luò)用自回歸方式幫助產(chǎn)生一個(gè)強(qiáng)大的新視覺(jué)詞表;
然后在第二階段融合新詞表和CLIP詞表,從而高效地訓(xùn)練LVLM擁有新feature。
Vary的訓(xùn)練方法和模型結(jié)構(gòu)如下圖:
圖片
通過(guò)在公開(kāi)數(shù)據(jù)集以及渲染生成的文檔圖表等數(shù)據(jù)上訓(xùn)練,Vary極大增強(qiáng)了細(xì)粒度的視覺(jué)感知能力。
在保持vanilla多模態(tài)能力的同時(shí),激發(fā)出了端到端的中英文圖片、公式截圖和圖表理解能力。
另外,研究團(tuán)隊(duì)注意到原本可能需要幾千tokens 的頁(yè)面內(nèi)容,通過(guò)文檔圖片輸入,信息被Vary壓縮在了256個(gè)圖像tokens中,這也為進(jìn)一步的頁(yè)面分析和總結(jié)提供了更多的想象空間。
目前,Vary的代碼和模型均已開(kāi)源,還給出了供大家試玩的網(wǎng)頁(yè)demo。
感興趣的小伙伴可以去試試了~