Nougat:一種用于科學文檔OCR的Transformer 模型
隨著人工智能領(lǐng)域的不斷進步,其子領(lǐng)域,包括自然語言處理,自然語言生成,計算機視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學字符識別(OCR)是計算機視覺中一個成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫識別和場景文本識別。數(shù)學表達式的識別是OCR在學術(shù)研究中受到廣泛關(guān)注的一個領(lǐng)域。
PDF是最廣泛使用的格式之一,它通常保存在書籍中或發(fā)表在學術(shù)期刊上。pdf是互聯(lián)網(wǎng)上第二大使用的數(shù)據(jù)格式,占信息的2.4%,經(jīng)常用于文檔傳遞。盡管它們被廣泛使用,但從PDF文件中提取信息可能很困難,特別是在處理像科學研究文章這樣高度專業(yè)化的材料時。因為包含了很多的數(shù)學公式,而現(xiàn)階段的OCR可能會導(dǎo)致數(shù)學表達式的語義信息丟失。
Meta AI的一組研究人員推出了一種名為Nougat的解決方案,它代表“Neural Optical Understanding for Academic Documents”。為了對科學文本進行光學字符識別(OCR),Nougat是一種VIT模型。它的目標是將這些文件轉(zhuǎn)換為標記語言,以便更容易訪問和機器可讀。
為了顯示該方法的有效性,該團隊還制作了一個新的學術(shù)論文數(shù)據(jù)集。這種方法為提高數(shù)字時代科學知識的可及性提供了可行的答案。它填補了人們易于閱讀的書面材料與計算機可以處理和分析的文本之間的空白。Nougat基本上是一個基于Transformer的模型,用于將文檔頁面的圖像(特別是來自pdf的圖像)轉(zhuǎn)換為格式化的標記文本。
該團隊總結(jié)了他們的主要貢獻如下-
發(fā)布預(yù)訓練模型:創(chuàng)建可以將pdf轉(zhuǎn)換為簡單的標記語言的預(yù)訓練模型。這個預(yù)訓練的模型在GitHub上公開,任何人都可以訪問它以及相關(guān)代碼。
數(shù)據(jù)集創(chuàng)建管道:描述了一種構(gòu)建數(shù)據(jù)集的方法,將PDF文檔與其相關(guān)的源代碼配對。這種數(shù)據(jù)集開發(fā)方法對于測試和改進Nougat模型至關(guān)重要,也可能對未來的文檔分析研究和應(yīng)用有用。
僅依賴于頁面的圖像:也就是說這個模型只要pdf的截圖就可以了,這使得它成為一種靈活的工具,可以從各種來源提取內(nèi)容,即使原始文檔沒有數(shù)字文本格式,也可以使用掃描的紙張和書籍進行處理。
可以說Nougat通過利用VIT模型的功能,開創(chuàng)了OCR的新時代。它具有理解復(fù)雜科學文檔并將其轉(zhuǎn)換為結(jié)構(gòu)化標記語言的能力,為無縫的信息可訪問性鋪平了道路,彌合了人類理解和機器分析之間的差距。這一創(chuàng)新為學術(shù)研究及其他領(lǐng)域帶來了巨大的希望,體現(xiàn)了數(shù)字時代人工智能驅(qū)動的解決方案的變革力量。
以上截圖來自官網(wǎng),左圖為圖片文件,右圖為Latex語法生成的公式
論文和官方網(wǎng)頁在這里:
https://facebookresearch.github.io/nougat/
小吐槽:FB的項目管理一如既往的混亂
- Nougat 只配一個github的頁面
- segment-anything 有一個單獨的域名,更新動態(tài)的博客是ai.meta下面的
- llama只有一個ai.meta的二級目錄,但是在ai.meta首頁置頂,也算重視
- dinov2又跑去了metademolab的另外一個域名
可見前幾天的內(nèi)斗和算力競爭新聞是肯定了。