免費科研利器!Meta祭出Nougat,PDF格式轉換,公式表格精準識別,掃描版文檔也可以
做研究的童鞋們簡直要狂喜!
近來,Meta AI研究人員推出一款OCR神器Nougat,能夠分分鐘把PDF轉換為MultiMarkdown。
各種復雜數學公式、表格、文字、甚至是掃描版的PDF通通可以提取出來。
真有這么神?不如上圖說話。
拿出一本很有年代感的書籍,每個公示都可以清晰地識別。
圖片
圖片
即便文檔凹凸不平,也不礙事,公示格式照樣重現。
圖片
還有PDF中的表格,也能原模原樣搬過來。
圖片
不過有柱狀圖的文檔,Nougat暫時還不能呈現。
圖片
這么神的科研利器,究竟是什么來頭?
科研OCR神器,怎么來?
要知道,除了HTML之外,PDF是互聯網上第二大重要的數據格式,訪問量占比為2.4%。
然而,對于科研人員最不便的是,存儲在這些文件中的信息很難提取為任何其他格式。
對于高度專業化的文檔更是如此,例如科學研究論文中數學表達式的語義信息會丟失。
對此,Meta的研究人員基于Vision Transformer架構,為處理科學文檔量身訂制定制了一款光學字符識別(OCR)——Nougat。
與傳統OCR不同之處在于,Nougat可以處理整個頁面,并且輸出格式是MultiMarkdown,適合于學術文檔寫作。
尤其重要的是,它在處理數學公式中的上標和下標等變得非常容易。
圖片
論文地址:https://arxiv.org/pdf/2308.13418.pdf
具體來說,Nougat是一個編碼器-解碼器的Transformer架構,允許端到端的訓練,主要建立在Donut架構之上。
這一模型不需要任何OCR相關的輸入或模塊,文本由網絡隱式識別。
圖片
編碼器
視覺編碼器接收文檔圖像,裁剪邊距并調整圖像大小,以適合大小(H,W)的固定矩形。
如果圖像小于矩形,則會添加額外的填充,以確保每個圖像具有相同的維度。
這里,研究人員使用Swin Transformer Swin,可將圖像分割成固定大小的非重疊窗口,并應用一系列自注意力層來聚合這些窗口的信息。
該模型輸出一個嵌入補丁的序列,其中d是潛在維度,N是補丁的數量。
解碼器
使用具有交叉注意力的Transformer解碼器架構將編碼圖像z解碼為token序列。
token以自回歸方式生成,使用自注意力和交叉注意力分別關注輸入序列R和編碼器輸出的不同部分。最后,輸出被投影到詞匯量v的大小,產生對數。
數據增強
在圖像識別任務中,使用數據增強來提高泛化能力通常是有益的。
由于研究僅使用數字生成的學術研究論文,因此需要采用多種變換來模擬掃描文檔的缺陷和可變性。
這些變換包括腐蝕、膨脹、高斯噪聲、位圖轉換、圖像壓縮、網格畸變和彈性變換。每個都有應用于給定圖像的固定概率。這些轉換在Albumentations庫中實現。
圖片
為了訓練模型,團隊使用了來自arxiv、PubMed Central等平臺的科學論文PDF數據集,以及來自作者的相應LaTeX源代碼。
這一數據集總共超過800萬頁組成。
收集到數據后,研究人員進行了數據處理,首先將原文檔轉換為HTML,然后再轉換為Markdown格式。
圖片
具體來說,研究人員根據PDF文件中的分頁符拆分Markdown文件,并將每個頁面柵格化為圖像以創建最終的配對數據集。
編譯過程中,LaTeX 編譯器會自動確定PDF文件的分頁符。
實驗結果
測試中,Nougat從科學論文中提取文本、公式和表格的準確率很高。
圖片
對于連續文本,它在BLEU分數超過91%,準確率超過96%。
公式和表格的性能較低,略高于75%,但仍然比GROBID等替代品可靠得多,后者的數學公式準確率略低于11%。
圖片
不過,在管理跨文檔一致性和避免生成過程中重復文本循環方面,仍面臨一些挑戰。
圖片
根據實驗結果,logits重復檢測示例如下:
圖片
Meta團隊表示,Nougat是將PDF研究論文轉換為結構化的機器可讀文本,從而改善科學知識獲取的一種有前途的解決方案。
通過彌合PDF與文本之間的鴻溝,這將使數百萬篇科學論文更易于獲取。
參考資料:
https://the-decoder.com/nougat-metas-latest-ai-model-makes-scientific-pdfs-machine-readable/