成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Nougat:一種用于科學文檔OCR的Transformer 模型

人工智能 自然語言處理
隨著人工智能領(lǐng)域的不斷進步,其子領(lǐng)域,包括自然語言處理,自然語言生成,計算機視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學字符識別(OCR)是計算機視覺中一個成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫識別和場景文本識別。數(shù)學表達式的識別是OCR在學術(shù)研究中受到廣泛關(guān)注的一個領(lǐng)域。

隨著人工智能領(lǐng)域的不斷進步,其子領(lǐng)域,包括自然語言處理,自然語言生成,計算機視覺等,由于其廣泛的用例而迅速獲得了大量的普及。光學字符識別(OCR)是計算機視覺中一個成熟且被廣泛研究的領(lǐng)域。它有許多用途,如文檔數(shù)字化、手寫識別和場景文本識別。數(shù)學表達式的識別是OCR在學術(shù)研究中受到廣泛關(guān)注的一個領(lǐng)域。

PDF是最廣泛使用的格式之一,它通常保存在書籍中或發(fā)表在學術(shù)期刊上。pdf是互聯(lián)網(wǎng)上第二大使用的數(shù)據(jù)格式,占信息的2.4%,經(jīng)常用于文檔傳遞。盡管它們被廣泛使用,但從PDF文件中提取信息可能很困難,特別是在處理像科學研究文章這樣高度專業(yè)化的材料時。因為包含了很多的數(shù)學公式,而現(xiàn)階段的OCR可能會導(dǎo)致數(shù)學表達式的語義信息丟失。

Meta AI的一組研究人員推出了一種名為Nougat的解決方案,它代表“Neural Optical Understanding for Academic Documents”。為了對科學文本進行光學字符識別(OCR),Nougat是一種VIT模型。它的目標是將這些文件轉(zhuǎn)換為標記語言,以便更容易訪問和機器可讀。

為了顯示該方法的有效性,該團隊還制作了一個新的學術(shù)論文數(shù)據(jù)集。這種方法為提高數(shù)字時代科學知識的可及性提供了可行的答案。它填補了人們易于閱讀的書面材料與計算機可以處理和分析的文本之間的空白。Nougat基本上是一個基于Transformer的模型,用于將文檔頁面的圖像(特別是來自pdf的圖像)轉(zhuǎn)換為格式化的標記文本。

該團隊總結(jié)了他們的主要貢獻如下-

發(fā)布預(yù)訓練模型:創(chuàng)建可以將pdf轉(zhuǎn)換為簡單的標記語言的預(yù)訓練模型。這個預(yù)訓練的模型在GitHub上公開,任何人都可以訪問它以及相關(guān)代碼。

數(shù)據(jù)集創(chuàng)建管道:描述了一種構(gòu)建數(shù)據(jù)集的方法,將PDF文檔與其相關(guān)的源代碼配對。這種數(shù)據(jù)集開發(fā)方法對于測試和改進Nougat模型至關(guān)重要,也可能對未來的文檔分析研究和應(yīng)用有用。

僅依賴于頁面的圖像:也就是說這個模型只要pdf的截圖就可以了,這使得它成為一種靈活的工具,可以從各種來源提取內(nèi)容,即使原始文檔沒有數(shù)字文本格式,也可以使用掃描的紙張和書籍進行處理。

圖片

可以說Nougat通過利用VIT模型的功能,開創(chuàng)了OCR的新時代。它具有理解復(fù)雜科學文檔并將其轉(zhuǎn)換為結(jié)構(gòu)化標記語言的能力,為無縫的信息可訪問性鋪平了道路,彌合了人類理解和機器分析之間的差距。這一創(chuàng)新為學術(shù)研究及其他領(lǐng)域帶來了巨大的希望,體現(xiàn)了數(shù)字時代人工智能驅(qū)動的解決方案的變革力量。

圖片

以上截圖來自官網(wǎng),左圖為圖片文件,右圖為Latex語法生成的公式

論文和官方網(wǎng)頁在這里:

https://facebookresearch.github.io/nougat/

小吐槽:FB的項目管理一如既往的混亂

  • Nougat 只配一個github的頁面
  • segment-anything 有一個單獨的域名,更新動態(tài)的博客是ai.meta下面的
  • llama只有一個ai.meta的二級目錄,但是在ai.meta首頁置頂,也算重視
  • dinov2又跑去了metademolab的另外一個域名

可見前幾天的內(nèi)斗和算力競爭新聞是肯定了。


責任編輯:華軒 來源: DeepHub IMBA
相關(guān)推薦

2023-09-04 13:15:00

MetaVision架構(gòu)

2023-08-30 13:09:12

AI模型

2024-03-26 09:23:22

自動駕駛軌跡

2016-09-20 12:49:29

2020-12-09 10:15:34

Pythonweb代碼

2023-12-20 11:12:39

共享內(nèi)存.NET數(shù)據(jù)共享

2023-09-27 14:32:44

2015-12-18 16:15:55

架構(gòu)新型計算模型

2021-07-29 09:00:00

Python工具機器學習

2020-12-23 10:10:23

Pythonweb代碼

2022-07-07 10:33:27

Python姿勢代碼

2022-06-22 09:44:41

Python文件代碼

2021-04-08 10:19:39

人工智能機器學習知識圖譜

2024-08-30 11:27:55

父文檔檢索RAG技術(shù)人工智能

2025-06-03 08:40:00

2024-01-18 15:38:17

語言模型大型語言模型

2024-03-08 09:29:42

車道檢測AI

2020-04-08 08:00:00

開發(fā)者金字塔模型

2017-01-22 16:35:02

iOSBlockCallback

2012-01-17 11:02:39

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 成人国产精品久久久 | 久久国产精品久久久久 | 电影91久久久 | 美国黄色毛片 | 欧美一页| 波多野结衣二区 | 成人妇女免费播放久久久 | caoporn国产精品免费公开 | 嫩草视频入口 | 最新日韩精品 | 国产高清免费 | h视频在线免费 | 丁香一区二区 | 日本一二三区在线观看 | 久久国产精品一区二区三区 | 成人一区二区三区在线观看 | 日本一区二区三区在线观看 | 国产免费va | 国产欧美日韩综合精品一区二区 | 久久青 | 久久久www成人免费无遮挡大片 | 欧美一区视频 | 亚洲视频在线看 | 成人免费在线视频 | 精品欧美乱码久久久久久 | 免费高潮视频95在线观看网站 | 女人牲交视频一级毛片 | 欧美一区二区三区 | 欧美亚洲国产成人 | 最近中文字幕在线视频1 | 成人av看片 | 一级片子 | av中文字幕在线观看 | 人成在线视频 | 国产精品亚洲一区二区三区在线 | 国产精品精品久久久 | 久久免费高清视频 | 日本h片在线观看 | 一区二区三区四区在线视频 | 精品久久99 | 成人在线观看黄 |