AI破譯2000年前「上古卷軸」登Nature頭版！21歲計算機天才，谷歌華人工程師共獲大獎

作者：新智元 2024-02-06 14:10:00

人工智能新聞

2000年前碳化的古卷軸，成功被AI破譯了近5%的內(nèi)容。三人天才團隊拿下70萬美元大獎，谷歌華人工程師一人拿下并列亞軍。

2000年前碳化的古卷軸，如今成功被AI破譯！背后三人團隊還拿下70萬美元大獎！

AI在考古領(lǐng)域的重大進步，甚至登上了今天Nature的頭版。

要說這件事的起源，還得追溯到公元79年一次火山爆發(fā)，直接將一座珍藏古老的紙莎草卷軸——Herculaneum Papyri的圖書館埋葬。

而這些卷軸，直到18世紀(jì)才被挖出，卻早已成為炭焦的木塊。由于太過脆弱，根本無法輕易展開。

今天，正式獲獎的作品，展示了超過15欄的數(shù)百個單詞，相當(dāng)于整個卷軸的5%的內(nèi)容。

值得一提的是，三人拔得頭籌的團隊中，有一位年僅21歲計算機天才少年Luke Farritor，成功用AI從圖像裂縫中破譯內(nèi)容。

當(dāng)時，他還在SpaceX暑期實習(xí)，偶然發(fā)現(xiàn)這場挑戰(zhàn)賽的英雄貼。

另外，這場AI破譯卷軸的大賽還有3個團隊獲得亞軍，包括一位谷歌華人工程師單獨獲5萬美元大獎。

從破譯文字轉(zhuǎn)錄后可以讀出，古代哲學(xué)家對「如何享受生活」「快樂」的探討與爭辯，還揭示了人們對音樂和冒險的沉思。

這一壯舉為AI完整破譯其余古卷鋪平了道路，研究人員表示，這可能會對我們對古代世界的理解產(chǎn)生革命性的影響。

谷歌DeepMind的首席執(zhí)行官：我迫不及待地想閱讀這些被認為已經(jīng)失傳的古籍！

2000年后，我們終于可以閱讀卷軸了！

下圖3D還原了，巖漿吞噬圖書館的情境。

這些卷軸在公元79年維蘇威火山的爆發(fā)中被碳化

直到18世紀(jì)，這些卷軸被挖掘出來。

目前，有800多卷被保存在意大利那不勒斯的一個圖書館中。

一位藝術(shù)家對珍藏卷軸圖書館的渲染

然而，這些碳化的卷軸無法在不損害的情況下展開。

一份卷軸不同的拍攝視角，看得出已經(jīng)完全碳化，像一個木頭塊。

當(dāng)任何人嘗試展開卷軸，結(jié)果就是支離破碎。

那么，問題來了，我們該如何閱讀這些卷軸？

2023年3月15日，Nat Friedman、Daniel Gross和Brent Seales發(fā)起了Vesuvius Challenge，就是為了解決這一世紀(jì)難題。

十個月前，我們發(fā)起了Vesuvius Challenge，旨在解決赫庫蘭尼姆莎草紙書卷這一古老問題。這是一批在公元79年維蘇威火山爆發(fā)時被高溫烤焦的莎草紙卷軸圖書館。
今天，我們欣喜若狂地宣布，我們瘋狂的項目成功了。2000年后，我們終于可以閱讀卷軸了！

這場挑戰(zhàn)賽，要求參賽者在卷軸的4平方厘米區(qū)域內(nèi)，至少找到10個字母。

最誘人的是，挑戰(zhàn)賽為成功破譯者提供超100萬美元的獎金。

來自法國科學(xué)院的卷軸在牛津附近的Diamond Light Source粒子加速器進行了成像，然后公布了這些卷軸的高分辨率CT掃描圖像。

以藝術(shù)化的方式構(gòu)建3D卷軸

古卷是如何展開的？

大體說，虛擬展開卷軸分三個步驟進行：

- 掃描：利用X射線斷層掃描技術(shù)對卷軸或碎片進行3D掃描。

- 分割：在3D掃描圖像中追蹤卷曲的紙莎草層，隨后將其展開或鋪平。

- 墨跡檢測：借助機器學(xué)習(xí)模型，識別鋪平后段落中的墨跡區(qū)域。

這些卷軸是在位于英格蘭牛津附近的Diamond Light Source（一種粒子加速器）掃描的。

該機器可以產(chǎn)生的高強度平行X射線束，使得成像快速、準(zhǔn)確且分辨率高。通過斷層重建算法，X射線圖片被轉(zhuǎn)化為3D體素體積，形成一系列的切片圖像。

接下來，需要在3D空間中識別出單獨的紙莎草紙張，這一步驟主要依賴于一個名為Volume Cartographer的工具。

Seth Parker在Diamond Light Source粒子加速器掃描卷軸

如下動畫向我們展示了在Volume Cartographer中如何進行手動和自動分割操作。

最終步驟是，墨跡檢測。

對于完整卷軸的大規(guī)模掃描，墨跡檢測一直是個挑戰(zhàn)，直到最近挑戰(zhàn)賽發(fā)起團隊在兩個方向上取得了突破：

- 裂紋模式

去年夏天，Casey Handmer在檢查平鋪后的表面體積時，發(fā)現(xiàn)了一種奇特的裂紋模式，這些裂紋似乎組成了文字。

Casey因這一發(fā)現(xiàn)贏得了首個墨跡獎，并與社區(qū)共享了他的發(fā)現(xiàn)，隨后引發(fā)了一系列的研究活動。

- Kaggle競賽

與此同時，數(shù)百支團隊在Kaggle競賽中努力構(gòu)建出最佳的機器學(xué)習(xí)模型，目標(biāo)是檢測那些在幾百年前卷軸物理解卷過程中脫落的碎片上的墨跡。

與之前不同的是，他們利用了這些碎片照片上的真實數(shù)據(jù)進行訓(xùn)練，而不是標(biāo)記尚未發(fā)現(xiàn)的裂紋。

雖然這些努力產(chǎn)生了一些優(yōu)秀的模型，但它們在分割團隊處理的平鋪圖像上似乎并不奏效。

直到谷歌華人工程師Youssef Nader應(yīng)用了領(lǐng)域適應(yīng)技術(shù)，這一技術(shù)最終幫他贏得了第一字母獎的亞軍。

在得到訓(xùn)練數(shù)據(jù)后，全球眾多參與者通過計算機視覺、機器學(xué)習(xí)不懈努力，不到一年時間，立刻攻克破解古卷閱讀這一難題。

10個月的時間，他們?nèi)〉昧顺晒Α?/span>

終于，在經(jīng)過275年漫長的時間中，我們有能力閱讀這些卷軸：

下圖是PHerc.Paris. 4（法國科學(xué)院）的部分文本，2000年來首次被人閱讀。大約95%的卷軸內(nèi)容仍待揭曉。

卷軸字體被揭曉那刻，就會發(fā)現(xiàn)，被兩千年的泥土和灰燼封存的祖先思維再次展現(xiàn)在世人面前！

那么，都有誰拿下了這次的大獎？

三人團隊，斬獲70萬美元大獎

在眾多參賽作品中，有一份作品非常突出。

評審結(jié)果公布，三人團隊獲得了Vesuvius Challenge 70萬美元大獎，他們分別是Youssef Nader、Luke Farritor和Julian Schilliger。

這三位成員的名頭可不小，而且是這場挑戰(zhàn)賽中最重要的貢獻者。

值得一提是，21歲的Luke Farritor是一名計算機學(xué)生，曾在SpaceX實習(xí)，是史上第一位從赫庫蘭尼姆卷軸讀出整個單詞ΠΟΡΦΥΡΑ?（意為紫色）的人，并贏得了首字母獎的第一名。

就連他的個人主頁，字體都有種年代久遠的感覺。

柏林自由大學(xué)的博士生Youssef Nader在去年10月就讀出了幾列文本，并贏得了第二名的首字母獎。他的成果特別清晰易讀，自然成為了團隊的lead。

還有Julian Schilliger，是來自蘇黎世聯(lián)邦理工學(xué)院（ETH Zürich）機器人學(xué)學(xué)生，因其在Volume Cartographer上的卓越工作而贏得了三個分割工具獎，讓我們能夠看到如今的紙莎草區(qū)域3D映射。

為了拿下最終的大獎，三人組建了一個強大的團隊，并向評審提交了一份，如今被評為最易讀的作品。

提交的文件中，包含了三種不同的模型架構(gòu)的結(jié)果，互相印證。其中基于TimeSformer的模型輸出了最佳圖像。

為了防止過擬合和數(shù)據(jù)幻讀，他們采取了多種措施，包括采用多架構(gòu)結(jié)果、研究不同的輸入/輸出窗口大小、應(yīng)用標(biāo)簽平滑和多樣化的驗證方法。

這個墨水檢測代碼已經(jīng)在GitHub上開源。

獲獎?wù)叩闹魈峤粓D片（TimeSformer 64x64）

除了卓越的墨跡檢測能力，這份作品還展示了迄今為止，我們見過的最強大的自動分割技術(shù)。

便是由Julian開發(fā)的ThaumatoAnakalyptor（大致意為「奇跡揭示者」）能夠從多個卷軸中生成大量紙莎草片段。

對已知區(qū)域的重新分割驗證了之前的墨跡發(fā)現(xiàn)，全新的分割則揭示了如卷軸最外層包裹等其他地方的文字。

來自自動分段的輸出。頂行與提交圖像重疊，底行有新的分段。

谷歌華人工程師拿下亞軍

此外，除了第一名拿下大獎，Vesuvius Challenge還評出了三個并列的亞軍，將各自獲得50,000美元獎金。

這些團隊在墨跡標(biāo)記和采樣的細節(jié)處理上各有創(chuàng)新。

谷歌華人工程師Shao-Qian Mah

技術(shù)細節(jié)是對UNETR++模型進行了定制調(diào)整。這是一種基于變壓器的 UNET 衍生工具，在醫(yī)學(xué)成像中用作3D特征提取器，對深度層進行最大池化處理，然后使用基于Segformer B-5的最終特征提取器。

另外，還有2個團隊共同獲得亞軍。

團隊二：Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, Jo?o Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。

團隊三：Louis Schlessinger和Arefeh Sherafati。

5%的卷軸，寫了什么？

到目前為止，研究團隊已經(jīng)成功展開，并閱讀了第一卷卷軸的約5%，并對露出的文字進行了初步轉(zhuǎn)錄。

初步的閱讀提供了這篇哲學(xué)文本的一瞥，根據(jù)學(xué)者的解讀：

這篇文本主要探討的是快樂，正確地理解快樂，在伊壁鳩魯哲學(xué)中是最高的善。在卷軸的兩段連續(xù)的文字中，作者探討了食物等商品的可用性是否，以及如何影響它們提供的愉悅。
那些稀缺的東西是否比大量存在的東西帶來更多的快樂？作者認為不是：「就像食物一樣，我們不會馬上相信稀缺的東西絕對比豐富的東西更令人愉快。但是，我們是不是更容易放棄那些大量存在的東西呢？這樣的問題經(jīng)常會被頻繁地提出討論。
由于這是卷軸的結(jié)尾，這種表述可能意味著在同一系列作品的后續(xù)書籍中還有更多內(nèi)容。在文本的開頭，提到了一位名叫Xenophantos的人，可能是同一位人物——假設(shè)是一位音樂家——也在Philodemus的《關(guān)于音樂》一作中被提及。

Philodemus，作為伊壁鳩魯學(xué)派的一員，被認為是別墅中的常駐哲學(xué)家，在那里發(fā)現(xiàn)卷軸的小圖書館里工作。

初步、粗略的轉(zhuǎn)錄草稿如下：

在卷軸的后面：

在文本的結(jié)尾部分，作者對他的對手進行了尖銳的批評，他們「在定義快樂的問題上，無論是從總體上還是具體上，都無話可說」。

最后，卷軸以這樣的話結(jié)束：

……我們不是不對某些事情提出質(zhì)疑，而是對其他事情有所理解/記憶。并且，當(dāng)這些事情經(jīng)常顯露出來那樣，我們明白說出真相是很重要的！

學(xué)者們或許會將其稱之為一篇哲學(xué)論文。

但對我們而言，是如此地熟悉，古軸的第一篇竟是講述「如何享受生活」的兩千年前的文章。

在結(jié)尾段落里，Philodemus是否在批評斯多葛學(xué)派，聲稱斯多葛主義是一個不完整的哲學(xué)。因為它「對于快樂一無所知」？

他似乎在討論的問題——生活的快樂以及什么讓生活變得有價值——仍然是我們今天思考的話題。

圖片識別準(zhǔn)確度如何？

人人皆知，機器學(xué)習(xí)模型通常會產(chǎn)生「幻覺」，即輸出與其訓(xùn)練數(shù)據(jù)相似、但實際上是虛構(gòu)的文本或圖片。

同樣，參賽者可能通過自己編造圖像來作弊，例如將圖像嵌入到模型權(quán)重中。

那么，如何確保這件事不會發(fā)生？這里有幾種驗證方法：

- 技術(shù)復(fù)現(xiàn)

Vesuvius Challenge技術(shù)審查團隊親手復(fù)現(xiàn)了獲獎作品，確保完全理解了代碼的每個細節(jié)，并獨立運行代碼時，得到了與原作品相似的圖像。

- 多次提交相同區(qū)域的圖片

你可能注意到，所有提交的圖片都展示了卷軸的同一區(qū)域。Vesuvius Challenge向所有參賽者提供了分割團隊用CT掃描創(chuàng)建的3D映射的紙莎草片段。

- 小范圍的輸入/輸出

墨跡檢測模型并不是基于希臘字母、光學(xué)字符識別（OCR）或語言模型。它們是獨立地識別CT掃描中的微小墨點，這些墨點聚集起來后才形成了文字。因此，圖片中顯示的文本并非機器學(xué)習(xí)模型虛構(gòu)出來的，而是直接基于CT掃描中的實際數(shù)據(jù)。

模型采用了較小的數(shù)據(jù)處理窗口：在一些情況下，它的輸出結(jié)果甚至僅限于兩種狀態(tài)：「有墨跡」和「無墨跡」，這極大地降低了模型錯誤地生成類似字母形狀的可能性

下一步是破譯一部完整的作品。

Nat Friedman宣布了下一輪2024年Vesuvius Challenge獎，目標(biāo)是在年底前閱讀85%的卷軸。

與此同時，他表示，僅僅是走到這一步就「感覺像是一個奇跡，我不敢相信它竟成功了」。

責(zé)任編輯：張燕妮來源：新智元

模型訓(xùn)練

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI破譯2000年前「上古卷軸」登Nature頭版！21歲計算機天才，谷歌華人工程師共獲大獎

古卷是如何展開的？

三人團隊，斬獲70萬美元大獎

谷歌華人工程師拿下亞軍