AI破譯2000年前「上古卷軸」登Nature頭版!21歲計算機天才,谷歌華人工程師共獲大獎
2000年前碳化的古卷軸,如今成功被AI破譯!背后三人團隊還拿下70萬美元大獎!
AI在考古領(lǐng)域的重大進步,甚至登上了今天Nature的頭版。
要說這件事的起源,還得追溯到公元79年一次火山爆發(fā), 直接將一座珍藏古老的紙莎草卷軸——Herculaneum Papyri的圖書館埋葬。
而這些卷軸,直到18世紀(jì)才被挖出,卻早已成為炭焦的木塊。由于太過脆弱,根本無法輕易展開。
今天,正式獲獎的作品,展示了超過15欄的數(shù)百個單詞,相當(dāng)于整個卷軸的5%的內(nèi)容。
值得一提的是,三人拔得頭籌的團隊中,有一位年僅21歲計算機天才少年Luke Farritor,成功用AI從圖像裂縫中破譯內(nèi)容。
當(dāng)時,他還在SpaceX暑期實習(xí),偶然發(fā)現(xiàn)這場挑戰(zhàn)賽的英雄貼。
另外,這場AI破譯卷軸的大賽還有3個團隊獲得亞軍,包括一位谷歌華人工程師單獨獲5萬美元大獎。
從破譯文字轉(zhuǎn)錄后可以讀出,古代哲學(xué)家對「如何享受生活」「快樂」的探討與爭辯,還揭示了人們對音樂和冒險的沉思。
這一壯舉為AI完整破譯其余古卷鋪平了道路,研究人員表示,這可能會對我們對古代世界的理解產(chǎn)生革命性的影響。
谷歌DeepMind的首席執(zhí)行官:我迫不及待地想閱讀這些被認為已經(jīng)失傳的古籍!
2000年后,我們終于可以閱讀卷軸了!
下圖3D還原了,巖漿吞噬圖書館的情境。
這些卷軸在公元79年維蘇威火山的爆發(fā)中被碳化
直到18世紀(jì),這些卷軸被挖掘出來。
目前,有800多卷被保存在意大利那不勒斯的一個圖書館中。
一位藝術(shù)家對珍藏卷軸圖書館的渲染
然而,這些碳化的卷軸無法在不損害的情況下展開。
一份卷軸不同的拍攝視角,看得出已經(jīng)完全碳化,像一個木頭塊。
當(dāng)任何人嘗試展開卷軸,結(jié)果就是支離破碎。
那么,問題來了,我們該如何閱讀這些卷軸?
2023年3月15日,Nat Friedman、Daniel Gross和Brent Seales發(fā)起了Vesuvius Challenge,就是為了解決這一世紀(jì)難題。
十個月前,我們發(fā)起了Vesuvius Challenge,旨在解決赫庫蘭尼姆莎草紙書卷這一古老問題。這是一批在公元79年維蘇威火山爆發(fā)時被高溫烤焦的莎草紙卷軸圖書館。
今天,我們欣喜若狂地宣布,我們瘋狂的項目成功了。2000年后,我們終于可以閱讀卷軸了!
這場挑戰(zhàn)賽,要求參賽者在卷軸的4平方厘米區(qū)域內(nèi),至少找到10個字母。
最誘人的是,挑戰(zhàn)賽為成功破譯者提供超100萬美元的獎金。
來自法國科學(xué)院的卷軸在牛津附近的Diamond Light Source粒子加速器進行了成像,然后公布了這些卷軸的高分辨率CT掃描圖像。
以藝術(shù)化的方式構(gòu)建3D卷軸
古卷是如何展開的?
大體說,虛擬展開卷軸分三個步驟進行:
- 掃描:利用X射線斷層掃描技術(shù)對卷軸或碎片進行3D掃描。
- 分割:在3D掃描圖像中追蹤卷曲的紙莎草層,隨后將其展開或鋪平。
- 墨跡檢測:借助機器學(xué)習(xí)模型,識別鋪平后段落中的墨跡區(qū)域。
這些卷軸是在位于英格蘭牛津附近的Diamond Light Source(一種粒子加速器)掃描的。
該機器可以產(chǎn)生的高強度平行X射線束,使得成像快速、準(zhǔn)確且分辨率高。通過斷層重建算法,X射線圖片被轉(zhuǎn)化為3D體素體積,形成一系列的切片圖像。
接下來,需要在3D空間中識別出單獨的紙莎草紙張,這一步驟主要依賴于一個名為Volume Cartographer的工具。
Seth Parker在Diamond Light Source粒子加速器掃描卷軸
如下動畫向我們展示了在Volume Cartographer中如何進行手動和自動分割操作。
最終步驟是,墨跡檢測。
對于完整卷軸的大規(guī)模掃描,墨跡檢測一直是個挑戰(zhàn),直到最近挑戰(zhàn)賽發(fā)起團隊在兩個方向上取得了突破:
- 裂紋模式
去年夏天,Casey Handmer在檢查平鋪后的表面體積時,發(fā)現(xiàn)了一種奇特的裂紋模式,這些裂紋似乎組成了文字。
Casey因這一發(fā)現(xiàn)贏得了首個墨跡獎,并與社區(qū)共享了他的發(fā)現(xiàn),隨后引發(fā)了一系列的研究活動。
- Kaggle競賽
與此同時,數(shù)百支團隊在Kaggle競賽中努力構(gòu)建出最佳的機器學(xué)習(xí)模型,目標(biāo)是檢測那些在幾百年前卷軸物理解卷過程中脫落的碎片上的墨跡。
與之前不同的是,他們利用了這些碎片照片上的真實數(shù)據(jù)進行訓(xùn)練,而不是標(biāo)記尚未發(fā)現(xiàn)的裂紋。
雖然這些努力產(chǎn)生了一些優(yōu)秀的模型,但它們在分割團隊處理的平鋪圖像上似乎并不奏效。
直到谷歌華人工程師Youssef Nader應(yīng)用了領(lǐng)域適應(yīng)技術(shù),這一技術(shù)最終幫他贏得了第一字母獎的亞軍。
在得到訓(xùn)練數(shù)據(jù)后,全球眾多參與者通過計算機視覺、機器學(xué)習(xí)不懈努力,不到一年時間,立刻攻克破解古卷閱讀這一難題。
10個月的時間,他們?nèi)〉昧顺晒Α?/span>
終于,在經(jīng)過275年漫長的時間中,我們有能力閱讀這些卷軸:
下圖是PHerc.Paris. 4(法國科學(xué)院)的部分文本,2000年來首次被人閱讀。大約95%的卷軸內(nèi)容仍待揭曉。
卷軸字體被揭曉那刻,就會發(fā)現(xiàn),被兩千年的泥土和灰燼封存的祖先思維再次展現(xiàn)在世人面前!
那么,都有誰拿下了這次的大獎?
三人團隊,斬獲70萬美元大獎
在眾多參賽作品中,有一份作品非常突出。
評審結(jié)果公布,三人團隊獲得了Vesuvius Challenge 70萬美元大獎,他們分別是Youssef Nader、Luke Farritor和Julian Schilliger。
這三位成員的名頭可不小,而且是這場挑戰(zhàn)賽中最重要的貢獻者。
值得一提是,21歲的Luke Farritor是一名計算機學(xué)生,曾在SpaceX實習(xí),是史上第一位從赫庫蘭尼姆卷軸讀出整個單詞ΠΟΡΦΥΡΑ?(意為紫色)的人,并贏得了首字母獎的第一名。
就連他的個人主頁,字體都有種年代久遠的感覺。
柏林自由大學(xué)的博士生Youssef Nader在去年10月就讀出了幾列文本,并贏得了第二名的首字母獎。他的成果特別清晰易讀,自然成為了團隊的lead。
還有Julian Schilliger,是來自蘇黎世聯(lián)邦理工學(xué)院(ETH Zürich)機器人學(xué)學(xué)生,因其在Volume Cartographer上的卓越工作而贏得了三個分割工具獎,讓我們能夠看到如今的紙莎草區(qū)域3D映射。
為了拿下最終的大獎,三人組建了一個強大的團隊,并向評審提交了一份,如今被評為最易讀的作品。
提交的文件中,包含了三種不同的模型架構(gòu)的結(jié)果,互相印證。其中基于TimeSformer的模型輸出了最佳圖像。
為了防止過擬合和數(shù)據(jù)幻讀,他們采取了多種措施,包括采用多架構(gòu)結(jié)果、研究不同的輸入/輸出窗口大小、應(yīng)用標(biāo)簽平滑和多樣化的驗證方法。
這個墨水檢測代碼已經(jīng)在GitHub上開源。
獲獎?wù)叩闹魈峤粓D片(TimeSformer 64x64)
除了卓越的墨跡檢測能力,這份作品還展示了迄今為止,我們見過的最強大的自動分割技術(shù)。
便是由Julian開發(fā)的ThaumatoAnakalyptor(大致意為「奇跡揭示者」)能夠從多個卷軸中生成大量紙莎草片段。
對已知區(qū)域的重新分割驗證了之前的墨跡發(fā)現(xiàn),全新的分割則揭示了如卷軸最外層包裹等其他地方的文字。
來自自動分段的輸出。頂行與提交圖像重疊,底行有新的分段。
谷歌華人工程師拿下亞軍
此外,除了第一名拿下大獎,Vesuvius Challenge還評出了三個并列的亞軍,將各自獲得50,000美元獎金。
這些團隊在墨跡標(biāo)記和采樣的細節(jié)處理上各有創(chuàng)新。
谷歌華人工程師Shao-Qian Mah
技術(shù)細節(jié)是對UNETR++模型進行了定制調(diào)整。這是一種基于變壓器的 UNET 衍生工具,在醫(yī)學(xué)成像中用作3D特征提取器,對深度層進行最大池化處理,然后使用基于Segformer B-5的最終特征提取器。
另外,還有2個團隊共同獲得亞軍。
團隊二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, Jo?o Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和Odemir Martinez Bruno。
團隊三:Louis Schlessinger和Arefeh Sherafati。
5%的卷軸,寫了什么?
到目前為止,研究團隊已經(jīng)成功展開,并閱讀了第一卷卷軸的約5%,并對露出的文字進行了初步轉(zhuǎn)錄。
初步的閱讀提供了這篇哲學(xué)文本的一瞥,根據(jù)學(xué)者的解讀:
這篇文本主要探討的是快樂,正確地理解快樂,在伊壁鳩魯哲學(xué)中是最高的善。在卷軸的兩段連續(xù)的文字中,作者探討了食物等商品的可用性是否,以及如何影響它們提供的愉悅。
那些稀缺的東西是否比大量存在的東西帶來更多的快樂?作者認為不是:「就像食物一樣,我們不會馬上相信稀缺的東西絕對比豐富的東西更令人愉快。但是,我們是不是更容易放棄那些大量存在的東西呢?這樣的問題經(jīng)常會被頻繁地提出討論。
由于這是卷軸的結(jié)尾,這種表述可能意味著在同一系列作品的后續(xù)書籍中還有更多內(nèi)容。在文本的開頭,提到了一位名叫Xenophantos的人,可能是同一位人物——假設(shè)是一位音樂家——也在Philodemus的《關(guān)于音樂》一作中被提及。
Philodemus,作為伊壁鳩魯學(xué)派的一員,被認為是別墅中的常駐哲學(xué)家,在那里發(fā)現(xiàn)卷軸的小圖書館里工作。
初步、粗略的轉(zhuǎn)錄草稿如下:
在卷軸的后面:
在文本的結(jié)尾部分,作者對他的對手進行了尖銳的批評,他們「在定義快樂的問題上,無論是從總體上還是具體上,都無話可說」。
最后,卷軸以這樣的話結(jié)束:
……我們不是不對某些事情提出質(zhì)疑,而是對其他事情有所理解/記憶。并且,當(dāng)這些事情經(jīng)常顯露出來那樣,我們明白說出真相是很重要的!
學(xué)者們或許會將其稱之為一篇哲學(xué)論文。
但對我們而言,是如此地熟悉,古軸的第一篇竟是講述「如何享受生活」的兩千年前的文章。
在結(jié)尾段落里,Philodemus是否在批評斯多葛學(xué)派,聲稱斯多葛主義是一個不完整的哲學(xué)。因為它「對于快樂一無所知」?
他似乎在討論的問題——生活的快樂以及什么讓生活變得有價值——仍然是我們今天思考的話題。
圖片識別準(zhǔn)確度如何?
人人皆知,機器學(xué)習(xí)模型通常會產(chǎn)生「幻覺」,即輸出與其訓(xùn)練數(shù)據(jù)相似、但實際上是虛構(gòu)的文本或圖片。
同樣,參賽者可能通過自己編造圖像來作弊,例如將圖像嵌入到模型權(quán)重中。
那么,如何確保這件事不會發(fā)生?這里有幾種驗證方法:
- 技術(shù)復(fù)現(xiàn)
Vesuvius Challenge技術(shù)審查團隊親手復(fù)現(xiàn)了獲獎作品,確保完全理解了代碼的每個細節(jié),并獨立運行代碼時,得到了與原作品相似的圖像。
- 多次提交相同區(qū)域的圖片
你可能注意到,所有提交的圖片都展示了卷軸的同一區(qū)域。Vesuvius Challenge向所有參賽者提供了分割團隊用CT掃描創(chuàng)建的3D映射的紙莎草片段。
- 小范圍的輸入/輸出
墨跡檢測模型并不是基于希臘字母、光學(xué)字符識別(OCR)或語言模型。它們是獨立地識別CT掃描中的微小墨點,這些墨點聚集起來后才形成了文字。因此,圖片中顯示的文本并非機器學(xué)習(xí)模型虛構(gòu)出來的,而是直接基于CT掃描中的實際數(shù)據(jù)。
模型采用了較小的數(shù)據(jù)處理窗口:在一些情況下,它的輸出結(jié)果甚至僅限于兩種狀態(tài):「有墨跡」和「無墨跡」,這極大地降低了模型錯誤地生成類似字母形狀的可能性
下一步是破譯一部完整的作品。
Nat Friedman宣布了下一輪2024年Vesuvius Challenge獎,目標(biāo)是在年底前閱讀85%的卷軸。
與此同時,他表示,僅僅是走到這一步就「感覺像是一個奇跡,我不敢相信它竟成功了」。