陶哲軒牛津?qū)φ劻_博深：解密DeepMind如何讓AI拿到IMO銀牌

作者：新智元 2024-08-08 13:40:00

人工智能新聞

陶哲軒一場新鮮出爐的演講，為我們帶來了一場干貨滿滿的思想盛宴。

7月17日，「牛津數(shù)學(xué)公開講座」系列研討會邀請到了陶哲軒進(jìn)行演講，主題是關(guān)于AI在科學(xué)和數(shù)學(xué)領(lǐng)域的潛力。

演講結(jié)束后，陶哲軒還和CMU數(shù)學(xué)教授、IMO美國隊(duì)前教練羅博深進(jìn)行了對談。

此前，陶哲軒就在一次采訪中詳細(xì)闡述了他眼中的AI將如何顛覆數(shù)學(xué)研究。那就讓我們看看，這次他又發(fā)表了哪些新的觀點(diǎn)。

人工智能是「猜測機(jī)器」

「通俗來講，人工智能基本上就是一臺猜測機(jī)器。」

陶哲軒的這次演講建立在一個(gè)基調(diào)之上，那就是「AI會改變科學(xué)和數(shù)學(xué)，這是一項(xiàng)令人驚嘆的技術(shù)」，但「AI并不是魔法」。

LLM是一個(gè)讓我們輸入（比如一個(gè)文本查詢請求或其他請求），繼而產(chǎn)生輸出（文本、圖像或數(shù)字）的軟件。

這種做法在數(shù)學(xué)上其實(shí)很平常。

實(shí)際上，LLM的本質(zhì)就是在解一個(gè)巨大的方程組！通過反復(fù)幾百次的權(quán)重調(diào)整，LLM最終找到了每個(gè)單詞后面的下一個(gè)單詞是什么。

對于人類來說，這個(gè)過程相當(dāng)復(fù)雜，但在數(shù)學(xué)上，這是一個(gè)非常無聊的過程。有趣的是如何找到這些權(quán)重的方法。

說到這里，陶哲軒又打了一個(gè)比方，AI就像是「飛機(jī)的發(fā)明」。

噴氣式發(fā)動機(jī)剛剛出現(xiàn)時(shí)，汽車、火車和船只已經(jīng)是相當(dāng)成熟的交通工具了，因此這種新引擎看起來僅僅是個(gè)玩具，幾乎無法完成任何實(shí)際工作。

但隨著時(shí)間的推移，它會變得越來越強(qiáng)大，終有一天讓人類的旅行速度達(dá)到當(dāng)時(shí)最快陸地交通工具的10倍。

但你不能僅僅因?yàn)榭吹搅艘妫椭苯悠诖磥淼某晒@中間還有許多工作。

為了造出有實(shí)際用途的飛機(jī)，我們需要設(shè)計(jì)新的安全協(xié)議、新的儀表設(shè)備，找到新的方法，以便更好地理解物理定律——飛機(jī)仍然遵循物理定律。

是的，AI就是這樣。它不是魔法，而是與規(guī)模有關(guān)。AI就像我們?nèi)粘Ｉ钪幸呀?jīng)使用的許多軟件一樣。

但是有一個(gè)關(guān)鍵的區(qū)別，那就是我們現(xiàn)在傾向于使用的軟件往往相當(dāng)無聊，缺乏創(chuàng)意。你輸入什么，每次都會得到相同的輸出。

在瀏覽器中輸入一個(gè)網(wǎng)址，就會直接跳轉(zhuǎn)到相應(yīng)的網(wǎng)頁。而且軟件常常很挑剔，如果你稍微犯了個(gè)小錯(cuò)誤，輸入了錯(cuò)誤的網(wǎng)址，那么你可能會被帶到其他的地方。但是這一切都非常可預(yù)測。

Karpathy也曾表達(dá)類似觀點(diǎn)，過去的搜索引擎沒有幻覺，但也沒有創(chuàng)造力：LLM is 100% dreaming

但人工智能不同，特別是去年流行起來的那些大語言模型，它們更有創(chuàng)意。

用相同的查詢問LLM兩次，你可能會得到不同的答案，而且無法保證答案是正確的。

看起來更加離譜且難以理解的是，大模型有時(shí)能成功解決非常復(fù)雜的數(shù)學(xué)證明題，比如——

但大多數(shù)情況下，它們很難答對「9.9和9.11哪個(gè)大」這種問題，簡單的算術(shù)題也經(jīng)常算不準(zhǔn)。

這正是陶哲軒將其比喻為「猜測機(jī)器」原因——它猜測出一個(gè)接近于它曾看到的其他問題的正確答案，而不是經(jīng)過它的獨(dú)立思考。

這是一種與我們習(xí)慣的技術(shù)不同的新技術(shù)。

我們習(xí)慣的技術(shù)是那種「在我們眼皮子底下犯錯(cuò)」的，它們會制造出一些不怎么樣的輸出，讓我們易于察覺。

但由于AI的本質(zhì)，這些權(quán)重被特意選擇，以便讓答案盡可能接近正確答案。所以即使它們錯(cuò)了，看起來也會非常具有說服力。

那么問題來了，我們該如何使用這項(xiàng)新技術(shù)呢？

陶哲軒承認(rèn)，在醫(yī)療、財(cái)務(wù)決策等領(lǐng)域，AI的安全性真的還沒有達(dá)到標(biāo)準(zhǔn)。盡管有許多潛在的好處，我們依舊需要抱持謹(jǐn)慎的態(tài)度。

這就像我們花了幾十年時(shí)間，才讓飛行器達(dá)到一個(gè)對普通公眾來說真的很安全的狀態(tài)。

英雄所見略同，LeCun在談到AI的安全性問題時(shí)，也喜歡將其與飛行器做比

但AI正在一些領(lǐng)域取得應(yīng)用，比如陶哲軒此次演講時(shí)的背景幻燈片就是自動生成的，有一種濃濃的「AI味兒」。

看起來的確很像MidJourney或DALL-E的默認(rèn)風(fēng)格

但陶哲軒笑談道，「其實(shí)也還好，它只需要看起來足夠令人信服即可。背景圖片并不是我演講的核心內(nèi)容」。

詳解AI潛力

「消防水管」加速科學(xué)發(fā)展

「科學(xué)就像能產(chǎn)生一定量飲用水的水龍頭，而突然之間，我們有了AI這個(gè)大消防水管」。

陶哲軒又做出了一個(gè)精彩的類比。

他認(rèn)為，雖然AI的缺陷在醫(yī)療、財(cái)務(wù)決策這類領(lǐng)域顯得相當(dāng)危險(xiǎn)，但在某些領(lǐng)域是可以接受的，特別是科學(xué)領(lǐng)域，因?yàn)榭茖W(xué)就是關(guān)于驗(yàn)證，尤其是獨(dú)立驗(yàn)證的過程。

如果有一種設(shè)置，可以將AI不可預(yù)測但功能強(qiáng)大的輸出與獨(dú)立驗(yàn)證相結(jié)合，以過濾掉垃圾，只保留有用的東西。那么我們將會看到大量潛在應(yīng)用的涌現(xiàn)。

AI這個(gè)「大消防水管」，可以輸出10倍甚至100倍的液體，但輸出的并不是可飲用的水。

但如果我們擁有一個(gè)過濾裝置以后呢？它可以幫助我們過濾掉那些雜質(zhì)，我們就可以得到干凈的水（科學(xué)）了。

這就是陶哲軒看待科學(xué)的方式——以數(shù)學(xué)的方式來看待它。

在許多科學(xué)領(lǐng)域，尋找解決問題的「候選答案」成為了瓶頸。

比如在藥物設(shè)計(jì)領(lǐng)域，我們想為某種疾病找到一種藥物。為此，我們必須要合成它。

首先可能需要從自然界中找到一種藥物，或者對藥物進(jìn)行改良。然后，必須要合成、試驗(yàn)，第一階段試驗(yàn)，第二階段試驗(yàn)……

這是一個(gè)長達(dá)數(shù)年的試驗(yàn)過程，而且非常昂貴。因此，只有最大的制藥公司才能負(fù)擔(dān)得起全程研發(fā)直至最終獲得批準(zhǔn)。

許多測試的藥物實(shí)際上并不奏效，它們在研發(fā)過程中的某個(gè)階段不得不被放棄。有時(shí)候你會幸運(yùn)一點(diǎn)，雖然它們沒有治愈你想要治療的問題，但它們對其他某些問題有益。

但即便如此，這還是一個(gè)非常不確定，有很多試錯(cuò)的過程。

如果有一種方法可以減少試驗(yàn)候選對象，那么一定是利用人工智能。

現(xiàn)在科學(xué)家真的在用AI來模擬蛋白質(zhì)。并且很快，如果有足夠的數(shù)據(jù)，就可以開始根據(jù)現(xiàn)有臨床試驗(yàn)的數(shù)據(jù)模擬藥物功能，為各種疾病找到有潛力的候選藥物。

在這個(gè)過程中，我們?nèi)匀恍枰裱茖W(xué)驗(yàn)證的標(biāo)準(zhǔn)。但不必篩選100個(gè)候選者，或許只需10個(gè)，你就能找到那一個(gè)有效的方法。

陶哲軒還談到了材料科學(xué)領(lǐng)域。

室溫超導(dǎo)體是否存在，這個(gè)問題已經(jīng)困擾了我們數(shù)十年。人們嘗試了不同的材料，雖然偶爾有所突破，但通常都以失敗告終。

但是，AI有潛力跳過昂貴的合成過程，如果科學(xué)家能將候選者數(shù)量大幅減少，以大比例縮小范圍，那將是革命性的改變。

實(shí)際上，這些科學(xué)問題中的設(shè)計(jì)部分不僅正在被人工智能自動化，甚至合成過程本身也是如此。

人們還在開發(fā)由AI驅(qū)動的實(shí)驗(yàn)室，以更加自動化的方式進(jìn)行危險(xiǎn)性的化學(xué)品的合成。

因此，減少昂貴測試候選對象，這是AI加速科學(xué)發(fā)展的一個(gè)應(yīng)用領(lǐng)域。

另一個(gè)領(lǐng)域是模型加速。

在現(xiàn)代社會，我們必須對各種事物進(jìn)行建模。

大氣、交通、經(jīng)濟(jì)……幾乎每一件事，每一個(gè)復(fù)雜的系統(tǒng)，我們希望為宇宙建模。

但是，建模常常需要我們做的是，必須要運(yùn)行物理定律。

如果我們想預(yù)測地球未來20年的氣候狀況，我們會收集大量數(shù)據(jù)，并運(yùn)用已知的物理定律，為了提高準(zhǔn)確性，我們需要將時(shí)間劃分得非常細(xì)小，還需要把地球劃分成非常細(xì)小的網(wǎng)格。

這需要使用超級計(jì)算機(jī)，而且需要數(shù)月的時(shí)間來完成。

如果想預(yù)測氣候，比如假設(shè)二氧化碳濃度保持在這個(gè)水平，20年后會發(fā)生什么，則需要花費(fèi)數(shù)月時(shí)間才能得到一個(gè)相對準(zhǔn)確的答案。

但是，原則上，人工智能可以大大縮短這個(gè)過程。如果有大量通過超級計(jì)算機(jī)獲得的模擬數(shù)據(jù)，就可以用于AI訓(xùn)練，找出基于未見過的輸入數(shù)據(jù)預(yù)測結(jié)果的最佳擬合方案。

氣候模擬領(lǐng)域的人們已經(jīng)能夠在幾小時(shí)內(nèi)恢復(fù)傳統(tǒng)超級計(jì)算機(jī)模擬的準(zhǔn)確性，而不是幾個(gè)月。

陶哲軒強(qiáng)調(diào)說，這種加速真的是非常、非常地顯著。

從20年到3周：革命即將到來

作為一名數(shù)學(xué)家，我對人工智能可能如何改變數(shù)學(xué)感到非常興奮。

提升AI數(shù)學(xué)推理能力可能會是一個(gè)非常廣闊的領(lǐng)域，提升許多應(yīng)用場景中的可用性。

目前我們已經(jīng)看到了一些用例，但還是遠(yuǎn)遠(yuǎn)不夠。雖然革命尚未發(fā)生，但我認(rèn)為它即將到來。

將AI應(yīng)用于學(xué)和數(shù)據(jù)學(xué)科有一些缺點(diǎn)，就像上面的乘法題一樣，它可能給出錯(cuò)誤的結(jié)果。

但這也不是世界末日，我們有很多方法進(jìn)行獨(dú)立驗(yàn)證，例如Lean這類的輔助證明軟件，從而不必完全信任AI。

輔助證明軟件類似于一種計(jì)算機(jī)編程語言，但輸出并不是可執(zhí)行程序，而是用于驗(yàn)證某個(gè)陳述是否正確。與AI不同，這類軟件可以100%按照程序設(shè)定運(yùn)行。

目前，數(shù)學(xué)家們編寫一個(gè)中等規(guī)模問題的證明大概需要幾個(gè)月的時(shí)間，將其形式化所需的時(shí)間還要更久，至少是前者的10倍，還需要團(tuán)隊(duì)合作才能完成。

但得益于輔助證明軟件，這個(gè)進(jìn)程正在加快。

下圖列出了數(shù)學(xué)領(lǐng)域的一些知名成果。上個(gè)世紀(jì)，定理從成功證明到形式化往往需要幾十年時(shí)間，比如四色定理和開普勒猜想。

到了2020年提出的液體張量實(shí)驗(yàn)，僅用了18個(gè)月就完成了形式化。

去年11月，我和一些合作者證明了一個(gè)關(guān)于交換代數(shù)的猜想。當(dāng)時(shí)我們立即決定，這是一個(gè)很好的測試案例，可以用來觀察計(jì)算機(jī)的形式化技術(shù)是如何工作的。

最終，我們組建了一個(gè)大約20人的大團(tuán)隊(duì)，用三周的時(shí)間完成了形式化。

雖然依舊沒有那么方便，但這個(gè)過程的難度在降低，每個(gè)定理都會在不久的將來被形式化。

目前，速度的提升大部分還是來自傳統(tǒng)方法，比如更好的語言和軟件庫。

GitHub這樣的平臺能讓更多的數(shù)學(xué)家在一起協(xié)同工作，不僅僅止步于5個(gè)人或者一兩個(gè)小組，而是組織起更大的、20～50人參與的項(xiàng)目，這在以前是很難做到的。

而且，就像Copilot的代碼自動補(bǔ)全一樣，AI可以自動填補(bǔ)證明中的小步驟。

隨著時(shí)間的推移，我認(rèn)為AI不僅能自動完成單行證明，還能完成雙行證明，最終在編寫證明語句方面超越人類的速度。

甚至，未來數(shù)學(xué)家編寫證明時(shí)，可能是向AI口述。只需像對學(xué)生那樣，向AI解釋證明的過程，讓AI嘗試對我們解釋的每一個(gè)步驟進(jìn)行形式化驗(yàn)證，再進(jìn)行迭代改進(jìn)。

這會比傳統(tǒng)方式的數(shù)學(xué)研究更快，而且可以確保不會出錯(cuò)。所以我認(rèn)為人工智能與數(shù)學(xué)將會產(chǎn)生巨大的協(xié)同效應(yīng)。

與羅博深的爐邊對談

關(guān)于DeepMind的IMO銀牌

對談中，羅博深問到了前段時(shí)間IMO競賽的重大消息——DeepMind研發(fā)的AlphaProof和AlphaGeometry 2模型取得了相當(dāng)于銀牌的成績。

此前，陶哲軒就曾發(fā)表過關(guān)于此事的一些初步印象和看法。

在對談中，他承認(rèn)這個(gè)結(jié)果是自己沒有預(yù)料到的。原本預(yù)計(jì)的時(shí)間線是未來3～4年，但沒想到今年就能見證了AI解決IMO級別的數(shù)學(xué)問題。

這是非常好的工作，也很令人興奮，又有點(diǎn)trick的成分在里面，但似乎進(jìn)步往往來自cheap tricks。

IMO中的幾何問題一般是確定可解的，但問題是，如果讓AI直接寫下全部的，比如20個(gè)語句，并執(zhí)行標(biāo)準(zhǔn)算法，會有指數(shù)級的運(yùn)行時(shí)間增長。

但是，如果你能做出一個(gè)有創(chuàng)意的構(gòu)建，比如加上一個(gè)中點(diǎn)，然后根據(jù)這個(gè)新坐標(biāo)重新排列現(xiàn)有信息，就可以大幅降低問題的復(fù)雜度。

DeepMind所做的事情就是讓AI找到了這個(gè)捷徑，再應(yīng)用更標(biāo)準(zhǔn)的自動化工具，所以實(shí)際上只有很小一部分涉及到了AI，而且很有策略性。

但這種通用流程是可以擴(kuò)展的。在復(fù)雜的數(shù)學(xué)問題，最困難的就是要找出關(guān)鍵的中間步驟。

比如，要證A?B，如果你能找到合適的中間點(diǎn)C，將問題轉(zhuǎn)變?yōu)樽C明A?C且C?B成立，讓兩個(gè)子問題都是原問題難度的一半，這就是一個(gè)重大的進(jìn)步。

也許AI在未來會很擅長這項(xiàng)工作，但我們沒有這方面的數(shù)據(jù)。DeepMind之所以成功，背后的秘密是他們生成了大量幾何問題進(jìn)行測試。

責(zé)任編輯：張燕妮來源：新智元

模型數(shù)據(jù)

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看