AI顛覆材料學!DeepMind重磅研究登Nature,預測220萬晶體結構贏人類800年
陶哲軒一直看好,ChatGPT將顛覆數學證明,而如今,AI在化學領域的潛力同樣深不可測。
今天,220萬種晶體結構完全被AI預測出來了。
這是什么概念?相當于近800年的知識價值。
谷歌DeepMind開發全新AI工具GNoME,能夠預測新材料的穩定性,大大提高了發現的速度和效率,論文今天刊發在了Nature上。
論文鏈接:https://www.nature.com/articles/s41586-023-06735-9
在220萬個晶體預測中,有38萬種特性是最穩定的,有潛力成為未來變革性技術的材料,為超導體、電動汽車電池研發,以及超算供電等領域提供動力。
更進一步的是,全世界各地的科學家已經在GNoME的輔助之下,著手將AI發現的新材料進行了合成。
美國勞倫斯國家實驗室和DeepMind合作,在Nature上刊發了另一篇論文,展示了如何利用GNoME的預測進行自主材料合成。
17天自主合成了41種新材料。
論文鏈接:https://www.nature.com/articles/s41586-023-06734-w
AI對于基礎科學的推動作用,可能會讓人類文明從此駛上快車道!
如果說,OpenAI是人類在奔向AGI道路上的領航員,DeepMind就是一把人類在科學領域不斷突破自身極限的利劍。
利用 AI 加速材料發現
過去,科學家們通過調整已知晶體或試驗新的元素組合來尋找新的晶體結構。
這是一個昂貴且耗時的試錯過程。通常需要幾個月的時間才能得到有限的結果。
在過去的十年中,全世界各國的科學家通計算機模擬的方法發現了28000種新材料。
加上人類利用傳統實驗的方法發現的大約20000種穩定性材料,在使用AI輔助材料發現之前,人類發現的穩定晶體數量總共達到了48000個。
而DeepMind使用AI材料發現工具GNoME,預測出了220萬種新的晶體,其中38萬種具有穩定的結構。
而在GNoME預測的新的穩定結構中,有736種是和其他科學家獨立發現的穩定材料是一致的,說明新發現的材料是客觀真實的。
自此,人類發現的穩定晶體數量一下子被提升了接近9倍!
而這些材料中,有52000種類似于石墨烯的新型層狀化合物,其中1000種是已經被之前的研究所發現的。
如果在這些材料中能發現有更強超導特性的材料,有可能徹底顛覆電子學。
利用GNoME,科學家還發現了528種潛在的鋰離子導體,是之前研究成果的25倍。
這些材料都有可能用來提高電池的性能,從而改變人類的能源結構。
DeepMind將會在未來發布這38萬種穩定材料的預測結構。
利用GNN進行材料探索
GNoME采用兩條工作流(管道)來發現穩定材料:
「結構管道」創建具有與已知晶體結構相似的候選物,而「成分管道」則采用遵循基于化學式的更隨機的方法。
之后,使用密度泛函理論計算來評估兩條工作流的輸出,并將這些結果添加到GNoME數據庫中,為下一輪主動學習提供信息。
GNoME是一種最先進的圖神經網絡(GNN)模型,可以預測晶體總能量。
GNN的輸入數據采用圖的形式,跟原子之間的連接很像,這使得GNN特別適合發現新的晶體材料。
模型的輸入通過元素的單次嵌入轉換成圖。采用消息傳遞公式,其中聚合投影是具有非線性特性的淺層多層感知器(MLP)。
對于結構模型,重要的是通過整個數據集原子的平均鄰接關系,對從邊到節點的信息進行歸一化。
GNoME的初始模型是在2018年Materials Project(約69000種材料)上訓練的,研究人員改進了之前工作中,對這項任務設置的平均絕對誤差(MAE)。
GNoME使用晶體結構及其穩定性的數據進行訓練,這些數據可通過Materials Project公開獲得。
研究人員使用GNoME來生成新的候選晶體,并預測它們的穩定性。
為了評估模型在訓練周期中的預測能力,研究人員使用被稱為密度泛函理論 (DFT) 的成熟計算技術,反復檢查模型輸出的結果。
DFT被廣泛用于物理、化學和材料科學中,幫助人們理解原子的結構,對于評估晶體的穩定性有重要的作用。
研究人員使用了一種稱為「主動學習」的訓練過程,極大地提高了GNoME的性能。
「主動學習」是一種擴展模型的技術,模型首先在小型專用數據集上訓練,然后,開發人員可以引入新的目標,允許模型在人工協助下標記新數據。
GNoME會對新型的、穩定的晶體結構進行預測,然后使用DFT進行測試,并將生成的高質量訓練數據反饋到模型訓練中。
GNoME的出現,將材料穩定性預測的發現率從50%左右提高到80%(50%是之前的SOTA)。
另外,GNoME的效率也有很大提升,將發現率從低于10%提高到了80%以上,——效率的提高會大大節約每次發現所需的計算量。
「AI配方」新材料
GNoME的目的是降低發現新材料的成本。
研究人員在完成了這項工作后,檢索了科學文獻,發現了由世界各地的實驗室獨立創造的736種新材料,與GNoME預測的結果一致。
這證明GNoME對穩定晶體的預測與客觀現實相符。
上圖給出了其中六個例子,從堿土類金剛石光學材料(一排中間)到潛在的超導體(一排右邊)。
DeepMind已經向研究界發布了新發現的晶體數據庫——通過向科學家提供新材料的「AI配方」,DeepMind希望幫助科學家們進行測試,并制造出最好的配方。
而利用晶體數據庫中的「AI配方」,科學家可以快速開發新材料。
在美國勞倫斯國家實驗室發表的一篇論文中,研究人員展示了,機器人實驗室可以通過自動合成技術快速制造新材料。
利用Materials Project(MP)中的材料,和GNoME對穩定性的見解,實驗室創造了晶體結構的新配方,并成功合成了超過41種新材料,為人工智能驅動的材料合成開辟了新的可能性。
上圖是以58種新化合物為目標進行合成的結果。箭頭表示接近零的數值。
我們可以看到共有41個目標成功合成(藍色條),而其余17個目標失敗(紅色條)。
帶有斜杠的目標表示使用了主動學習。每個條形圖上方的散點表示針對每個目標嘗試配方的結果,按執行順序從上到下排列。
插入的餅圖分別展示了成功目標(左)和配方(右)的比例。
上圖分析了實驗室無法合成的17種目標材料,每種材料都按使其合成復雜化的特征進行了分類。
除去亞穩態的,其余16個穩定目標所面臨的挑戰可分為兩類:實驗障礙(藍色,13個)和計算障礙(綠色,3個)。
這些障礙又可分為四種不同的失敗模式:反應動力學緩慢、前體易揮發、產物非晶化以及在0 K條件下進行的DFT計算的局限性。
論文細節
發現能量上有利的無機晶體是固態化學的基本科學和技術興趣所在。
幾十年來,實驗方法已在無機晶體結構數據庫(ICSD)中收錄了 20,000 個計算穩定結構(總條目數為 200,000 個)。然而,由于成本、吞吐量和合成復雜性等原因,這種策略無法推廣。
而材料計劃(MP)、開放量子材料數據庫(OQMD)、AFLOWLIB20 和 NOMAD21 所倡導的計算方法采用基于密度泛函理論(DFT)的第一性原理計算作為物理能量的近似值。
根據我們自己的重新計算(見方法),將 ab initio 計算與簡單的替換相結合,研究人員已將計算穩定的材料提高到 48000 種。盡管人們一直在尋求有助于進一步發現材料的數據驅動方法,但迄今為止,機器學習技術在估算相對于競爭相能量凸殼(convex hull of energies)的穩定性(分解能)方面表現一直不好。
研究人員通過大規模主動學習擴大了機器學習在材料探索中的應用,首次建立了可準確預測穩定性的模型,從而為材料探索提供指導。
研究人員的方法依賴于兩大支柱:
首先,他們建立了生成多種候選結構的方法,包括新的對稱感知部分置換(SAPS)和隨機結構搜索。
其次,研究人員采用了最先進的圖神經網絡(GNN),該網絡可根據結構或成分改進材料特性建模。
在一系列回合中,這些用于材料探索的圖神經網絡(GNoME)根據現有數據進行訓練,并用于過濾候選結構。
通過DFT計算篩選出的候選結構的能量,既可驗證模型預測,又可作為數據飛輪,在下一輪主動學習中在更大的數據集上訓練更穩健的模型。
通過這種迭代程序,GNoME模型已經發現了220多萬種與以前的工作相比穩定的結構,特別是包含計算和實驗結構的聚合數據集。
鑒于已發現的材料在穩定性方面存在競爭,更新后的凸殼包含381000個新條目,總計421000個穩定晶體,與之前發現的所有晶體相比有了數量級的擴展。
與其他機器學習領域的觀察結果一致,研究人員發現神經網絡的預測結果與數據量成冪律關系。
最終的GNoME模型可以準確預測,并將穩定預測的精確度(命中率)提高到80%以上(結構預測)和33%以上(僅成分預測),而之前的工作只有1%。
此外,這些網絡還發展了分布外泛化。
例如,GNoME能夠準確預測含有5個以上獨特元素的結構(盡管在訓練中省略了這些元素),為有效探索這一化學空間提供了首批策略之一。
研究人員將預測結果與實驗和更高保真的 r2SCAN計算結果進行了比較,從而驗證了研究結果。
最后,研究人員證明了在GNoME發現過程中產生的數據集為下游應用釋放了新的建模能力。
這些結構提供了一個龐大而多樣的數據集,可用于訓練學習的等變原子間位勢,具有前所未有的準確性和零樣本泛化能力。
通過分子動力學模擬估算離子電導率,研究人員展示了這些電位在材料性質預測方面的前景。
候選材料的生成和過濾
可能的材料空間太大,無法以無偏見的方式進行采樣。
由于沒有可靠的模型來低成本地估算候選材料的能量,研究人員只能通過化學直覺來限制候選材料的生成,具體做法是替換相似的離子或列舉原型。
這種策略雖然提高了搜索效率,但從根本上限制了候選物質的多樣性。
通過使用神經網絡引導搜索,研究人員能夠使用多樣化的方法生成候選體,并在不影響效率的前提下對晶體空間進行更廣泛的探索。
為了生成和篩選候選晶體,研究人員使用了兩個框架,如下圖所示。
首先,通過修改現有晶體生成結構候選體。不過,研究人員通過調整離子取代概率來優先發現候選結構,并使用新提出的對稱性感知部分取代(SAPS)來有效實現不完全取代,從而有力地擴展了取代集。
在主動學習過程中,這種擴展會產生超過109個候選結構;產生的結構會通過GNoME進行過濾,使用基于體積的測試時間擴展,并通過深度集合進行不確定性量化。
最后,對結構進行聚類,并對多形態進行排序,以便用DFT進行評估。
在第二個框架中,成分模型在沒有結構信息的情況下預測穩定性。輸入是還原化學式。通過氧化態平衡生成的模型往往過于嚴格。利用寬松的約束條件,研究人員使用GNoME篩選成分,并初始化100個隨機結構,通過ab initio隨機結構搜索(AIRSS)進行評估。
在這兩個框架中,模型提供能量預測,并根據相對于競爭相的相對穩定性(分解能)選擇閾值。
評估是通過在維也納Ab initio仿真軟件包(VASP)中進行的DFT計算來完成的,與Materials Project(MP)相比,研究人員同時測量了發現的穩定材料的數量和預測的穩定材料的精確度(命中率)。
GNoME已經發現了380000種穩定的晶體,這些晶體具有開發更環保技術的潛力——從用于電動汽車的電池到用于更高效計算的超導體。
DeepMind的GNoME,以及伯克利實驗室、谷歌研究院和世界各地團隊的合作者的研究,顯示了使用人工智能來指導材料發現、實驗和合成的潛力。
希望GNoME與其他AI工具,能夠影響和改變這個領域,指引我們的未來。
網友熱議
有網友根據GNoME預測新材料的能力生成了下面這張圖:
不得不說,還挺形象的。
也有網友把LK-99拿出來鞭尸了:
「還記得LK-99嗎?Google DeepMind最新的AI工具GNoME剛剛通過識別220萬種新材料樹立了新的標桿,重新定義了我們對材料科學的理解。這一發現超越了以前的努力,提供了具有多種應用的新晶體目錄。」
當我們期盼看到Google的產品可以正面剛ChatGPT的時候,卻發現Google把技能點用到了別的地方。
對此有網友表示:
「當人們對聊天機器人失去理智時,真正的人工智能在DeepMind」。
當然,也有陰謀論玩家表示:
「想象一下,科學家們已經根據這樣的研究秘密合成了什么。我敢打賭,DeepMind并不是唯一一家進行此類模擬的實驗室。」