整個元素周期表通用,AI 即時預測材料結構與特性
材料的性質由其原子排列決定。然而,現有的獲得這種排列的方法要么過于昂貴,要么對許多元素無效。
現在,加州大學圣地亞哥分校納米工程系的研究人員開發了一種人工智能算法,可以幾乎即時地預測任何材料(無論是現有材料還是新材料)的結構和動態特性。該算法被稱為 M3GNet,用于開發 matterverse.ai 數據庫,該數據庫包含超過 3100 萬種尚未合成的材料,其特性由機器學習算法預測。Matterverse.ai 促進了具有卓越性能的新技術材料的發現。
該研究以「A universal graph deep learning interatomic potential for the periodic table」為題,于 2022 年 11 月 28 日發布在《Nature Computational Science》上。
論文鏈接:https://www.nature.com/articles/s43588-022-00349-3
對于大規模材料研究,需要根據原子之間的多體相互作用來描述勢能面 (PES) 的高效、線性標度的原子間勢 (IAP)。然而,如今大多數 IAP 都是為范圍很窄的化學物質定制的:通常是單一元素或最多不超過四到五種元素。
最近,PES 的機器學習已成為一種特別有前途的 IAP 開發方法。然而,還沒有研究證明在元素周期表和所有類型的晶體中有一個普遍適用的 IAP。
在過去的十年中,高效、可靠的電子結構代碼和高通量自動化框架的出現,導致了計算材料數據的大型聯邦數據庫的發展。在進行結構松弛過程中積累了大量的 PES 數據,即中間結構及其相應的能量、力和應力,但人們對這些數據關注較少。
「與蛋白質類似,我們需要了解材料的結構才能預測其特性。」 該研究的主要作者 Shyue Ping Ong說。「我們需要的是用于材料的 AlphaFold。」
AlphaFold 是谷歌 DeepMind 開發的一種預測蛋白質結構的人工智能算法。為了構建材料的等價物,Ong 和他的團隊將圖神經網絡與多體交互(many-body interactions)相結合,構建了一個深度學習架構,該架構可以在元素周期表的所有元素中通用、高精度地工作。
數學圖是晶體和分子的自然表示,節點和邊分別代表原子和它們之間的鍵。傳統的材料圖神經網絡模型已被證明對一般材料特性預測非常有效,但由于缺乏物理約束,因此不適合用作 IAP。
研究人員開發了一個明確包含多體相互作用的材料圖架構。模型開發的靈感來自傳統的 IAP,在這項工作中,將重點關注三體交互 (M3GNet) 的整合。
圖 1:多體圖勢和主要的計算塊示意圖。(來源:論文)
IAP 數據集的基準測試
作為初始基準,研究人員擇了 Ong 和同事先前生成的元素能量和力的多樣化 DFT 數據集,用于面心立方(fcc)鎳、fcc 銅、體心立方(bcc)鋰、bcc 鉬、金剛石硅和金剛石鍺。
表 1:M3GNet 模型與現有模型 EAM、MEAM、NNP 和 MTP 在單元素數據集上的誤差比較。(來源:論文)
從表 1 可以看出,M3GNet IAP 大大優于經典的多體勢;它們的性能也與基于本地環境的 ML-IAP 相當。應該注意的是,盡管 ML-IAP 可以實現比 M3GNet IAP 略小的能量和力誤差,但它在處理多元素化學方面的靈活性會大大降低,因為在 ML-IAP 中加入多種元素通常會導致組合爆炸回歸系數的數量和相應的數據要求。相比之下,M3GNet 架構將每個原子(節點)的元素信息表示為可學習的嵌入向量。這樣的框架很容易擴展到多組分化學。
與其他 GNN 一樣,M3GNet 框架能夠捕獲長距離的相互作用,而無需增加鍵構建的截止半徑。同時,與之前的 GNN 模型不同,M3GNet 架構仍然隨著鍵數的變化保持能量、力和應力的連續變化,這是 IAP 的關鍵要求。
元素周期表的通用 IAP
為了開發整個元素周期表的 IAP,該團隊使用了世界上最大的 DFT 晶體結構弛豫開放數據庫之一(Materials Project)。
圖 2:MPF.2021.2.8 數據集的分布。(來源:論文)
原則上,IAP 可以只訓練能量,或者能量和力的組合。在實踐中,僅在能量上訓練的 M3GNet IAP (M3GNet-E) 無法達到預測力或應力的合理精度,平均絕對誤差 (MAE) 甚至大于數據的平均絕對偏差。能量+力(M3GNet- EF)和能量+力+應力(M3GNet-EFS)訓練的 M3GNet 模型獲得了相對相似的能量和力 MAE,但 M3GNet- EFS 的應力 MAE 約為 M3GNet- EF 模型的一半。
對于涉及晶格變化的應用,例如結構松弛或 NpT 分子動力學模擬,準確的應力預測是必要的。研究結果表明,在模型訓練中包含所有三個屬性(能量、力和壓力)對于獲得實用的 IAP 至關重要。最終的 M3GNet-EFS IAP(以下簡稱為 M3GNet 模型)實現了每個原子 0.035eV 的平均值,能量、力和壓力測試 MAE 的平均值分別為 0.072eV??1 和 0.41GPa。
圖 3:與 DFT 計算相比,測試數據集上的模型預測。
在測試數據上,模型預測和 DFT ground truth 匹配得很好,正如 DFT 和模型預測之間線性擬合的高線性度和 R2 值所揭示的那樣。模型誤差的累積分布表明,50% 的數據的能量、力和應力誤差分別小于每個原子 0.01eV、0.033eV??1 和 0.042 GPa。M3GNet 計算的德拜溫度不太準確,這可歸因于 M3GNet 對剪切模量的預測相對較差;然而,體積模量預測是合理的。
然后將 M3GNet IAP 應用于模擬材料發現工作流程,其中最終的 DFT 結構是先驗未知的。M3GNet 松弛是對來自 3,140 種材料的測試數據集的初始結構進行的。M3GNet 松弛結構的能量計算產生每個原子 0.035 eV 的 MAE,并且 80% 的材料的誤差小于每個原子 0.028 eV。使用 M3GNet 松弛結構的誤差分布接近于所知道 DFT 最終結構的情況,這表明 M3GNet 潛力可以準確地幫助獲得正確的結構。一般來說,M3GNet 的松弛會迅速收斂。
圖 4:使用 M3GNet 弛豫晶體結構。(來源:論文)
新材料發現
M3GNet 能準確、快速地弛豫任意晶體結構,并預測它們的能量,使其成為大規模材料發現的理想選擇。研究人員生成了 31,664,858 個候選結構作為起點,使用 M3GNet IAP 松弛結構并計算到 Materials Project 凸包 (Ehull-m) 的符號能量距離;1,849,096 種材料的 Ehull-m 每個原子小于 0.01 eV。
作為對 M3GNet 在材料發現方面性能的進一步評估,研究人員計算了發現率,即從約 180 萬 Ehull-m小于 0.001 eV /原子的材料中均勻采樣 1000 個結構的 DFT 穩定材料(Ehull?dft ≤ 0)的比例。發現率保持接近 1.0,達到每個原子約 0.5 eV 的 Ehull-m 閾值,并且在每個原子 0.001 eV 的最嚴格閾值下保持在 0.31 的合理高值。
圖 5:對于 1000 個結構的均勻樣本,DFT 穩定比作為 Ehull?m 閾值的函數。(來源:論文)
對于這個材料集,研究人員還比較了有無 M3GNet 預松弛的 DFT 松弛時間成本。結果表明,沒有M3GNe t預松弛時,DFT 松弛時間成本約為 M3GNet 預松弛時的 3 倍。
圖 6:使用 M3GNet 預松弛的 DFT 加速。(來源:論文)
在今天 matterverse.ai 的 3100 萬種材料中,預計有超過 100 萬種材料具有潛在的穩定性。Ong 和他的團隊不僅打算大大擴展材料的數量,還打算大幅擴展 ML 預測屬性的數量,包括使用他們之前開發的多保真度方法的小數據量的高價值屬性。
除了結構松弛,M3GNet IAP 在材料動態模擬和性能預測方面也有廣泛的應用。
「例如,我們通常對鋰離子在鋰離子電池電極或電解質中的擴散速度很感興趣。擴散越快,電池充電或放電的速度就越快,」Ong 說。「我們已經證明,M3GNet IAP 可用于以高精度預測材料的鋰電導率。我們堅信 M3GNet 架構是一種變革性工具,可以極大地擴展我們探索新材料化學和結構的能力。」
為了推廣 M3GNet 的使用,該團隊已將該框架作為開源 Python 代碼發布在 Github 上。并計劃將 M3GNet IAP 作為工具集成到商業材料模擬包中。