速度暴漲1000倍!擴(kuò)散模型預(yù)測材料“煉金”過程,體系越復(fù)雜加速度越大
用擴(kuò)散模型預(yù)測化學(xué)反應(yīng),速度直接暴漲1000倍!
原本需要用計(jì)算機(jī)硬算幾小時(shí)甚至一天,現(xiàn)在單個(gè)GPU用6秒鐘就能搞定。
這是MIT和康奈爾大學(xué)聯(lián)合搞出來的一項(xiàng)新研究,用擴(kuò)散模型來預(yù)測化學(xué)反應(yīng)中最關(guān)鍵的過渡態(tài)結(jié)構(gòu),不僅計(jì)算速度提升1000倍,結(jié)果也竟然意想不到得準(zhǔn)確,相關(guān)研究工作發(fā)表在Nature Computational Science上:
其中,麻省理工學(xué)院的段辰儒博士是第一加通訊作者。此外,康奈爾大學(xué)博士生杜沅豈、麻省理工學(xué)院博士生賈皓鈞以及麻省理工學(xué)院Heather Kulik教授為該論文的共同作者,目前研究已經(jīng)被MIT News報(bào)道。
要知道,預(yù)測反應(yīng)中的過渡態(tài)結(jié)構(gòu)遠(yuǎn)非想象中簡單——
由于能量較高,它存在的時(shí)間往往只有飛秒級(jí),即秒的千萬億分之一。
因此,目前還沒有一臺(tái)實(shí)驗(yàn)設(shè)備能直接觀察它,只能通過量子化學(xué)計(jì)算的方式來預(yù)測,計(jì)算量少則幾小時(shí),多則數(shù)天。
如今用擴(kuò)散模型就能得到幾乎一樣的預(yù)測結(jié)果,這究竟是怎么做到的?
進(jìn)一步地,用AI預(yù)測化學(xué)反應(yīng),又究竟可以被應(yīng)用在哪些領(lǐng)域、起到哪些作用?
我們和論文的其中兩位作者,來自MIT的段辰儒和康奈爾大學(xué)的杜沅豈聊了聊,探討了一下這項(xiàng)研究具體的原理、背后潛在的應(yīng)用方向以及關(guān)于AI for Science的一些思考。
如何用擴(kuò)散模型預(yù)測化學(xué)反應(yīng)?
首先,需要理解為啥過渡態(tài)是研究化學(xué)反應(yīng)的關(guān)鍵。
自遠(yuǎn)古的“煉金術(shù)”以來,化學(xué)一直是一門了解和控制物質(zhì)之間相互作用的學(xué)科,化學(xué)反應(yīng)又是其中非常核心的概念。
通常來說,一個(gè)化學(xué)反應(yīng)由三個(gè)東西組成:反應(yīng)物、生成物和過渡態(tài)結(jié)構(gòu)。
反應(yīng)物和生成物大家都很熟悉了(如氫氧生成水),但實(shí)際上,二者之間的過渡態(tài)才是解釋化學(xué)反應(yīng)的關(guān)鍵——
作為化學(xué)反應(yīng)過程中能量最高的狀態(tài),過渡態(tài)既能用來理解化學(xué)反應(yīng)的機(jī)理、也能估算反應(yīng)速率和能量。
一言以蔽之,要想真正搞懂、設(shè)計(jì)、優(yōu)化并調(diào)控一個(gè)化學(xué)反應(yīng),就必須從過渡態(tài)結(jié)構(gòu)下手。
所以,過渡態(tài)結(jié)構(gòu)究竟要如何研究,又為什么需要用AI來做預(yù)測?
研究過渡態(tài)結(jié)構(gòu),不能只用分子結(jié)構(gòu)來分析,而要更進(jìn)一步研究它的3D構(gòu)象。
分子結(jié)構(gòu),指為了便于理解化學(xué)反應(yīng),會(huì)人為構(gòu)造出單雙鍵這樣的概念,并用鍵合關(guān)系、原子種類和數(shù)量來表示化學(xué)反應(yīng)。
但要想真正精確計(jì)算化學(xué)反應(yīng)的速率和能量,就必須要研究原子在3D空間中的位置關(guān)系(用3D坐標(biāo)表示),即3D構(gòu)象。只有對(duì)比原子在3D空間中的位置關(guān)系,才能進(jìn)行量化分析,從而預(yù)測反應(yīng)發(fā)生的過程。
然而,相比反應(yīng)物和生成物,過渡態(tài)存在的時(shí)間非常短,甚至只有飛秒量級(jí)。
受限于實(shí)驗(yàn)設(shè)備精度,過渡態(tài)結(jié)構(gòu)無法用肉眼直接觀察,此前只能通過量子力學(xué)方法——薛定諤方程來計(jì)算。
薛定諤方程,量子力學(xué)中的基本方程,描述粒子在某段時(shí)間內(nèi)的狀態(tài)如何變化。
BUT,手搓薛定諤方程計(jì)算量巨大,一個(gè)苯環(huán)的化學(xué)反應(yīng)可能都需要算上一周時(shí)間,尤其隨著體系增大(原子數(shù)量變多等),計(jì)算量更是呈現(xiàn)出指數(shù)級(jí)增長的趨勢。
雖然后來出現(xiàn)了密度泛函理論(DFT)等近似方法加速計(jì)算,但算起來還是很慢、有時(shí)候甚至因?yàn)槭諗啃缘膯栴}導(dǎo)致計(jì)算不出來,“成本很昂貴,出錯(cuò)率還高”。
為此,來自MIT和康奈爾大學(xué)的研究人員,想到用AI的方法來直接預(yù)測過渡態(tài)結(jié)構(gòu),以節(jié)省計(jì)算量。
之所以選用擴(kuò)散模型,據(jù)杜沅豈介紹,主要有三點(diǎn)原因:
其一,生成效果好。相比GAN,VAE等模型,擴(kuò)散模型算是生成模型中效果較好的架構(gòu)。
其二,更適合3D構(gòu)象。相比分子結(jié)構(gòu)是離散的數(shù)據(jù),3D構(gòu)象是一個(gè)連續(xù)的數(shù)據(jù),且結(jié)構(gòu)上涉及(平移、旋轉(zhuǎn)和置換)對(duì)稱性。
對(duì)于離散數(shù)據(jù)而言,基于機(jī)器學(xué)習(xí)+搜索的模型會(huì)比現(xiàn)有的(離散)擴(kuò)散模型效果更好;但對(duì)于3D構(gòu)象而言,無論是其對(duì)稱性還是用連續(xù)數(shù)據(jù)表示,反而更適合用擴(kuò)散模型生成。
其三,擴(kuò)散模型自身的靈活性,使得它可以在生成時(shí),保留一部分原有設(shè)計(jì)、填補(bǔ)剩余的部分,也使得它對(duì)于設(shè)計(jì)新的化學(xué)反應(yīng)更有幫助。
具體到架構(gòu)設(shè)計(jì)上,作者們將等變GNN融入到擴(kuò)散模型中,設(shè)計(jì)了一種名叫OA-ReactDiff的結(jié)構(gòu),其中等變GNN能很好地處理并保留數(shù)據(jù)的對(duì)稱性。
所以,OA-ReactDiff的效果究竟如何,或者說相比其他AI最大的亮點(diǎn)究竟是?
段辰儒表示,這項(xiàng)研究最核心的亮點(diǎn)主要有兩個(gè)。
一個(gè)是預(yù)測準(zhǔn)確性上,OA-ReactDiff的準(zhǔn)確性超過了之前的一系列AI模型。
作者們選用了Transition1x作為數(shù)據(jù)集,這個(gè)數(shù)據(jù)集包含10073個(gè)化學(xué)反應(yīng),每個(gè)化學(xué)反應(yīng)分別包含反應(yīng)物、生成物和經(jīng)過量子化學(xué)計(jì)算的過渡態(tài)結(jié)構(gòu),整個(gè)體系不超過23個(gè)原子。
這其中的9000個(gè)化學(xué)反應(yīng)用作模型訓(xùn)練,1073個(gè)作為測試集,最終實(shí)現(xiàn)了0.183?(1?=0.1納米)的平均均方根偏差和0.076?的中位數(shù)均方根偏差。
相比于其他機(jī)器學(xué)習(xí)方法如PSI-based和NeuralNEB,OA-ReactDiff準(zhǔn)確性都要更高。
與此同時(shí),在沒有刻意訓(xùn)練的情況下,OA-ReactDiff在更大的體系上也表現(xiàn)出了良好的預(yù)測能力。
另一個(gè)是預(yù)測速度上,OA-ReactDiff相比現(xiàn)有的計(jì)算方法,至少能快上1000倍。
這是因?yàn)椋久芏确汉碚撍惴ǖ臅r(shí)間復(fù)雜度在O(N3)級(jí)別,但現(xiàn)在基于OA-ReactDiff的方法,直接將時(shí)間復(fù)雜度降低到O(N2)。
反映到現(xiàn)有數(shù)據(jù)集上,原本需要計(jì)算幾小時(shí)甚至一天的化學(xué)反應(yīng),現(xiàn)在用OA-ReactDiff,只需要6秒鐘就可以搞定。
進(jìn)一步地,體系越大的化學(xué)反應(yīng),用擴(kuò)散模型做預(yù)測的提速效果還會(huì)越好。
不過,這項(xiàng)研究究竟能被用在哪些地方呢?
我們也問了問兩位作者關(guān)于這項(xiàng)研究潛在的應(yīng)用、以及對(duì)于“用AI搞科學(xué)研究”這件事本身的看法。
可用于燃料藥物輔助設(shè)計(jì)
對(duì)于研究本身,段辰儒認(rèn)為主要有三個(gè)方面的作用。
最直觀的一方面,自然是催化劑的設(shè)計(jì)了。
這也是研究人員接下來想要繼續(xù)探索的方向,即繼續(xù)擴(kuò)展模型本身,加入催化劑等條件,并用AI來預(yù)測過渡態(tài)。
而在研究催化劑的基礎(chǔ)上,又能進(jìn)一步輔助燃料設(shè)計(jì)和新藥開發(fā)。
以燃料為例,雖然涉及的燃燒反應(yīng)體系往往不大,但發(fā)生反應(yīng)的過程卻極易被環(huán)境和條件影響。
因此,如果用AI來輔助預(yù)測化學(xué)反應(yīng)的過程,或許能更快基于不同燃料發(fā)生反應(yīng)的環(huán)境條件來預(yù)測效果。
這樣一來,對(duì)于能源行業(yè)甚至航天行業(yè)也會(huì)產(chǎn)生進(jìn)一步的影響。
最后,就是模擬自然界化學(xué)反應(yīng),來幫助開發(fā)新的理論研究。
像是模擬地球生命早期可能發(fā)生的反應(yīng)、或是探索行星氣體之間的相互作用等,通過用AI預(yù)測過渡態(tài),也可能更快發(fā)現(xiàn)或驗(yàn)證新的理論,探究生命起源的意義。
聽起來,AI似乎已經(jīng)給化學(xué)研究帶來了不少新的突破。
結(jié)合這段時(shí)間AI在生物制藥(AlphaFold2)、以及材料學(xué)(GNoME)上取得的種種突破,對(duì)于生化環(huán)材這一系列理論學(xué)科而言,AI是否已經(jīng)成為了新的技術(shù)主流路線?
更激進(jìn)一點(diǎn)來說,對(duì)化學(xué)本身而言,未來AI是否會(huì)取代一部分現(xiàn)有的量子化學(xué)研究?
對(duì)此,兩位作者均持有相同的觀點(diǎn),即AI(至少就監(jiān)督模型而言),現(xiàn)階段對(duì)于這些學(xué)科的影響力依舊是一種工具,而并非一條全新的技術(shù)路徑。
這是因?yàn)椋壳吧h(huán)材任何一個(gè)學(xué)科借助AI輔助研究的前提,依舊是已經(jīng)有了一定的理論,而AI作為工具起到的是“錦上添花”的作用。
換言之,AI與這些學(xué)科的其他研究方法依舊是共存關(guān)系,并不會(huì)出現(xiàn)“替代”的情況。段辰儒對(duì)此做了一個(gè)有意思的比喻:
如果化學(xué)學(xué)科好比一個(gè)夾饃,機(jī)器學(xué)習(xí)方法和各種現(xiàn)有的化學(xué)方法,就是不同的食材。那夾饃里面可以夾肉,也可以夾其他的菜。
以近期大火的Google Deepmind研究GNoME為例,就是一個(gè)很好的“AI當(dāng)工具人”的例子。
杜沅豈認(rèn)為,如果從ML專業(yè)的角度去看待GNoME中涉及的AI方法,會(huì)發(fā)現(xiàn)它其實(shí)并不是最新的東西,像是其中涉及的幾何深度學(xué)習(xí),已經(jīng)是這幾年比較流行的研究方向。
但如果從材料學(xué)科的角度去看,這樣大規(guī)模、高通量的穩(wěn)定材料搜索,肯定還是有相當(dāng)?shù)目茖W(xué)意義在其中:
AI for Science本身,其實(shí)更側(cè)重的是“Scientific Discovery”,它更大的意義在于科學(xué)發(fā)現(xiàn)。
而段辰儒認(rèn)為,從應(yīng)用的角度而言,無論是材料發(fā)現(xiàn),還是預(yù)測化學(xué)反應(yīng),最終用AI去加速落地的宗旨依舊是“有用”二字:
正如這屆NeurIPS AI4Science的workshop主題一樣,“從理論到實(shí)踐“。我認(rèn)為這是AI4Science后面十年的必經(jīng)之路,也是AI4Science的中期使命。
像OA-ReactDiff接下來的目標(biāo)是找到一個(gè)可以應(yīng)用的路徑一樣,GNoME發(fā)現(xiàn)220萬穩(wěn)定材料也只是應(yīng)用的一個(gè)起點(diǎn),接下來還需要很多的標(biāo)準(zhǔn)(如導(dǎo)熱、導(dǎo)電等),才能讓化學(xué)和材料真正在某一行業(yè)“發(fā)光發(fā)熱”。