生成的分子幾乎 100% 有效,用于逆向分子設(shè)計(jì)的引導(dǎo)擴(kuò)散模型
「從頭分子設(shè)計(jì)」是材料科學(xué)的「圣杯」。生成深度學(xué)習(xí)的引入極大地推進(jìn)了這一方向,但分子發(fā)現(xiàn)仍然具有挑戰(zhàn)性,而且往往效率低下。
以色列理工學(xué)院(Technion-Israel Institute of Technology)和意大利威尼斯大學(xué)(University Ca’ Foscari of Venice)的研究團(tuán)隊(duì),提出一種用于逆向分子設(shè)計(jì)的引導(dǎo)擴(kuò)散模型:GaUDI,它結(jié)合了用于屬性預(yù)測(cè)的等變圖神經(jīng)網(wǎng)絡(luò)和生成擴(kuò)散模型。
研究人員通過將單目標(biāo)和多目標(biāo)任務(wù)應(yīng)用于生成的 475,000 個(gè)多環(huán)芳香族系統(tǒng)數(shù)據(jù)集,證明了 GaUDI 在設(shè)計(jì)有機(jī)電子應(yīng)用分子方面的有效性。GaUDI 展示了改進(jìn)的條件設(shè)計(jì),生成具有最佳特性的分子,甚至超越原始分布,提出了比數(shù)據(jù)集中的分子更好的分子。除了逐點(diǎn)目標(biāo)之外,GaUDI 還可以引導(dǎo)至開放式目標(biāo)(例如最小值或最大值),并且在所有情況下,生成的分子的有效性都接近 100%。
該研究以「Guided diffusion for inverse molecular design」為題,于 2023 年 10 月 5 日發(fā)布在《Nature Computational Science》上。
分子設(shè)計(jì)已有方法及其挑戰(zhàn)
新技術(shù)的發(fā)展往往取決于獲取新功能分子的能力。然而,分子發(fā)現(xiàn)對(duì)于化學(xué)家和材料科學(xué)家來(lái)說仍然是一個(gè)開放的挑戰(zhàn),因?yàn)楹茈y準(zhǔn)確地模擬分子和材料的性質(zhì)。這通常會(huì)因滿足多種需求而加劇,這些需求有時(shí)可能是矛盾的,甚至是相互排斥的,例如,需要催化劑既穩(wěn)定又活躍。因此,關(guān)鍵是找到多種分子特性之間的最佳權(quán)衡,以便給定的分子可以提供所需的功能。
找到這個(gè)最佳點(diǎn),首先需要確定分子結(jié)構(gòu)與其各種特性之間的關(guān)系。為此,傳統(tǒng)的分子設(shè)計(jì)方法依賴于手動(dòng)構(gòu)建的啟發(fā)式方法和化學(xué)直覺。除了緩慢和艱巨之外,這些通常僅限于在較小的化學(xué)空間內(nèi)相關(guān)的相對(duì)簡(jiǎn)單的結(jié)構(gòu)-性質(zhì)關(guān)系。
近年來(lái),生成模型將這一化學(xué)挑戰(zhàn)表述為逆向設(shè)計(jì)問題,已作為替代方法被引入,并已成為識(shí)別各種應(yīng)用的新候選結(jié)構(gòu)的日益強(qiáng)大的工具。
擴(kuò)散模型已成為許多生成任務(wù)的主要方法,例如圖像、視頻和文本生成。擴(kuò)散模型在化學(xué)領(lǐng)域也顯示出了巨大的前景。然而,擴(kuò)散模型的全部功能尚未得到充分利用,因?yàn)檫@仍然是一個(gè)探索最少的領(lǐng)域。此外,現(xiàn)有的也執(zhí)行條件生成的擴(kuò)散模型使用所謂的標(biāo)準(zhǔn)方法,這很難學(xué)習(xí)條件分布。它們還僅限于逐點(diǎn)目標(biāo),必須重新訓(xùn)練以添加新屬性,并且無(wú)法在不同數(shù)據(jù)集上訓(xùn)練生成器和預(yù)測(cè)器。引導(dǎo)擴(kuò)散模型從條件分布中采樣的能力尚未在化學(xué)環(huán)境中得到充分測(cè)試。
GaUDI 用于生成設(shè)計(jì)具有目標(biāo)特性的分子
在此,研究人員通過設(shè)計(jì)和實(shí)現(xiàn)引導(dǎo)擴(kuò)散模型 GaUDI 來(lái)彌補(bǔ)這一差距,用于生成設(shè)計(jì)具有目標(biāo)特性的分子。
研究人員使用兩個(gè)預(yù)訓(xùn)練模型來(lái)設(shè)計(jì)分子:第一個(gè)是經(jīng)過訓(xùn)練的生成擴(kuò)散模型,用于根據(jù)給定的數(shù)據(jù)分布生成無(wú)條件樣本,第二個(gè)是經(jīng)過訓(xùn)練的預(yù)測(cè)模型,用于預(yù)測(cè)分子特性。
與標(biāo)準(zhǔn)擴(kuò)散采樣一樣,擴(kuò)散模型從一些易于處理的噪聲源中采樣,然后迭代地對(duì)信號(hào)進(jìn)行去噪;然而,與標(biāo)準(zhǔn)無(wú)條件模型相比,在 GaUDI 中,生成模型的中間輸出被饋送到預(yù)測(cè)模型,該模型預(yù)測(cè)一組預(yù)定義的屬性。然后,通過在每次迭代中添加校正項(xiàng),使用這些屬性的目標(biāo)函數(shù)的梯度來(lái)指導(dǎo)采樣過程。通過這種方式,擴(kuò)散生成偏向于具有低目標(biāo)函數(shù)值(即最接近目標(biāo))的分子,這個(gè)過程相當(dāng)于從具有幾乎任意復(fù)雜條件的條件分布中采樣。
圖 1:生成流程。(來(lái)源:論文)
研究展示了 GaUDI 在多環(huán)芳香族系統(tǒng) (PAS) 用例中的性能,PAS 是由不同大小和原子組成的多個(gè)芳香環(huán)構(gòu)成的分子。多環(huán)芳香族體系占已知分子的三分之二,是有機(jī)電子學(xué)的基石,因?yàn)樗鼈儤?gòu)成了絕大多數(shù)有機(jī)半導(dǎo)體。因此,具有特定性能的新型 PAS 對(duì)于有機(jī)發(fā)光二極管、場(chǎng)效應(yīng)晶體管、光伏和其他光電子學(xué)等先進(jìn)技術(shù)至關(guān)重要。
在新生成的 475,000 PAS 數(shù)據(jù)集上進(jìn)行訓(xùn)練后,GaUDI 在單目標(biāo)生成任務(wù)和多目標(biāo)生成任務(wù)中,無(wú)論是在有效性還是在平均誤差方面都優(yōu)于其他領(lǐng)先的擴(kuò)散模型。GaUDI 提供了具有最佳特性的新型分子,甚至超出了原始數(shù)據(jù)集的分布。
圖 2:具有高 HOMO– LUMO(HLG)值的 PAS 的引導(dǎo)設(shè)計(jì)。(來(lái)源:論文)
此外,當(dāng)與環(huán)圖 (Graph of Rings,GOR) 表示法一起使用時(shí),GaUDI 生成的分子幾乎 100% 都是有效的、新穎的和獨(dú)特的。
表 1:無(wú)引導(dǎo)生成的性能。(來(lái)源:論文)
此外,與許多現(xiàn)有方法相反,GaUDI 提供了高目標(biāo)函數(shù)多功能性,并且可以處理單個(gè)或多個(gè)屬性的任何可微目標(biāo)函數(shù),包括開放式目標(biāo),例如,即使在先驗(yàn)未知的情況下,也可以找到目標(biāo)屬性的最小/最大值。
在該研究中,研究人員利用這一特征對(duì)通過廉價(jià)計(jì)算方法獲得的數(shù)據(jù)進(jìn)行 GaUDI 訓(xùn)練,盡管數(shù)值不同,但該方法捕獲相同的結(jié)構(gòu)-性質(zhì)趨勢(shì)。
圖 3:窄帶隙分子的引導(dǎo)設(shè)計(jì)。(來(lái)源:論文)
GaUDI 能夠提出具有所需特性的新分子,甚至超出初始訓(xùn)練集中的特性,有助于加速許多感興趣領(lǐng)域的分子設(shè)計(jì)和發(fā)現(xiàn),包括但不限于有機(jī)電子學(xué)和光電子學(xué)。
未來(lái)的方向包括應(yīng)用 GaUDI 設(shè)計(jì)功能化 PAS 和 peri-condensed PAS。與此同時(shí),研究人員還在探索一種替代方法,其中 GaUDI 將給定的子結(jié)構(gòu)完善為具有目標(biāo)特性的最終分子。
論文鏈接:https://www.nature.com/articles/s43588-023-00532-0