DeepMind曝新一代AlphaFold,預測準確率暴漲近10%!DNA和RNA的AlphaFold時刻來了
就在今天,DeepMind公布了AlphaFold最新進展——「AlphaFold-latest」。
根據DeepMind最新發布的技術報告,新一代的AlphaFold不僅僅能夠以更高的準確性處理和預測蛋白質的結構。
,時長01:32
它還能將相似的能力推廣到核酸、任意小分子配體等其他的生物分子結構上。
雖然新的AlphaFold還沒有完全開發完成,但是因為性能實在太好了,DeepMind忍不住要提前透露給大家看看。
報告地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/a-glimpse-of-the-next-generation-of-alphafold/alphafold_latest_oct2023.pdf
DeepMind稱,新版模型擴展的功能和性能提升可以加速生物醫學突破,為疾病通路、基因組學、生物可再生材料、植物免疫、潛在治療靶點、藥物設計機制提供各種全新的可能性。
AlphaFold開辟了生物學發展的新時代——「數字生物學」時代。
新一代AlphaFold提前劇透
具體來看看新版AlphaFold實現的新功能。
「AlphaFold-latest」目前還是一個預覽階段,開發還沒有完成,但在預測蛋白質結構之外的更廣泛的任務中的表現出了驚人的性能。
「AlphaFold-latest」是在2022年底的AlphaFold 2.3版本的基礎上搭建的,對于蛋白質結構的預測,特別是結合了抗體結構的類別,有著更好的性能。
對于構成核糖體等重要細胞組件的蛋白質-核酸復合物結構的預測,AlphaFold-latest的性能明顯強于其他模型。
對于RNA結構的預測,也比其他模型表現好,不過相較于人類專家參與的預測性能,還有進一步提高的空間。
對于復合藥物研發的關鍵部分——配體(Ligand),「AlphaFold-latest」在PoseBusters基準測試中也優于AutoDock Vina等經典模型。
而且還是在基線可以獲取「AlphaFold-latest」無法獲取的真實蛋白質結構信息下取得的測試結果。
而且對于許多涉及殘基修飾的的生物過程(例如蛋白質中的糖基化), 「AlphaFold-latest」可以預測生物分子中所表現的一系列特征的結構——例如共價結合的配體、糖基化和修飾殘基。
這一系列的成就表明了,使用AlphaFold的方法,可以對所有重要生物分子及其相互作用進行原子級精確結構預測!
AlphaFold開創「數字生物學」
自2020年發布以來,AlphaFold徹底改變了人類對蛋白質及其相互作用的理解方式。
在之后的幾年時間里,Google DeepMind和Isomorphic Labs一直在共同努力,開發出了更強大的AI模型,將預測范圍從蛋白質擴展到全方位的生物分子。
AlphaFold的新模型,能夠使得生物醫學的發展全面加速。
加速藥物發現
準確預測蛋白質配體結構對于藥物發現來說是非常有價值的工具,因為它可以幫助科學家識別和設計可能成為藥物的新分子。
當前的行業標準是使用「對接方法(docking methods)」來確定配體和蛋白質之間的相互作用。
這些方法需要嚴格的參考蛋白質結構和配體結合的可能位置。
「AlphaFold-latest」超越了現有的最佳對接方法,為蛋白質-配體結構預測樹立了新的標桿。
無需參考蛋白質結構或配體口袋的位置,從而可以預測之前尚未進行結構表征的全新蛋白質。
它還可以對所有原子的位置進行聯合建模,使其能夠代表蛋白質和核酸在與其他分子相互作用時的全部固有靈活性——這是使用對接方法不可能實現的。
例如,以下是最近發表的三個與治療相關的案例,其中最新模型的預測結構(以顏色高亮部分)與實驗確定的結構(灰色部分)非常匹配:
- PORCN:一種臨床階段的抗癌分子與結合到目標之上。
- KRAS:與重要癌癥靶標的共價配體(分子膠)的三元復合物。
- PI5P4Kγ:選擇性脂質激酶的變構抑制劑,能夠影響多種疾病嗎,包括癌癥和免疫性疾病。
Isomorphic Labs正在將下一代AlphaFold模型應用于治療藥物設計,幫助快速準確地表征對治療疾病很重要的多種類型的大分子結構。
開拓生物學新認知
通過解鎖蛋白質和配體結構以及核酸和含有翻譯后修飾的結構的建模,模型為檢查基礎生物學提供了更快速、更準確的工具。
DeepMind舉了一個例子:CasLambda結構。
這是一個把crRNA和DNA結合的結構,是CRISPR家族的一部分。
CasLambda具有CRISPR-Cas9系統的基因組編輯能力,俗稱「基因剪刀」,研究人員可以用它來改變動物、植物和微生物的DNA。
CasLambda較小的尺寸可以更有效地編輯基因。
最新版本的 AlphaFold 能夠對此類復雜系統進行建模,這向我們表明人工智能可以幫助我們更好地理解這些類型的機制,并加速它們在治療應用中的使用。
AlphaFold的技術報告中提供了更多示例。
推進科學探索
AlphaFold在性能上的巨大提升,表明AI能夠極大增強人類對構成人體的分子機制,以及更廣泛的自然世界的科學理解。
AlphaFold已經促進了世界各地的重大科學進步。
下一代AlphaFold能夠使得人類以「數字化」的速度對生物醫學領域進行科學探索。
技術報告細節
DeepMind公布的技術報告,更加詳細地呈現了實現這些突破的技術和具體細節。
盡管這位網友表現出些許失望,——「僅此而已,沒有模型、論文或代碼」,但我們還是能從DeepMind官方給出的技術報告中發現一些細致而有趣的地方。
模型輸入和輸出
AlphaFold-latest將生物組裝的描述作為輸入,包括聚合物的序列和配體的SMILES序列,以及可選的共價鍵、配體的序列位置,并輸出對每個重原子的3D位置的預測。
用于訓練模型的所有實驗結構均來自PDB,發布日期截至2021-09-30。
模型輸入的token數取決于所能負擔的硬件和時間成本。這里,DeepMind在使用了5120個token的復合體上評估系統性能,但該系統能夠在具有大量內存的加速器上運行更大的復合體。
每個輸出結構都帶有每個原子、每個標記對和聚合結構級置信度。此外,結構中的每個實體以及結構內實體之間的每個接口都具有關聯的置信度。
對于結果的詮釋
幾天前,曾有網友發問,「RNA什么時候會來到它的AlphaFold時刻?」,沒想到他的愿望這么快就實現了。
那么,最新的AlphaFold究竟在多大程度上滿足了它的愿望呢?
AlphaFold-latest能夠單獨或與蛋白質合作預測核酸(DNA或RNA)結構。
上圖展示了將AlphaFold-latest與最近用于一般蛋白質核酸預測的基于深度學習的系統RoseTTAFold2NA(RF2NA)進行比較的結果。
上圖評估了AlphaFold在目前公開可用的CASP15 RNA靶標上的最新性能。AlphaFold-latest優于其他自動化方法,但表現略差于目前最好的由人工專家干預的系統。
——看起來還不錯,好險,專家保住了自己的地位。
下面我們來看一下技術報告中的其他方面:
論文在兩個數據集上評估了配體的準確性。首先研究了PoseBusters基準集,這是來自PDB的428種配體蛋白質結構的精選集合。
上圖顯示了三個示例,其中AlphaFold-latest實現了準確的預測,但對接工具Vina和Gold卻沒有。
這里確認了先前觀察到的嘗試使用經典對接工具對接AlphaFold 2.3蛋白質結構的性能不佳;相反,在聯合預測蛋白質和配體位置時,AlphaFold-latest可以對這些結合結構做出更好的預測。
上圖比較了PoseBusters工具返回的各種質量檢查。請注意,AlphaFold-latest執行的是結構預測,而不是剛性對接,因此它可能會生成具有周圍環境中局部變化的預測,以適應配體。
因此,通過檢查預測配體與其預測上下文之間的沖突,而不是預測的配體和真實蛋白之間的沖突,來評估AlphaFold最新預測的分子間合理性更合適。
上圖比較了AlphaFold-latest和AlphaFold 2.3在低同源性近期PDB評估集上的性能。
為了與AlphaFold 2.3進行比較,這里僅限于最多具有2560個蛋白質殘基、最多20個蛋白質鏈和鏈中大于3個殘基的復合物。
在最近的低同源性PDB評估集上,AlphaFold-latest明顯優于AlphaFold 2.3,對于抗體-抗原界面預測的改進更大。
上圖表明,對于大型復合物,AlphaFold-latest單體蛋白的預測準確度仍然很高。
另外,AlphaFold-latest還可以預測含有共價修飾的結構。共價修飾在AlphaFold的輸入中以與PDB中表示的方式相同,即它們可以定義為具有非標準CCD代碼的殘基,也可以通過鍵表中的其他條目來定義。
網友熱議
網友紛紛期待AlphaFold在醫學和制藥領域會帶來更多的奇跡。
「AlphaFold使用了100,000 petaFLOP,而ChatGPT 4使用了21,000,000,000 petaFLOP。這意味著AlphaFold使用的計算量是 GPT 4 使用的0.0005%。」
這。。。多少有點嘲諷的意思?
AlphaFold 的升級被圍繞新 AI 規則的激烈辯論所掩蓋。但是,為人類健康和繁榮的未來做出貢獻的東西確實是非凡的,應該得到相應的慶祝
大約五年前,DeepMind推出了AlphaFold,一個可以準確預測人體內許多蛋白質結構的人工智能系統。從那時起,DeepMind對系統進行了一系列改進。
到了今天,最新版本的AlphaFold可以對蛋白質數據庫中的幾乎所有分子生成預測。
實驗仍在繼續。