繼AlphaFold之后,DeepMind再放“大招”:AlphaGenome直擊疾病根源
谷歌今天一口氣放出兩個(gè)王炸,一個(gè)對(duì)標(biāo)Claude Code 和 Cursor的開源編程神器Gemini CLI,另一個(gè)就是AlphaGenome,專門用來(lái)精準(zhǔn)預(yù)測(cè)基因變異。
谷歌DeepMind宣布推出一款名為AlphaGenome的全新人工智能(AI)模型。該模型旨在更深入、更準(zhǔn)確地理解基因組,通過(guò)預(yù)測(cè)DNA序列的微小變化如何影響復(fù)雜的基因調(diào)控過(guò)程,為疾病研究、基因治療和基礎(chǔ)生命科學(xué)開辟了新的可能性。目前,AlphaGenome已通過(guò)API向非商業(yè)研究領(lǐng)域開放。
基因組是指導(dǎo)生命體生長(zhǎng)、發(fā)育、運(yùn)作和繁殖的終極“細(xì)胞說(shuō)明書”。這本由DNA構(gòu)成的“說(shuō)明書”中的細(xì)微變化,即基因變異,可能深刻影響我們對(duì)環(huán)境的反應(yīng),甚至決定我們對(duì)某些疾病的易感性。然而,破譯基因組指令在分子層面被讀取的全過(guò)程,以及一個(gè)微小的DNA變異究竟會(huì)引發(fā)何種連鎖反應(yīng),至今仍是生物學(xué)最大的謎團(tuán)之一。
為了攻克這一難題,谷歌DeepMind推出了AlphaGenome——一個(gè)全新的AI工具。它能夠更全面、更精確地預(yù)測(cè)人類DNA序列中的單個(gè)變異或突變?nèi)绾斡绊憦V泛的基因調(diào)控生物過(guò)程。這一突破得益于模型架構(gòu)的技術(shù)進(jìn)步,使其能夠處理超長(zhǎng)的DNA序列并輸出高分辨率的預(yù)測(cè)結(jié)果。
DeepMind相信,AlphaGenome將成為科學(xué)界的重要資源,幫助科學(xué)家更好地理解基因組功能、疾病生物學(xué),并最終推動(dòng)新的生物學(xué)發(fā)現(xiàn)和新療法的開發(fā)。
AlphaGenome如何工作?
AlphaGenome的核心工作流程是:接收一段長(zhǎng)達(dá)100萬(wàn)個(gè)堿基對(duì)的DNA序列作為輸入,并預(yù)測(cè)數(shù)千種表征其調(diào)控活性的分子特性。同時(shí),它還能通過(guò)對(duì)比突變序列和原始序列的預(yù)測(cè)結(jié)果,來(lái)評(píng)估特定基因變異或突變所帶來(lái)的影響。
其預(yù)測(cè)的特性范圍極廣,包括:
? 在不同細(xì)胞和組織中,基因的起始和終止位置。
? RNA的剪接方式。
? RNA的生成數(shù)量。
? DNA堿基的可及性、空間上的接近程度,以及是否與特定蛋白質(zhì)結(jié)合。
為了實(shí)現(xiàn)這些功能,AlphaGenome在來(lái)自ENCODE、GTEx、4D Nucleome和FANTOM5等大型公共數(shù)據(jù)庫(kù)的海量實(shí)驗(yàn)數(shù)據(jù)上進(jìn)行了訓(xùn)練。這些數(shù)據(jù)覆蓋了數(shù)百種人類和老鼠細(xì)胞及組織中重要的基因調(diào)控模式。
在技術(shù)架構(gòu)上,AlphaGenome采用了卷積層來(lái)初步檢測(cè)基因組序列中的短模式,再利用Transformer模型來(lái)整合序列上所有位置的信息,最終通過(guò)一系列輸出層將這些模式轉(zhuǎn)化為對(duì)不同分子特性的具體預(yù)測(cè)。
值得一提的是,該模型建立在DeepMind之前的基因組學(xué)模型Enformer之上,并與專注于解讀蛋白質(zhì)編碼區(qū)(僅占基因組2%)變異影響的AlphaMissense形成完美互補(bǔ)。AlphaGenome則專注于解讀占基因組98%的廣闊非編碼區(qū),這些區(qū)域?qū)φ{(diào)控基因活動(dòng)至關(guān)重要,并包含了大量與疾病相關(guān)的變異。
AlphaGenome的四大獨(dú)特優(yōu)勢(shì)
相較于現(xiàn)有的DNA序列模型,AlphaGenome展現(xiàn)出幾個(gè)顯著的特點(diǎn):
1. 長(zhǎng)序列上下文與高分辨率: 模型能分析長(zhǎng)達(dá)100萬(wàn)個(gè)DNA堿基對(duì)的序列,并以單個(gè)堿基的分辨率進(jìn)行預(yù)測(cè)。這對(duì)于捕捉遠(yuǎn)距離基因調(diào)控元件和精細(xì)的生物學(xué)細(xì)節(jié)至關(guān)重要。與以往模型需要在序列長(zhǎng)度和分辨率之間做出取舍不同,AlphaGenome在不顯著增加訓(xùn)練成本的情況下(訓(xùn)練時(shí)間僅為4小時(shí),計(jì)算預(yù)算為原Enformer模型的一半)實(shí)現(xiàn)了二者的統(tǒng)一。
2. 全面的多模態(tài)預(yù)測(cè): 通過(guò)解鎖對(duì)長(zhǎng)序列的高分辨率預(yù)測(cè),AlphaGenome能夠同時(shí)預(yù)測(cè)最多樣化的分子特性,為科學(xué)家提供關(guān)于基因調(diào)控復(fù)雜步驟的更全面信息。
3. 高效的變異評(píng)分: 模型可以在一秒內(nèi)高效評(píng)估一個(gè)基因變異對(duì)所有相關(guān)分子特性的影響。它通過(guò)對(duì)比突變前后的預(yù)測(cè)差異來(lái)實(shí)現(xiàn)這一點(diǎn),并為不同特性提供了高效的差異總結(jié)方法。
4. 新穎的剪接點(diǎn)建模: 許多罕見遺傳?。ㄈ缂顾栊约∥s癥)由RNA剪接錯(cuò)誤引起。AlphaGenome首次能夠直接從DNA序列中明確地模擬剪接點(diǎn)的位置和表達(dá)水平,為理解遺傳變異如何影響RNA剪接提供了更深刻的見解。
在多項(xiàng)基準(zhǔn)測(cè)試中,AlphaGenome均表現(xiàn)出業(yè)界頂尖(State-of-the-art)的性能。無(wú)論是預(yù)測(cè)DNA序列功能,還是評(píng)估變異影響,它在絕大多數(shù)評(píng)測(cè)中都優(yōu)于或持平于當(dāng)前最優(yōu)的專用模型,充分展示了其強(qiáng)大的通用性。
圖:AlphaGenome在選定的DNA序列任務(wù)和變異效應(yīng)任務(wù)上,相對(duì)于當(dāng)前最佳方法的性能提升百分比
研究潛力
AlphaGenome的通用性使其成為一個(gè)強(qiáng)大的科研工具,有望在多個(gè)領(lǐng)域發(fā)揮關(guān)鍵作用:
疾病理解: 通過(guò)更精確地預(yù)測(cè)遺傳變異的功能影響,幫助研究人員精確定位疾病的潛在原因,更好地解釋與特定性狀相關(guān)的變異,甚至發(fā)現(xiàn)新的治療靶點(diǎn)。尤其適用于研究那些效應(yīng)較大的罕見孟德爾疾病。
合成生物學(xué): 其預(yù)測(cè)能力可用于指導(dǎo)設(shè)計(jì)具有特定調(diào)控功能的合成DNA。例如,設(shè)計(jì)一段只在神經(jīng)細(xì)胞中激活某個(gè)基因,而在肌肉細(xì)胞中保持沉默的DNA序列。
基礎(chǔ)研究: 加速我們對(duì)基因組的理解,幫助繪制關(guān)鍵功能元件圖譜,并定義它們?cè)谡{(diào)控特定細(xì)胞類型功能中的確切作用。
當(dāng)前的局限性
盡管AlphaGenome是重要的一步,但DeepMind也坦誠(chéng)其存在局限性。例如,精確捕捉超過(guò)10萬(wàn)個(gè)堿基對(duì)的超遠(yuǎn)距離調(diào)控元件仍是挑戰(zhàn)。此外,該模型目前并未針對(duì)個(gè)人基因組預(yù)測(cè)進(jìn)行設(shè)計(jì)或驗(yàn)證,也不能完全描繪出遺傳變異如何導(dǎo)致復(fù)雜性狀或疾?。ㄟ@些通常涉及更廣泛的生物過(guò)程及環(huán)境因素)。
開放社區(qū)
為了推動(dòng)科學(xué)進(jìn)步,AlphaGenome現(xiàn)已通過(guò)AlphaGenome API向全球研究人員提供非商業(yè)性使用。DeepMind誠(chéng)邀學(xué)術(shù)界、工業(yè)界和政府組織的研究人員試用該模型,并通過(guò)社區(qū)論壇分享潛在用例、提出問(wèn)題或提供反饋。
DeepMind希望通過(guò)與更廣泛的科學(xué)界合作,共同深化對(duì)DNA序列中復(fù)雜細(xì)胞過(guò)程的理解,推動(dòng)基因組學(xué)和醫(yī)療健康的顛覆性新發(fā)現(xiàn)。
paper:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/
AlphaGenome API 使用:
https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/