利用AI“發(fā)現(xiàn)”新藥 為研發(fā)提速
發(fā)現(xiàn)是什么?在數(shù)學(xué)領(lǐng)域,存在著一個古老的問題,即究竟該說發(fā)現(xiàn)了新的數(shù)學(xué)方法、還是發(fā)明了新的數(shù)學(xué)方法。同樣的問題對于現(xiàn)代藥物發(fā)現(xiàn)也同樣適用。在使用人工智能來識別候選藥物時,這些新的候選藥物到底是被開發(fā)出來的,還是通過數(shù)學(xué)及科學(xué)方法在排查過濾之后自然遺留下來的?這些新的候選藥物,究竟是被發(fā)現(xiàn)的、還是被設(shè)計的?這也許是種沒有區(qū)別的區(qū)別。
2020年8月13日,保存在佛羅里達州好萊塢美國研究中心的生物科技公司Moderna COVID-19疫苗接種規(guī)程。
在本輪發(fā)現(xiàn)COVID-19疫苗的競賽中,人類已經(jīng)取得一系列進展,也由此產(chǎn)生了使用AI技術(shù)推動藥物發(fā)現(xiàn)的新路徑。例如,包括Benevolent AI在內(nèi)的眾多制藥企業(yè)已經(jīng)開始應(yīng)用AI從現(xiàn)有藥物中尋找候選藥物。在治療方面,Benevolent AI還公布了進入臨床驗證階段的6種分子。除了發(fā)現(xiàn)新藥之外,Innoplexus, Deargen, Gero, Cyclica, Healx, VantAI等公司也在利用AI技術(shù)為現(xiàn)有藥物發(fā)現(xiàn)新的用途。Insilico Medicine、Exscientia、SRI International、Iktos等公司正在全面使用AI發(fā)明新藥。世界各地的生物制藥公司都在采用AI策略以整合藥物發(fā)現(xiàn)過程。例如,Atomwise通過深度學(xué)習(xí)算法與彈性超級計算平臺預(yù)測潛在藥物,借此加快了小兒癌癥的分子發(fā)現(xiàn)過程,借此縮短可行療法的發(fā)現(xiàn)與開發(fā)周期。另外,MELLODY項目則是一套基于區(qū)塊鏈的解決方案,旨在開發(fā)出一套機器學(xué)習(xí)平臺,能夠從藥物發(fā)現(xiàn)流程中生成的數(shù)千種專用數(shù)據(jù)集開展學(xué)習(xí)。此項目一旦得到全面開發(fā),研究人員將能夠更輕松地確定哪些小分子對未來的研究最有幫助。而這一切,只是人們動用機器學(xué)習(xí)尋找新藥物以及推動醫(yī)藥領(lǐng)域新一輪變革的幾個側(cè)面。既然算法完全有能力進行藥物發(fā)現(xiàn),我們不禁要問,“藥物發(fā)現(xiàn)的真正含義是什么?”
結(jié)論就隱藏在我們的視線之下嗎?
要回答這個問題,我們需要更深入地研究人工智能在藥物發(fā)現(xiàn)及相關(guān)領(lǐng)域中的應(yīng)用情況,以了解這種新興技術(shù)的實際與商業(yè)意義。人工智能在藥物發(fā)現(xiàn)層面確實有著廣泛應(yīng)用,研究實驗室基于這些技術(shù)的早期工作成果,將其轉(zhuǎn)化為商業(yè)階段,并據(jù)此探索藥物開發(fā)與可學(xué)習(xí)算法之間的交集。在此過程中,英偉達公司甚至也參與其中。二者對接的重要載體之一就是計算,即在計算機中“測試”多種分子組合。另一種方法則是從潛在信息中發(fā)現(xiàn)洞見,這種方式在藥物發(fā)現(xiàn)之外的領(lǐng)域已經(jīng)比較普遍。大數(shù)據(jù)分析發(fā)展出一整套令人興奮的新技術(shù),能夠從現(xiàn)有數(shù)據(jù)中提取新的洞見。例如,《自然》雜志近期提出的一種方法,就能夠評估大型研究論文集中所提及的不同材料及其化學(xué)性質(zhì)之間的關(guān)系。在加州大學(xué)伯克利分校以及勞倫斯伯克利國家實驗室的研究當(dāng)中,研究人員不再直接查看這些材料的分子數(shù)據(jù),而是直接使用無監(jiān)督學(xué)習(xí)總結(jié)其中的材料學(xué)知識,借此發(fā)現(xiàn)與功能需求相匹配的材料選擇。在新藥發(fā)現(xiàn)方面,這種新知識就隱藏在視線之下的思路其實非常有趣。2017年,東京中央大學(xué)的一位研究人員在《自然》雜志上發(fā)表了另一項引人注目的技術(shù),其確定了能夠與基因及藥物相互作用且顯著重疊的一組基因與化合物。使用此項技術(shù),研究人員最終確定了兩種有希望的治療靶標基因,并將其蛋白質(zhì)產(chǎn)物確定為頗具希望的肝硬化候選藥物(一種常見疾病,但卻幾乎沒有好的治療方法)。
Big Data大數(shù)據(jù)
根據(jù)德勤最近發(fā)布的一份報告,藥物發(fā)現(xiàn)領(lǐng)域的人工智能應(yīng)用案例確實可以加快藥物發(fā)現(xiàn)周期并降低藥物發(fā)現(xiàn)成本。以往,從藥物研發(fā)階段到臨床前測試階段,整個周期往往需要五到六年。而再到實際上市則平均需要十到二十年時間,且每種藥物的發(fā)現(xiàn)及生產(chǎn)成本約為20億美元。但根據(jù)德勤公司的說法,在將新藥投放市場之后,預(yù)期的投資回報率還不足2%。如果能夠?qū)⑺幬锇l(fā)現(xiàn)的自動化程度提高,則制藥行業(yè)將擁有更加豐厚的利潤空間,從而降低新藥的上市成本。人工智能無疑是最具前景的新藥早期開發(fā)解決方案。根據(jù)德勤的報告,人工智能解決方案可以顯著縮短藥物發(fā)現(xiàn)階段的時間需求,將從研發(fā)到臨床前階段的周期降低至以往的十五分之一。這類項目需要挖掘大量數(shù)據(jù),而且必然涉及大量微調(diào),因此整個過程表現(xiàn)得更像是科學(xué)與發(fā)現(xiàn)——而非工程與設(shè)計。但也許真相實際上處于這兩者之間。
發(fā)現(xiàn)還是設(shè)計?
軟件要在人類基因組計劃等大規(guī)模項目中得到廣泛采用,企業(yè)全面使用AI技術(shù)進行藥物發(fā)現(xiàn)與研究,甚至說整體藥物發(fā)現(xiàn)流程都開始由AI軟件來驅(qū)動,這一切的實現(xiàn)時間可能并不太遙遠——大約是在2030年左右。屆時,從篩查到臨床前測試的周期將大大縮短,而能夠治療極端特定病理的新藥也將不再是“罕見的恩賜”。
那么讓我們回到主題——人工智能方法究竟是在真正發(fā)現(xiàn)新藥,還是通過優(yōu)化流程進行設(shè)計?也許答案應(yīng)該是發(fā)現(xiàn),而非設(shè)計。畢竟使用人工智能來發(fā)現(xiàn)藥物本身就是在“拼運氣”,雖然方法本身一直在不斷優(yōu)化,但要想獲得“正確”的解決方案仍然需要上佳的運氣。這就像不斷從工具箱里掏出螺絲起子進行嘗試,直到發(fā)現(xiàn)一只能夠與螺絲對得上。這很有效,但仍然跟發(fā)明前所未有的新螺絲起子不是一碼事。接下來,我們再問個問題:這是發(fā)明還是發(fā)現(xiàn)?可以看到,產(chǎn)生新的候選藥物的機器模型內(nèi)部仍然在從數(shù)據(jù)中學(xué)習(xí)、做出優(yōu)化并選擇適合的模式。所以,答案仍然是發(fā)現(xiàn)。但無論如何,這是個剛剛起步的領(lǐng)域,前景一片大好。我們期待著AI的力量在醫(yī)藥領(lǐng)域得以全面展現(xiàn)!