探索自然本源!谷歌2022年終總結第七彈:「生化環材」如何吃上機器學習紅利?
隨著機器學習和量子計算的巨大進步,我們現在有了更強大的新工具,能夠以新的方式與各行業研究者合作,并從根本上加速突破性科學發現的進展。
本期谷歌年終總結的主題是「自然科學」,文章作者為谷歌研究院的杰出科學家John Platt,1989年博士畢業于加州理工大學。
自從八年前加入 Google Research 以來,我有幸成為一個天才研究人員的社區的一員,致力于應用前沿計算技術來推動應用科學的可能性,目前團隊正在探索物理和自然科學的課題,從幫助組織全世界的蛋白質和基因組信息以造福人們的生活,到利用量子計算機提高我們對宇宙本質的理解。
利用機器學習解開生物學之謎
生物學的非凡復雜性讓無數研究人員感到著迷,從探究大腦的奧秘、探究蛋白質的構造,再到編碼生命語言的基因組,谷歌一直與來自世界各地其他領先組織的科學家合作,應對連接組學(connectomics)、蛋白質功能預測和基因組學領域的重大挑戰,并使創新成果能夠為更廣泛的科學界所利用。
神經生物學
2018年,谷歌開發的一個應用是探索信息是如何通過斑馬魚大腦中的神經元通路傳播的,提供了對斑馬魚如何參與像群集這樣的社會行為的深入觀察結果。
論文鏈接:https://www.nature.com/articles/s41592-018-0049-4
通過與馬克斯 · 普朗克生物智能研究所(Max Planck Institute for Biology Intelligence)的研究人員合作,研究人員們用計算機重建了一部分斑馬魚大腦的3D 電子顯微鏡圖像。
這也是在利用成像和計算管道繪制小腦中的神經元回路方面取得的里程碑式的進展,也是連接組學領域的又一次進步。
這項工作涉及到的技術甚至可以應用到神經科學以外的領域,例如,為了解決處理大型的連接組學數據集的難題,谷歌的研究人員開發并發布了 TensorStore,一個開源的 C++ 和 Python 軟件庫,專門用于存儲和操作 n 維數據,在其他領域也適用于存儲大型數據集。
代碼鏈接:https://github.com/google/tensorstore
通過比較人類語言處理和自回歸深層語言模型(DLM) ,研究人員利用機器學習闡明了人類大腦是如何執行像語言這樣與眾不同的功能。
論文鏈接:https://www.nature.com/articles/s41593-022-01026-4
在這項研究中,谷歌與普林斯頓大學和紐約大學格羅斯曼醫學院的研究者合作,讓實驗參與者聽30分鐘的播客,同時使用皮層腦電圖記錄他們的大腦活動。
記錄結果表明,人類大腦和 DLM 共享處理語言的計算原理,包括連續的下一個單詞預測,依賴上下文嵌入,以及基于單詞匹配的post-onset suprise計算,即可以測量人類大腦對單詞的驚訝(surprise)程度,并將驚訝信號與 DLM 對單詞的預測程度相關聯。
這些結果為人類大腦中的語言處理提供了新的結論,并且表明 DLM 可以用來揭示語言的神經基礎的有價值的見解。
生物化學
機器學習還使得在理解生物序列方面取得了重大進展,研究人員利用深度學習的最新進展,從原始氨基酸序列中準確預測蛋白質功能。
論文鏈接:https://www.nature.com/articles/s41587-021-01179-w
谷歌還與歐洲分子生物學實驗室的歐洲生物信息研究所(EMBL-EBI)開展緊密合作,仔細評估模型的性能,并向公共蛋白質數據庫 UniProt、 Pfam/interPro 和 MGnify 添加了數以億計的功能標注。
論文鏈接:https://www.nature.com/articles/s41587-021-01179-w.epdf
人類對蛋白質數據庫的標注可能是一個艱苦而緩慢的過程,而谷歌提出的機器學習方法使得標注速度實現了一個巨大的飛躍。
例如,Pfam標注增加的數量比過去十年所有其他努力的總和還要多,全世界每年訪問這些數據庫的數百萬科學家現在可以利用該標注進行研究。
雖然人類基因組的第一稿于2003年公布,但由于測序技術的技術局限性,它并不完整。
2022年,Telomere-2-Telomere (T2T) 聯盟在解決這些先前無法獲得的區域(包括5個完整的染色體臂和近2億個新 DNA 序列堿基對)方面取得的顯著成就,這些區域對于人類生物學、進化和疾病的問題既有趣又重要。
谷歌的開源基因組變體caller,即DeepVariant是 T2T 聯盟使用的工具之一,以用于準備發布一個完整的30.55億堿基對的人類基因組序列。
論文鏈接:https://www.nature.com/articles/nbt.4235
T2T 聯盟也正在使用谷歌開源的方法 DeepConsensus,為 Pacific Biosciences 長期閱讀測序儀器提供設備上的錯誤糾正,在T2T對全面的泛基因組資源的最新研究中,可以代表人類遺傳多樣性的廣度。
論文鏈接:https://www.nature.com/articles/s41587-022-01435-7.epdf
量子計算在新物理發現中的應用
在促進科學發現上,量子計算仍處于初級階段,但其具有很大的潛力,所以谷歌正在探索提高量子計算能力的方法,以使量子在計算成為科學發現和突破的工具。
通過與來自世界各地的物理學家合作,研究人員開始使用現有的量子計算機來創建全新的物理實驗,其中一個量子實驗問題是:當傳感器測量一個物體時,需要用計算機處理來自傳感器的數據。
在傳統的處理過程中,需要將傳感器的數據轉換為經典信息(classical information)后再進行處理。
對于量子計算來說,可以直接處理來自傳感器的量子數據,將量子傳感器的數據直接提供給量子算法,而無需經過測量,相比傳統計算機會有更大的優勢。
論文鏈接:https://www.science.org/doi/10.1126/science.abn7293
在谷歌最近與多所大學的研究人員合作撰寫發表的一篇Science論文中,實驗結果表明,只要量子計算機與量子傳感器直接耦合并運行一個學習算法,量子計算可以從比經典計算少得多的實驗中提取信息。
即使在目前還不成熟的中等規模量子計算機上,「量子機器學習」也可以在數據集上產生指數級的優勢。
論文鏈接:https://arxiv.org/abs/2112.00778
由于實驗數據往往是科學發現的限制因素,量子機器學習算法有可能完全釋放出量子計算機的巨大威力,更強的是,這項工作的研究結果也適用于學習量子計算的輸出,如很難抽取的量子模擬輸出。
即使沒有量子機器學習,量子計算機的一個很有前景的應用是實驗性地探索那些無法觀察或模擬的量子系統。
2022年,Quantum AI 團隊利用這種方法觀察到了第一個使用超導量子比特處于束縛態的多個微波光子的實驗證據。
論文鏈接:https://www.nature.com/articles/s41586-022-05348-y
光子通常需要額外的非線性元素才能相互作用,谷歌的量子計算機對這些相互作用的模擬結果出乎研究人員的意料:本來以為這些束縛態的存在依賴于脆弱的條件,但實際上卻發現它們甚至對相對強烈的擾動都是穩健的。
鑒于谷歌在應用量子計算取得物理學突破方面取得的初步成功,研究人員對這項技術的可能性還抱有很大的希望,將使未來的突破性發現能夠產生與晶體管或全球定位系統的創造一樣重大的社會影響。
把量子計算作為一種科學工具是非常有前景的!