蛋白質結構預測/功能注釋/交互識別/按需設計,中國海洋大學張樹剛團隊直擊蛋白質智能計算核心任務 原創
蛋白質作為生命活動的主要承擔者,在人體生理功能中扮演關鍵角色。然而傳統研究面臨結構解析成本高昂、功能注釋嚴重滯后、新型蛋白質設計效率低下等挑戰。近年來,生命科學對蛋白質復雜特性解析的需求日益迫切,大數據、深度學習、多模態計算等技術的突破性發展,為構建蛋白質智能計算體系提供了全新的發展契機。蛋白質智能計算體系的構建,使得蛋白質在大規模功能注釋、交互預測及三維結構建模等領域取得顯著成果,為藥物發現與生命系統模擬提供了全新技術路徑。
在 2025 北京智源大會上,中國海洋大學計算機學院的張樹剛副教授在「AI+理工&醫學」專題論壇中,以「蛋白智能計算體系構建及其應用」為題,從蛋白智能計算體系的核心價值出發,系統闡述了蛋白質結構預測、功能注釋、交互識別及全新設計四大核心任務的技術突破,并重點介紹了團隊相關研究成果。
張樹剛副教授演講現場
HyperAI 超神經在不違原意的前提下,對張樹剛副教授的深度分享進行了整理匯總,以下為演講實錄。
蛋白智能計算體系概述:AI 驅動的生命科學革命
在生命科學研究中,蛋白質的重要性不言而喻。它不僅是催化生物化學反應的酶,還是傳遞信號的信使、構成機體的結構基礎,更是免疫系統抵御外敵的「武器」。然而,傳統研究方法在面對蛋白質的復雜特性時,顯得力不從心。結構解析成本高昂、功能注釋嚴重滯后、蛋白質設計成功率低等問題成為了重要挑戰。
AI 技術的引入徹底逆轉了這一局面。 2024 年,諾貝爾化學獎授予了 AI 蛋白質結構預測與設計領域的突破,這一舉動無疑再次充分彰顯 AI 在蛋白質研究中的重要地位。蛋白智能計算通過構建數據驅動的算法模型,實現了對蛋白質復雜特性的高效模擬與預測,并且為應對以上挑戰提供了全新思路和研究范式,也為生命科學研究開啟了新紀元。
蛋白智能計算的核心任務突破
蛋白智能計算的核心問題為以下 4 類:
蛋白質結構能否從頭預測:
從萊文塔爾悖論到 AlphaFold 的顛覆
以蛋白質折疊為例,一個 100 個殘基的蛋白質可能的構象可達 10200 種,若隨機搜索,所需時間遠超宇宙年齡(138 億年),這就是著名的萊文塔爾悖論。但實際蛋白質折疊卻能在毫秒至分鐘內完成,這暗示著存在特定的折疊路徑。
2018 年 AlphaFold 初代模型嘗試用深度學習方法求解,利用殘差卷積模塊預測氨基酸對距離和扭轉角,在 CASP13 中以顯著優勢領先其他參賽者,準確預測了 25 種蛋白質結構,而第二名僅預測正確 3 種。
2021 年二代模型實現質的飛躍,AlphaFold2 借助 HMMER 和 HH-suite 進行多序列比對與模板搜索,通過 48 個 Evoformer 模塊和 8 個 Structure 模塊,實現了原子精度的蛋白質結構預測,并發布了包含約 2.14 億蛋白質單體預測的數據庫。其預測結構與電鏡解析結果的平均誤差不超過一個原子寬度,達到「Highly Accurate」標準。
2024 年三代模型進一步實現體內蛋白質交互結構的全預測。 AlphaFold3 實現了質的飛躍,它不僅能預測蛋白質結構,還能對蛋白質與核酸、小分子、離子等所有生命分子組成的復合物進行結構預測,涵蓋了 PDB 數據庫中幾乎所有分子類型,為理解細胞功能和疾病治療提供了強大工具。
蛋白質功能能否自動注釋:多源數據融合的突破
由于 AlphaFold3 在蛋白質預測領域的前瞻性進展,我們團隊決定將研究重心轉向蛋白質功能注釋與交互分析領域。當前全球 2.5 億條蛋白序列中,僅有 0.5% 完成精準功能注釋,傳統依賴生物專家手工解析的模式已難以應對海量數據挑戰,因此借助深度學習實現大規模批量化注釋成為關鍵突破口。
我們在該領域的探索始于 2022 年。針對深度學習依賴的電鏡結構數據稀缺且成本高昂的行業痛點,我們創新性地提出將 AlphaFold2 預測的虛擬結構數據用于模型訓練中。這一類似「數據增強」的策略顯著擴充了訓練數據規模——從傳統電鏡所能提供的 500 萬級樣本,擴展至理論上可達數億級的預測數據池。實驗驗證表明,基于預測數據訓練的模型不僅性能超越原生版本,更能挖掘出傳統方法未識別的蛋白質新功能。
論文題目:Enhancing Protein Function Prediction Performance by Utilizing AlphaFold-Predicted Protein Structures
論文地址:
??https://pubs.acs.org/doi/10.1021/acs.jcim.2c00885??
在技術方法創新方面,針對蛋白質結構信息挖掘不充分的問題,我們團隊提出了一種基于自監督圖注意力的蛋白功能預測方法,通過編碼蛋白質分子內殘基關聯信息,充分利用殘基間距離信息作為輔助任務,實現蛋白功能預測性能提升。
論文題目:SuperEdgeGO: Edge-Supervised Graph Representation Learning for Enhanced Protein Function Prediction(即將見刊)
模型架構示意圖
針對多種蛋白特征異構難融合、空間不一致等問題,提出蛋白雙視圖構造策略及特征對齊方法。基于生物蛋白存在 6 種跨尺度模態(涵蓋序列、三維結構、功能域等維度)的復雜特性,團隊進一步提出多模態融合策略——整合計算領域的對比學習與多視圖分析方法,構建層次化特征融合模型。該方案在 7 個數據集上與 20 種主流基線方法對比,全部達到 SOTA 結果,成功解決了直接拼合模態導致性能劣化的技術難題。
論文題目:Annotating protein functions via fusing multiple biological modalities
論文地址:??https://www.nature.com/articles/s42003-024-07411-y??
模型架構示意圖
詳細測試結果
詳細測試結果
此外,在功能預測的可解釋性研究中,模型也展現出從數千條 GoTerms 注釋中精準識別 10 余種蛋白質功能的卓越能力。此外,團隊通過文獻調研發現,模型預測錯誤但卻賦予高置信度的案例,實際在一些研究中已有記載,表明這些案例存在因數據集版本滯后導致誤判的可能性。這一發現凸顯了 AI 模型在挖掘新型蛋白質功能方面的潛力。
蛋白質交互能否準確識別:自研模型實現高效預測
在藥物研發領域,蛋白質作為人體靶點的精準對接是發揮藥效的關鍵,而 AI 技術在此過程中展現出重要價值。盡管 AlphaFold3 在蛋白質結構預測領域表現卓越,但實際應用中存在明顯限制:其免費版本每天僅支持 20 次訪問,且覆蓋分子類型約 15-20 種,商業使用權限申請難度極高等,這促使團隊開展自研模型研發。
基于這個問題,團隊重點做了以下幾個工作:
首先,我們針對已有蛋白互作預測方法存在的協同交互性差等問題,在編碼器中引入孿生學習模式以增強蛋白表征的協同一致性,并提出具有蛋白交互協同機制和任務協同機制的協同學習框架。團隊采用交互注意力與多任務學習方法,實現蛋白-核酸、蛋白-蛋白、蛋白-小分子的交互預測。
團隊還融合 NLP 領域的 Transformer 與圖神經網絡,開發 Convformer 、 Graphormer 等模塊以實現遠程交互建模,并通過交叉注意力機制強化多模態信息融合。模型在實際場景中展現出強大泛化能力,以胰腺癌信號通路預測為例,其準確率超 95%,僅有 9 對互作用預測錯誤。
論文題目:SSPPI: Cross-modality enhanced protein-protein interaction prediction from sequence and structure perspectives(即將見刊)
預測示意圖,綠色:低連通性;紅色:高連通性;
黑色線:預測正確;紅色線:預測錯誤
在近期的研究中,除了從網絡層面進行蛋白質跨尺度降維表征外,我們還致力于挖掘蛋白質特征。鑒于傳統圖模型將三維結構信息降為二維時會導致信息丟失,我們引入最新的幾何深度學習,提出一種基于混合消息傳遞策略的幾何深度學習方法,構建了一套完整的三維信息整合范式。該范式旨在解決空間位點建模中丟棄三維信息的不合理性問題,為蛋白質三維建模領域提供新的研究思路。
論文題目:Geometric Deep Learning for Protein-Ligand Affinity Prediction with Hybrid Message Passing Strategies(即將見刊)
模型架構示意圖
此外,我們還針對 ACSS2 蛋白開展實測,從數萬個化合物中篩選出若干候選化合物。模型預測結果指示篩選出的化合物親和力可達 nM 級別,展現出良好的成藥潛力;本團隊與青島大學醫學院團隊開展合作驗證,對接結果也在近期開展的濕實驗中得到初步證實。
藥物-靶蛋白親和力預測濕實驗驗證
全新蛋白質能否按需設計:從逆問題到創新應用
蛋白質設計是蛋白質研究的終極目標之一,對于疫苗研發、癌癥治療和生物材料開發具有重要意義。然而,作為蛋白質折疊的逆問題,蛋白質序列設計同樣面臨搜索空間爆炸和傳統力場模擬誤差等挑戰。
面對蛋白質智能設計優化這一核心問題,這里以去年諾獎獲得者 Baker 的團隊最新工作為例。蛇毒沒有特定的解藥,是否可以基于計算機設計出一種新型的蛋白質呢?基于這一問題, Baker 團隊結合其前期的 ProteinMPNN 、 RFDiffusion 設計出全新蛋白。此外,其團隊還開展了蛇毒毒素的特異性結合蛋白質設計,為中和致死性蛇毒毒素提供了新的解決方案。相關論文已于 2025 年年初發表在 Nature 正刊。這些研究成果展示了 AI 在蛋白質設計領域的巨大潛力,為「設計全新蛋白質」這一「造物主」般的目標邁出了堅實的步伐。
復雜生命系統跨尺度計算:從納觀到宏觀的全鏈條模擬
生命系統是一個復雜的多尺度系統,從納觀的基因層次到宏觀的細胞層次,各個尺度之間相互作用、相互影響。本人在英國曼徹斯特大學張恒貴教授課題組訪問期間開展了數字心臟相關研究工作,在回國后進一步開展數字細胞研究。不同于數字心臟這類「數值驅動」范式,團隊以「數據驅動」的建構思路提出了微觀生命活動多尺度建模方法,構建了「表征-狀態-尺度」三維微觀計算全方法體系,涵蓋了 36 個研究點,目前已在近 1/3 的方法下有文章或專利積累。
此外,在魏志強教授指導下,我們對微觀生命系統進行了四級尺度新定義,包括納觀的基因層次、「微觀」的蛋白質層次、「介觀」的信號通路層次和「宏觀」的細胞層次,實現了全鏈條的生命系統模擬,希望以此實現從原子到心臟的全尺度耦合。
表征-狀態-尺度三維圖
關于張樹剛副教授
張樹剛是中國海洋大學計算機學院的副教授、碩士生導師,CCF 高級會員,CCF 生物信息專委會通訊委員,同時也是 CAAI 智慧醫療專委會委員、山東省生物信息學會理事,同時主持國家自然科學基金、中央高校基本科研業務費項目等,入選 2020 年度山東省博士后創新人才支持計劃。
他主要研究方向為計算生物與生物信息學,包括超高精度數字心臟構建、蛋白質功能預測及設計等。近年來,在 IEEE JBHI,JCIM,npj Systems Biology and Applications 等國際權威期刊、會議發表論文 30 余篇,Google Scholar 引用超 1,600 次。
