成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑 原創

發布于 2025-6-9 13:14
瀏覽
0收藏

蛋白質結合劑(如抗體、抑制肽)在疾病診斷、成像分析及靶向藥物遞送等關鍵場景中發揮著不可替代的作用。傳統上,高特異性蛋白質結合劑的開發高度依賴噬菌體展示、定向進化等實驗技術,但這類方法普遍面臨資源消耗巨大、研發周期冗長的挑戰,且受限于蛋白質序列組合復雜性的固有瓶頸。


隨著人工智能的發展,蛋白質語言模型(PLMs)成為了理解蛋白質序列與功能關系的重要工具。面向蛋白質結合劑設計,PLMs 基于語言模型的生成能力,可直接從目標蛋白序列出發,設計具有高結合親和力的配體蛋白或抗體片段。但同時其也面臨挑戰,例如缺乏兼具長上下文建模能力與真實生成力的 PLMs,尤其在設計具有復雜結合界面和長蛋白質結合劑方面存在顯著技術缺口。


基于此,來自阿聯酋阿布扎比 Inception AI 研究所與美國硅谷 Cerebras Systems 公司的聯合研究團隊,提出了首個僅依賴蛋白質序列信息、無需三維結構輸入的 PLMs 家族——Prot42 。該模型利用自回歸和僅解碼架構(decoder-only)的生成能力,能在無結構信息時生成高親和力蛋白質結合劑和序列特異性 DNA 結合蛋白。在 PEER 基準測試、蛋白質結合劑生成和 DNA 序列特異性結合劑生成實驗中,Prot42 表現優異。


相關研究以「Prot42: a Novel Family of Protein Language Models for Target-aware Protein Binder Generation」為題,已在 arXiv 發表預印本。


研究亮點* Prot42 采用漸進式上下文擴展訓練策略,從初始 1,024 氨基酸逐步擴展至 8,192 氨基酸。* 在 PEER 基準測試中,Prot42 在蛋白質功能預測、亞細胞定位、相互作用建模等 14 項任務中表現優異。* 與依賴 3D 結構的 AlphaProteo 不同,Prot42 僅需目標蛋白序列即可生成結合劑。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

論文地址: ?

??https://go.hyper.ai/cFupD??

更多 AI 前沿論文:
???https://go.hyper.ai/UuE1o??

開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數據集與工具:
???https://github.com/hyperai/awesome-ai4s??

數據集:3 大數據集支撐模型開發—訓練

該研究中使用了多個關鍵數據集來訓練和評估其模型性能。這些數據集不僅涵蓋了廣泛的蛋白質序列信息,還涉及蛋白質與 DNA 的相互作用數據,為 Prot42 提供了豐富的訓練素材。

Protein-DNA Interface Database (PDIdb) 2010

為了設計能夠與靶向 DNA 序列結合的蛋白質,研究人員使用了 PDIdb 2010 數據集。作為 Norambuena 和 Melo 的外顯數據集,該數據集包含 922 個獨特的 DNA – 蛋白質對,用于訓練和評估 Prot42 在生成特定 DNA 序列結合蛋白方面的能力。為了評估四種 DNA – 蛋白質模型,研究人員從各種 PDB 結構中提取了 DNA 片段,包括 1TUP 、 1BC8 、 1YO5 、 1L3L 、 2O4A 、 1OCT 、 1A1F 和 1JJ6 。

UniRef50 數據集

Prot42 模型的預訓練數據集主要來源于 UniRef50 數據庫,該數據庫包含了 6,320 萬個氨基酸序列,涵蓋了廣泛的生物種類和蛋白質功能。這些序列通過聚類處理,將相似度超過 50% 的序列歸為一組,從而減少了數據冗余,提高了訓練效率。


在訓練 Prot42 之前,研究團隊對 UniRef50 數據集進行了預處理,使用 20 種標準氨基酸的詞匯對其進行標記,使用 Xtoken 代表氨基酸殘留(X 用于標記不常見或模糊的氨基酸殘基)。


在數據預處理階段,研究團隊對序列進行了最大上下文長度為 1,024 個 tokens 的處理,并排除了超過此長度的序列,最終得到了一個包含 5,710 萬個序列的過濾數據集,初始填充密度為 27% 。為了提高數據利用率和計算效率,研究團隊采用了可變序列長度(VSL)填充策略,最大限度地提高了固定上下文長度內的 tokens 占用率,最終將數據集減少到 1,620 萬個填充序列,填充效率達到 96% 。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

模型預訓練(左)及持續預訓練(右)過程中所使用的超參數

STRING 數據庫

STRING 數據庫是一個綜合性的蛋白質-蛋白質相互作用數據庫,整合了實驗數據、計算預測和文本挖掘結果,提供了蛋白質相互作用的置信度評分。為了訓練 Prot42 生成蛋白質結合劑,研究團隊從 STRING 數據庫中篩選了置信度評分 ≥ 90% 的蛋白質相互作用對,確保了訓練數據的高可靠性。此外,序列長度被限制在 250 個氨基酸以內,以聚焦于可管理的單域結合蛋白。經過篩選,最終的數據集包含 74,066 個蛋白質 – 蛋白質相互作用對。訓練集 D(train)(pb)包含 59,252 個樣本和一個驗證集 D(val)(pb)包含 14,814 個樣本。


模型架構:基于自回歸解碼器架構衍生 2 大變體

本文提到的 Prot42 是一種基于自回歸解碼器架構的 PLMs,逐個生成氨基酸序列,利用前一個生成的氨基酸預測下一個氨基酸,這種架構使得模型能夠捕捉序列中的長距離依賴關系,能夠直接從大量未標記的蛋白質序列數據庫中學習豐富的表征,有效彌合了已知蛋白質序列數量龐大與蛋白質序列占比相對較小(<0.3%)之間的差距。同時,模型包含多個 Transformer 層,每層包含多頭自注意力機制和前饋神經網絡,用于捕捉序列中的復雜模式。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

生成的蛋白結合劑示例

其設計靈感來源于自然語言處理領域的突破性進展,特別是 LLaMA 模型。 Prot42 通過在大規模未標記蛋白質序列上進行預訓練,捕捉了蛋白質的進化、結構和功能信息,從而實現了高親和力的蛋白質結合劑生成。


在此基礎上,研究人員預訓練了 2 個模型變體,即 Prot42-B 和 Prot42-L 。

* Prot42-B:基礎版本,模型參數量達 5 億,支持的最大序列長度為 1,024 個氨基酸。

* Prot42-L:大型版本,模型參數量達 11 億,同樣支持最大序列長度為 1,024 個氨基酸。通過連續預訓練策略,Prot42-L 的上下文長度從 1,024 個氨基酸逐步擴展至 8,192 個氨基酸,這一過程中使用了逐漸增加的上下文長度和恒定的 batch 大小(100 萬個非填充 tokens),確保了模型在處理長序列時的穩定性和效率,顯著提升了模型處理長序列和復雜蛋白質結構的能力。此外,Prot42-L 還包含 24 個隱藏層,每層有 32 個注意力頭,隱藏層維度為 2,048 。


實驗結論:6 項任務中均顯現巨大潛力

為了在下游任務驗證之前評估 Prot42 模型的性能,研究人員使用了復雜性(PPL)評估自回歸語言模型的標準度量,即 Prot42 模型在不同上下文長度下的性能。所有模型在 1,024 個 tokens 時,困惑度都相對較高,但在 2,048 個 tokens 時有顯著改善,降至約 6.5 。結果顯示,基礎模型以及針對較短上下文進行微調的模型,在各自的最大上下文長度范圍內,呈現出相似的性能模式。 8k 上下文模型的表現尤為引人注目——盡管在中等長度序列(2,048 – 4,096 個 tokens)中,其困惑度略高一些,但它能夠處理長達 8,192 個 tokens 的序列,并在最大長度時達到了最低困惑度 5.1 。在超過 4,096 個 tokens 后,困惑度曲線呈現下降趨勢。如下圖所示。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

Prot42-L 模型在不同上下文長度下的 PPL 輸入序列長度從 1k 變化至 8k

隨著上下文長度的增加,模型的 PPL 逐漸降低,表明模型在處理長序列時的能力得到了顯著提升。特別是 8K 上下文模型達到最低的 PPL,表明其能夠有效利用擴展的上下文窗口來捕捉蛋白質序列中的長程依賴關系。擴展的上下文窗口是蛋白質序列建模領域的一項重大進展,使得能夠更準確地表示復雜蛋白質以及蛋白質 – 蛋白質相互作用,這對于生成有效的蛋白質結合劑至關重要。


通過一系列嚴格的實驗評估,Prot42 在多個關鍵任務上展現了卓越的性能,證明了其在蛋白質結合劑生成和特定 DNA 序列結合蛋白設計方面的有效性。

蛋白質功能預測

在 PEER 基準測試中,Prot42 模型在多個蛋白質功能預測任務上表現出色,包括熒光預測、穩定性預測、β-內酰胺酶活性預測和溶解度預測等。與現有模型相比,Prot42 在穩定性預測、溶解度預測和 β-內酰胺酶活性預測等方面取得了顯著優勢,表明其在高分辨率蛋白質工程任務中的巨大潛力。


蛋白質亞細胞定位預測

研究人員把每一個蛋白質序列表示為一個大小為 32×2048 的高維向量,在整個蛋白質序列中嵌入 Prot42-L 模型并進行計算。為了直觀地評估質量在嵌入和區室的分化,研究人員應用了 t 分布的隨機鄰域嵌入 (t-SNE) 來降低維度,使得蛋白質基團的可視化變得清晰。經驗證,Prot42 在蛋白質亞細胞定位預測任務上表現出色,其準確性與現有先進模型相當。通過可視化分析,研究團隊進一步驗證了 Prot42 模型在捕捉蛋白質亞細胞定位特征方面的有效性。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

在 10 個亞細胞定位中 Prot42-L 蛋白質嵌入的 t-SNE 可視化

蛋白質結構預測

在蛋白質結構預測任務中,Prot42 模型在接觸預測、折疊分類和二級結構預測等方面取得了優異成績。這些結果表明,Prot42 模型能夠捕捉蛋白質結構中的細微差別,為復雜的生物相互作用建模和制藥應用提供了有力支持。


蛋白質-蛋白質相互作用預測

在蛋白質-蛋白質相互作用和蛋白質-配體相互作用預測任務中,Prot42 模型展示了高精度和可靠性,在蛋白質-配體相互作用預測中,研究人員利用 Chem42 生成化學嵌入向量,并且與 ChemBert 進行了對比分析,將其作為另一種化學表征模型,即便如此,其性能指標仍優于現有方法,且接近使用 Chem42 所取得的結果。特別是在使用 Chem42 生成化學嵌入的情況下,其預測結果接近專業化學模型。這表明 Prot42 在結合化學信息方面具有很好的擴展性,為藥物設計提供了有力支持。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

不同模型在各類蛋白質基礎任務上的性能比較

蛋白質結合劑生成

為嚴謹評估 Prot42 模型在蛋白質結合劑生成方面的效果,研究人員將該模型與專門為蛋白質結合劑預測設計的先進模型 AlphaProteo 進行了對比。實驗結果顯示,Prot42 模型在多個治療相關目標上生成了具有強預測親和力的結合劑,特別是在 IL-7Rα、 PD-L1 、 TrkA 和 VEGF-A 等目標上,Prot42 模型的表現顯著優于 AlphaProteo 模型。這些結果表明,Prot42 模型在蛋白質結合劑生成方面具有顯著優勢。如下圖所示。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

用于微調蛋白質結合劑生成模型的超參數

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

生成的蛋白質結合劑示例

DNA 序列特異性結合劑生成

在 DNA 序列特異性結合劑生成實驗中,Prot42 同樣取得了顯著成果。實驗結果顯示,通過結合基因嵌入和蛋白質嵌入的多模態策略,Prot42 模型能夠生成與目標 DNA 序列特異性結合的蛋白質,并且展現出高度的親和力,且通過 DeepPBS 模型評估的結合特異性較高。這些結果表明,Prot42 模型在 DNA 序列特異性結合劑生成方面也具有巨大潛力,為基因調控和基因組編輯應用提供了新的工具。

8k長序列建模,蛋白質語言模型Prot42僅利用目標蛋白序列即可生成高親和力結合劑-AI.x社區

生成的蛋白質結合劑示例

人工智能在蛋白質設計領域的突破與創新

隨著生物技術與人工智能的深度融合,蛋白質設計這一前沿領域正經歷革命性變革。作為生命活動的核心執行者,蛋白質的結構與功能解析一直是科學研究的難點,而 AI 技術的介入,正加速破解這一復雜謎題,為新藥研發、酶工程改造等場景開辟全新路徑。


近些年,AI 技術再度突破,以生成式 AI 為核心的新技術正將蛋白質設計推向「創世紀」階段。


美國密蘇里大學許東教授團隊提出了結構感知蛋白質語言感知模型(S-PLM),通過引入多視圖對比學習,將蛋白質序列和 3D 結構信息對齊到統一的潛在空間中,利用 Swin Transformer 處理 AlphaFold 預測的結構信息,將其與基于 ESM2 的序列嵌入融合,從而創建了一個結構感知的 PLM,并在 Advanced Science 上發表文章「S-PLM: Structure-Aware Protein Language Model via Contrastive Learning Between Sequence and Structure」。 S-PLM 通過將蛋白質序列與其三維結構在統一的潛在空間中對齊,巧妙地將結構信息融入序列表示中,同時探索了高效微調策略,使模型能夠在不同的蛋白質預測任務中取得卓越表現,標志著在蛋白質結構和功能預測領域的一個重要進步。
論文地址:
???https://advanced.onlinelibrary.wiley.com/doi/10.1002/advs.202404212??


除此之外,清華大學研究團隊等提出了一個統一的蛋白質語言模型 xTrimoPGLM,這是一個統一的預訓練框架和基礎模型,可擴展到 1,000 億個參數,旨在用于各種蛋白質相關的任務,包括理解和生成 (或設計) 。通過利用通用語言模型(GLM)作為其雙向注意力和自回歸目標的骨干,該模型不同于先前的僅編碼器或僅因果解碼 PLMs 。該研究探索了超大規模 PLM 的統一理解和生成預訓練,進一步揭示了蛋白質序列設計的新可能性,促進了蛋白質相關應用更廣泛領域的進一步發展。以「xTrimoPGLM: unified 100-billion-parameter pretrained transformer for deciphering the language of proteins」為題,發表在 Nature 子刊。
論文地址:
???https://www.nature.com/articles/s41592-025-02636-z??


Prot42 的突破不僅是技術層面的進步,更映射著「數據驅動+AI 設計」模式在生命科學領域逐漸趨于成熟。未來,研究團隊計劃通過實驗驗證 Prot42 生成的結合劑,用實際功能測試補充計算評估。這一步將鞏固模型在實際應用中的效用,并完善其預測準確性,彌合 AI 驅動序列生成與實驗生物技術之間的差距。

?

參考資料:
1.??https://arxiv.org/abs/2504.04453???
2.??https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA???
3.??https://mp.weixin.qq.com/s/x7_Wnws35Qzf3J0kBapBGQ???
4.??https://mp.weixin.qq.com/s/SDUsXpAc8mONsQPkUx4cvA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线观看国产www | 在线观看成人av | 欧美精品网站 | 成av人电影在线 | 五月天综合网 | 欧美精品区| 欧美中文字幕一区二区 | 日韩黄色av | 久久视频免费看 | 国产女人与拘做受免费视频 | 国产伦一区二区三区 | www.亚洲一区二区三区 | 久久久久久久久久久高潮一区二区 | 久久精品视频网站 | 成人在线免费网站 | 国产成人一区二区 | 精品欧美乱码久久久久久 | 美女在线观看av | av日韩高清 | 中文字幕在线视频网站 | 午夜影院视频在线观看 | 蜜桃久久| 亚洲人成网亚洲欧洲无码 | 性色av一区 | 久久国产精品网站 | 久久国内| 日韩二三区 | 黄色毛片网站在线观看 | 黄色激情毛片 | 欧美日韩国产一区 | 久久这里有精品 | 黄色欧美大片 | 99视频久| 亚洲免费视频网站 | 亚洲视频国产视频 | 操人网| 99热视| 日韩一区二区在线播放 | 91在线观看免费视频 | 盗摄精品av一区二区三区 | 亚洲国产欧美日韩 |