成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

華為云與北大BIOPIC聯合發布蛋白質多序列比對開源數據集

企業動態
為了更好地服務于跨領域的研究人員,Protein MSA數據集將被組織成具有多重形態的數據格式。

 

  近日,華為與北京大學生物醫學前沿創新中心(BIOPIC)、北京大學化學與分子工程學院、深圳灣實驗室高毅勤教授課題組聯合推出蛋白質多序列比對(Protein MSA)數據集,希望在標準化的數據集基礎上,支撐研究人員開發先進的AI模型,加深對蛋白質結構、功能和進化的認知,并進行蛋白設計與改造。此數據集將發布于華為云AI Gallery平臺,相關代碼及數據集說明將依托于華為全場景AI計算框架MindSpore進行開源開放、定期擴展與維護,旨在為全世界相關的產、學、研團隊提供優質的數據共享解決方案。

  本次開源的Protein MSA數據集完全覆蓋最新版本(2021年2月發布)的UniRef50數據庫中的蛋白質序列,采用學術界的“金標準”搜索方法,對約0.5億條蛋白序列進行了充分的MSA搜索與比對(MSA平均深度大于1000),是目前世界范圍內規模最大、參考數據集最新、覆蓋度最廣的開源蛋白質MSA數據集(之前最大的開源MSA數據集包含10萬個蛋白MSA)【1】。

  人類已知的蛋白質序列已經超過4.4億條,但僅憑這些蛋白質單序列數據庫,很難了解蛋白之間的關系。Protein MSA數據庫是一個對不同蛋白質序列之間的關系進行了標記的大規模“關系型”數據庫,被標記為關聯的蛋白質序列之間的相似度、進化關系、突變所在位點的分布等信息對蛋白質結構和功能的預測極為重要。

  為了更好地服務于跨領域的研究人員,Protein MSA數據集將被組織成具有多重形態的數據格式。原始數據集(近30T)將以UniRef系列數據庫【2】和UniClust數據庫【3】的標準文本形式存儲,并按照序列長度進行分割與壓縮。為了便于AI領域的研究人員直接使用,Protein MSA數據集還會將文本格式的數據集轉化為浮點數張量類型壓縮存儲,并對已有的AI框架如MindSpore進行數據接口的支持。

  高毅勤教授表示:“我們鼓勵并期待來自生物信息學、數據科學和AI研究等領域的專家和人才充分碰撞與合作,引入、改進或設計全新的AI模型,來充分地挖掘Protein MSA數據集中所隱藏的‘自然的秘密’”。

  從科學的角度看,MSA的數量和質量很大程度上影響了目前最先進結構模型的預測速度和精度,而且產生MSA的非參數化算法仍是諸多蛋白預測方法中決定速度的主要步驟之一。因此,Protein MSA數據庫本身可以作為這些結構預測模型的預訓練材料,用來挖掘序列信息甚至快速生成新的序列特征,這對解決研究、設計蛋白質中所面臨的高變異序列和孤兒序列等問題具有巨大的潛在價值。

  此次數據庫的發布,依托于華為云AI Gallery平臺,能夠充分保障國內外用戶對于數據集的訪問和下載,并提供可持續更新與擴充的先進數據維護方案以及下游AI應用與部署的相關支持,融合了產、學、研相結合的研究模式的優勢。此外,華為也與北京大學高毅勤課題組聯合開發并開源了首個國產分子動力學軟件MindSponge。未來,華為將牽手更多的學術科研界合作伙伴,在材料、生物、醫藥等更廣泛的科學計算領域打造數據推動的研究新模式。

  附:

  數據集開源說明:

  https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa

  數據集下載地址:

  https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e

  【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

  【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

  【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

 

責任編輯:張誠 來源: 互聯網
相關推薦

2023-09-20 12:44:00

AI訓練

2021-07-24 10:21:46

模型人工智能深度學習

2023-07-06 13:23:49

2023-07-06 16:59:56

英特爾

2018-01-27 20:59:26

華為云

2018-01-29 12:11:36

華為云

2018-01-29 11:57:25

華為云

2023-06-05 15:41:10

AI算法

2019-10-14 14:52:30

金蝶云互聯網云原生

2023-10-04 09:23:21

微軟開發

2015-06-26 16:39:29

HGBC云平臺四川建華科技華為

2013-04-17 16:18:59

2022-11-02 13:41:46

2015-08-31 13:39:53

大數據解決方案先進數通華為

2024-08-26 12:43:46

2023-07-13 12:53:02

FrameDiffAI

2022-10-08 12:38:23

模型開源

2015-09-23 15:30:57

華為訊方
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 日韩精品成人av | 亚洲另类春色偷拍在线观看 | 91九色在线观看 | 日日碰狠狠躁久久躁96avv | 日韩一区二区福利视频 | 国产精品乱码一区二三区小蝌蚪 | 99热这里只有精品8 激情毛片 | 日日夜夜天天 | 免费观看国产视频在线 | gav成人免费播放视频 | 欧美日韩高清一区 | 欧美激情在线观看一区二区三区 | 国产精品久久久久久久毛片 | 国产精品美女视频 | 久久亚洲一区 | 日韩av高清| 国产高清视频一区 | 91精品国产一区二区三区 | 成人亚洲 | 久久一热| 日本超碰 | 欧美无乱码久久久免费午夜一区 | 国产精品久久久久久模特 | 亚洲精品一区二区三区在线观看 | 国产探花在线精品一区二区 | 国产探花在线精品一区二区 | 国产精品av久久久久久毛片 | 99精品99久久久久久宅男 | 狠狠狠色丁香婷婷综合久久五月 | 男女羞羞视频在线 | 日本a在线 | 国产精品成人一区二区 | 欧美视频一区 | 久久免费精彩视频 | 精品一区二区在线观看 | 99久久久国产精品 | 日韩欧美中文 | 成人黄色电影免费 | 精品国产乱码久久久久久果冻传媒 | 中文字幕在线精品 | 国产精品视频偷伦精品视频 |