從病毒研究談起,聊聊冷凍電鏡及背后的HPC
了解更多數字化轉型方案查看此鏈接:
https://www.dellemc-solution.com/home/index.html
今日tips
嬰幼兒能不能戴口罩?
通常來講,1-2歲的嬰幼兒不能戴口罩。N95口罩透氣度較差,不適合孩子使用。對于兒童,推薦佩戴兒童專用的防護口罩,且家長需隨時注意孩子有無呼吸困難等不適情況。
——來自@人民日報
拋開疫情不談
我們來聊聊
這次疫情的始作俑者——病毒
科學家們是如何研究病毒的
關于病毒,這是一類沒有細胞結構的簡單的特殊生物,它們的結構基本相似,一般由蛋白質的外殼和內部的遺傳物質(核酸)組成。
對于一種新的病毒,我們只有去發現它、了解它、研究它,最終才能制造出能治愈患者的藥物,以及增強人體免疫的疫苗。
那么一般而言,對病毒的研究一般都有如下內容和方法:
- 病毒培養:在病毒學研究中除用做病毒增殖、病原分離以外,還用于研究病毒的復制過程及細胞的病理變化,研究病毒與宿主的互作關系,探討抗體與抗病毒物質對病毒的作用方式與機制等。還可用于病毒的分離鑒定、抗原的制備、疫苗和干擾素的生產、病毒性疾病診斷和流行病學調查等。
- 病毒的分離純化與測定:屬于病毒學研究的基本技術。通過病毒的分離純化,可獲得純化的、有感染性的病毒制備物。通過病毒測定可確定病毒數量及活性。病毒的分離是將疑有病毒而待分離的標本經處理后,接種于相應敏感的宿主、雞胚或感染細胞,培養一段時間后,通過檢查不同病毒的特異性表現確定病毒的存在,并對病毒進行提取和純化。
- 病毒的鑒定:利用形態學、物理學、化學、生物學、免疫學、分子生物學、生物信息學等鑒定病毒的性質,描述病毒的特征,是病毒分類的前提。病毒鑒定也是診斷病毒性疾病的可靠方法。
病毒如何觀察?
針對病毒做結構研究,就少不了在微觀世界對病毒本身進行觀察和成像。目前,電子顯微三維重構(electroneicroscopy,也稱電鏡三維重構)、X射線晶體學(X-ray crystallography)、核磁共振波譜學(nuclearmagnetic resonance,NMR)是結構生物學的三大研究手段。
不過后兩種技術都有各自的局限性,比如X線晶體學只能對生長極為有序的三維結晶進行觀察,而磁共振技術則要求測樣品顆粒小,純度非常高,不能夠有重疊峰出現。而冷凍電子顯微鏡,簡稱冷凍電鏡(cryo-electron microscopy,cryo-EM),已成為生物大分子的結構研究的重要手段,這項技術極大地推動了生物學的發展。
什么是冷凍電鏡?
冷凍電鏡是將生物大分子快速冷凍后,在低溫環境下利用透射電子顯微鏡對樣品進行成像,再經圖像處理和重構計算獲得樣品的三維結構。
目前,冷凍電鏡三維重構技術由冷低溫制樣、低劑量電鏡成像和計算機圖像處理三部分組成。
隨著冷凍電子顯微鏡的自動化、分辨率、直接電子探測技術以及高性能圖像處理技術的大幅提高,越來越適合分析大的難以形成三維晶體復合體的三維結構,如膜蛋白以及病毒和蛋白質-核酸復合物等。
▐ 簡而言之:首先利用冷凍電鏡對冷凍于液氮溫度的生物大分子顆粒進行成像,以獲得數萬到數百萬張生物大分子照片,然后通過一定的算法來整合這些圖像,計算出生物大分子的三維結構。這其中三維重構算法是核心內容,用于測定出每一張照片的諸多參數。
它的基本原理基于中央截面定理:三維物體沿電子束方向投影的傅里葉變換是該物體所對應的傅里葉空間中通過中心且垂直于投影方向的一個截面。那么一個物體完備投影的二維傅里葉變換一定能夠完全填充該物體的三維傅里葉空間,因此物體的完備投影與物體的三維結構是等價的。
所以在實際應用中,我們收集到海量的全同顆粒在不同方向的投影(單顆粒),首先通過等價線、投影匹配等方法確定每張投影圖像的取向和中心,然后對每張投影圖進行傅里葉變換,按照投影方向填充到三維傅里葉空間對應的切面,并進行差值計算得到倒空間的網格點數值,最后再進行反傅里葉變換,就可得到實空間的三維結構。
冷凍電鏡的三維重構流程
可以看到在整個流程中,數據采集、圖像處理、三維重構是非常核心的三個步驟,對計算和存儲的需求非常高,以下是部分顆粒挑選、圖片處理和三維重構的軟件程序:
用途 |
名稱 |
描述說明 |
支持GPU |
官方網址 |
自動化顆粒挑選 |
Leginon |
從透射電子顯微鏡自動收集圖像。支持的儀器:FEI(Tecnai、Titan Krios、Polara)、JEOL(3200、3100、2100、1230)、CCD(TVIPS、Gatan、FEI)、直接探測器(Gatan K2、FEI Falcon、直接電子DE12、DE20) |
單GPU 單節點 |
http://nramm.nysbc.org/software/ |
圖像處理流水線 |
Appion |
處理和分析電磁圖像的“管道”。Appion與Leginon數據采集集成,但也可以在使用一組提供的工具上傳圖像(數字或掃描顯微照片)后單獨使用。 底層包集成包含EMAN, Spider, Frealign, Imagic, XMIPP, IMOD, ProTomo, ACE, CTFFind等并行重構程序 |
單GPU 單節點 |
http://nramm.nysbc.org/software/ |
三維重構 |
RELION |
(for REgularised LIkelihood OptimisatioN)是一個獨立的計算機程序,它采用經驗貝葉斯方法對冷凍電鏡(cryo-EM)中的(多個)三維重建或二維類平均值進行求解。在相應的貝葉斯框架中,統計模型的許多參數都是從數據中獲得的,所以可以在不需要用戶有豐富專業知識的情況下獲得客觀和高質量的結果。 |
多GPU 單節點 |
https://www3.mrc-lmb.cam.ac.uk/relion/ |
三維重構 |
cryoSPARC |
CryoSPARC是全球范圍內用于從單顆粒冷凍電鏡數據獲得三維結構信息的先進平臺,結合先進的算法和高性能計算機平臺,實現了蛋白質、病毒和分子復合物的自動化、高質量和高通量結構發現,用于研究和藥物發現。 |
多GPU 多節點 |
https://cryosparc.com/ |
許多電鏡三維重構程序目前是實現的任務級別的并行,如BSOFT、FREALIGN、IMOD和PRIISM/IVE等。而AUTO3DEM、IMAGIC、UCSFTOMOgraphy等則完全采用了MPI并行方式。著名的單顆粒三維重構軟件EMAN目前所有的并行手段都已經實現,SPIDER和IMIRS程序則采用了OpenMP和MPI并行方式,但SPIDER保留了任務級的并行方式,而IMIRS程序沒有。XMIPP則采用了MPI和pthreads方式。
通過上面的分析,可以發現冷凍電鏡三維重構的高性能計算IT需求歸納為以下幾部分:
- 主要為浮點計算,其中有大量的單精度或雙精度快速傅里葉(FFT)計算。
- 軟件內存需求和I/O需求大,一般都需要配置并行文件系統。
針對傅里葉(FFT)計算,目前主流大量采用nVidia GPU是行業慣例,nVidia CUDA為開發人員提供了多種庫,其中cuFFT庫則是CUDA中專門用于進行傅里葉變換的函數庫。“cuFFT”全稱是CUDAFast Fourier Transform,顧名思義,它提供了一系列的函數幫助開發者進行快速傅里葉變換的運算。
cuFFT庫由兩個子庫構成,它們分別是CUFFT和CUFFTW。CUFFTW庫是一個移植工具(portingtool),它為用戶提供了一些接口,以使得用戶使用FFTW庫(一個非常流行的CPU快速傅里葉變換庫)編寫的程序能夠運行在CUDAGPU上。而CUFFT則是純CUDA接口的快速傅里葉變換庫。
針對高性能計算文件系統,業界解決方案有很多:Lustre、BeeGFS、分布式橫向擴展NAS等等。
病毒研究也是對
計算和存儲能力的大考
戴爾科技集團是世界500強的IT解決方案企業,多年以來在高性能計算HPC領域有深厚的沉淀,在國內很多高校生命科學院也成功實施部署了規模不等的冷凍電鏡HPC平臺,例如包括清華大學生命科學與技術學院、北京大學生命科學聯合中心、西湖大學生命科學學院、哈爾濱工業大學生命科學與技術學院等,在該領域有豐富的規劃設計及部署實施經驗。
前面提到過由于冷凍電鏡三維重構過程中,需要大量的快速傅里葉FFT計算,所以需要海量GPU算力資源來支持,戴爾科技生命科學類HPC解決方案推薦了多款GPU服務器設備滿足該需求。
服務器型號 |
支持CPU的數量及型號 |
支持GPU的數量及型號 |
服務器外形高度 |
R740/R740xd |
2顆Intel®至強®第二代可擴展系列處理器 |
3塊雙寬度GPU(如nVidia Tesla V100) 或6塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R7515 |
1顆AMD 第二代EPYC處理器 |
4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R6515 |
1顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機架式 |
R6525 |
2顆AMD 第二代EPYC處理器 |
2塊單寬度GPU(如nVidia Tesla T4) |
1U高度機架式 |
R840 |
4顆Intel®至強®第二代可擴展系列處理器 |
2塊雙寬度GPU(如nVidia Tesla V100) 或4塊單寬度GPU(如nVidia Tesla T4) |
2U高度機架式 |
R940xa |
4顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
4U高度機架式 |
T640 |
2顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) 或8塊單寬度GPU(如nVidia Tesla T4) |
塔式或5U高度機架式 |
C4140 |
2顆Intel®至強®第二代可擴展系列處理器 |
4塊雙寬度GPU(如nVidia Tesla V100) |
1U高度機架式 |
DSS8440 |
2顆Intel®至強®第二代可擴展系列處理器 |
10塊雙寬度GPU(如nVidia Tesla V100) |
4U高度機架式 |
特別需要提到的是C4140這款服務器,1U高度可以安裝4塊雙寬度GPU(如nVidia Tesla V100),且支持NVLink或PCI-E兩種架構方式可選,用于不同的應用業務場景,同時節省機柜占用空間。
▲戴爾易安信PowerEdgeC4140
不管是生命科學類超算應用,還是校級超算平臺綜合性應用,近年來在國內多所知名高校都有成功部署案例如北京大學、武漢大學等等。
說到HPC集群,除了需要強大的計算資源以外,還離不開存儲資源。
總的來說冷凍電鏡HPC集群對存儲I/O性能和容量要求較高,原因如下:
- 電鏡投影圖片數量和尺寸不斷增加(4K × 4K, 8K × 8K);
- 生成三維重構文件巨大(GB-TB);
- 若要達到滿意結果需要迭代計算幾十次甚至更多。
比如說上海科技大學免疫化學研究所饒子和院士(新聞原文:https://new.qq.com/rain/a/20191018A08PWT)所率領的聯合團隊通過冷凍電鏡累計獲得了7萬余張合計超過100TB的高質量照片,完整病毒顆粒接近6萬5千顆,最終解析了非洲豬瘟病毒全顆粒的三維結構。這些巨大的數據量對背后的超算系統都是不小的挑戰。
而在存儲領域,戴爾科技集團亦有深厚的技術積累,并且經過多年的市場考驗,長期在IDC全球外部存儲設備市場排名前列,積累了優秀的口碑。其針對HPC應用領域,提供了如下多種存儲方案供選擇。既保證性能/容量要求,又提供更多功能選擇供未來擴展業務應用,并且考慮到客戶的投資回報。
高性能計算HPC集群項目,涉及產品眾多,技術復雜,一般還會涉及大量的開源操作系統/開源應用軟件等,其實施部署復雜,而售后處理會涉及到多方面多供應商。戴爾科技集團為此推出了“適用于HPC的ProSupport附加服務”,提供了比ProSupport及ProSupportPlus基于設備本身售后服務更高級別的支持。
對客戶IT管理層來說,“適用于HPC的ProSupport附加服務”帶來了如下的好處:
- 具有完整硬件和服務組合的單一提供商:全部由戴爾科技集團來作為售后服務接口人
- 有更多時間關注業務目標
- 管理群集的成本降低
同時也給客戶HPC系統管理員帶來了好處:
- 增強部署/支持生命周期體驗
- 標準化服務確保預期結果
- 更快地解決問題
- 獲得高級疑難解答與協助:就功能、特性、群集配置問題、固件版本、互操作性和 HPC 一般“入門”問題提供建議;根據在部署期間運行的性能基準測試所建立的預先記錄級別,幫助解決群集性能退化問題;協助解決您 HPC 環境特有的關鍵支持問題。
作者說明:本文涉及到一些生命科學等專業的知識內容,作者是查閱互聯網公開資料總結整理而成,由于時間倉促,在文字內容上恐有瑕疵或錯誤,懇請讀者專家們給出意見和建議,謝謝!
點擊右邊給我一朵小花花
相關內容推薦:虛機誤刪,"至暗時刻"來臨...
相關產品:PowerEdge C4140服務器