Dell EMC NFS存儲解決方案|哥斯拉 vs. 金剛,誰贏了?
文章來自公眾號戴爾易安信解決方案
話說前陣子上映的
好萊塢大片
《哥斯拉大戰(zhàn)金剛》
可在全國各地
掀起了一波觀影浪潮
兩個原本在不同
電影世界里的巨獸
突然走到了同一個熒幕
成為本片的一大看點
而電影海報
也很好展現了這種戲劇性
畫面里哥斯拉和金剛
互相揮舞拳頭
大戰(zhàn)一觸即發(fā)
讓人迫切想知道
誰才是真正的怪獸“一哥”
那么,到底誰更厲害呢?
(提示:下文劇透警告)
看過電影的小編表示,金剛被哥斯拉暴打...在第一次交手的時候,哥斯拉被一拳擊中只是退了個踉蹌,而金剛被打一拳直接倒在地上。到了第三次交手,金剛更是被打得奄奄一息...
其實,這也不能怪金剛太弱,實在是對手太強了...“哥斯拉”的原型是生活在海洋島嶼上的一種蜥蜴,因為人類不加節(jié)制地進行核實驗,引起了基因突變而變成了怪獸。它不僅有強悍的肉體,還有“原子吐息”這種BUG級別的魔法攻擊。
而金剛呢,說到底只是一只長得很大的的猩猩,雖然有人類一般的智慧,但在絕對實力面前,依然只有被碾壓的份。
這是不是也從側面說明基因的重要性呢?
了解你的基因
說起基因,今年是第一版人類基因組序列圖譜發(fā)布20周年。這20年里,基因測序技術的發(fā)展勢如破竹,為生命科學的研究突破創(chuàng)造了不計其數的科學價值。
當前,基因測序在臨床上的應用主要有兩類,一類是針對普通人的疾病篩查,通過測定已知的與某種疾病相關的基因序列位點,來推斷其未來罹患該種疾病的概率;另一類是針對癌癥等致命性疾病的伴隨診斷,通過測定某些特定的基因序列位點,在一系列的藥物或治療方案中找到針對特定患者最為有效的藥物或方案。
關于基因測序的流程,主要有以下幾個步驟:
測序數據分析流程(以全基因組分析為例)如下圖:
實驗儀器測量數據處理和分析,首先通過實驗儀器對生物分子進行測量,使用一些后處理軟件對原始的大量數據進行處理和分析。然后對序列數據進行同源及相似性搜尋、比對、序列分析、遺傳發(fā)育分析等。
基因測序技術應用需要對海量、復雜、多變的數據進行分析計算,因此對高性能計算機的計算性能、內存容量、數據帶寬等要求很高,同時還必須支持完善的基因測序分析工作流。
在短短十幾年間,基因測序技術已經形成了多個研究方向,其中與高性能計算相關的主要研究重點如下:
01序列比對
序列比對(SequenceAlignment)的基本問題是比較兩個或兩個以上符號序列的相似性或不相似性。在序列對比的過程中,將會產生巨量的數據,這對我們的存儲系統(tǒng)帶來了較大規(guī)模的挑戰(zhàn),如下圖:
可以看出,現在用于存儲的硬盤容量每14個月會有一倍的增長,而基因序列的數據量則每5月左右會翻一番。
02序列拼接
序列拼接是將測序生成的reads短片段拼接起來,恢復出原始的序列。該問題是序列分析的最基本任務,是基因組研究成功與失敗的關鍵,拼接結果直接影響到序列標注,基因預測、基因組比較等后續(xù)任務。
基因組序列的拼接也是基因組研究必須解決的首要難題。其困難不僅來自它的海量數據(以人類基因組序列為例,從數量為10兆級的片斷恢復出長度為億級的原始序列),而且源于它含有高度重復的序列。
從計算機方面來講,在拼接初期,會有大量的初始數據導入內存,然后對這些數據進行處理。因此,序列拼接對于計算機的內存量和計算能力都有非常大的需求。
基因測序產品方案配置建議
根據以上基因測序軟件的普遍特點,戴爾科技給出了如下的集群配置建議:
(1)基因比對、拼接等計算非浮點密集型計算應用,CPU利用率、idle%呈現規(guī)律性交替變化,并且程序起始階段CPU利用率低,主要進行I/O處理,高主頻可加快進度,雙路節(jié)點配置建議選用戴爾科技新一代PowerEdge服務器平臺,提供最苛刻工作負載和卓越性能。
(2)內存帶寬隨CPU利用率交替變化并且峰值并不高,內存容量需求較大,基本上是輸入序列大小的5-6倍,單節(jié)點搭配8條或16條32GB或64GB內存即可滿足中小規(guī)模算例需求。
對于大規(guī)模的基因拼接、比對計算,內存容量建議配置在2TB以上,PowerEdge R940xs服務器最大可支持6TB內存(單根128GB*48根),可充分保障計算需求。
(3)網絡壓力較低,僅在讀寫I/O時涉及到較多網絡傳輸,普通10G或25G以太網即可滿足網絡帶寬需求,選擇高速InfiniBand網絡也會在一定程度上降低延遲,提升效率。
(4)存儲讀寫壓力適中,磁盤讀寫均呈現階段性,小規(guī)模算例存儲讀寫峰值帶寬均在500MB/s以下,選用存儲服務器PowerEdge 740xd或740xd2即可滿足需求。
中規(guī)模算例如人體全基因組比對、拼接等,在程序初始階段輸入文件磁盤讀取、計算結果磁盤寫階段對存儲的帶寬壓力會比較大,此時建議選擇Dell EMC NFS存儲解決方案(NSS),可提供5GB/s以上的帶寬,更好地應對存儲壓力。
Dell EMC NFS存儲解決方案介紹
Dell EMC NFS存儲解決方案(NSS)是一種完全基于NFS的文件存儲,提供包括所有必須的硬件、軟件、性能指南、支持和部署服務,它實現了功能、性能和可擴展性的完美結合,能夠處理大量數據請求,從而支持高達1PB(5U空間84盤位*12TB單盤容量)的原始存儲空間。
它由戴爾科技HPC專家采用成熟的戴爾易安信技術進行設計和優(yōu)化,與未經優(yōu)化的NFS解決方案相比,吞吐量可提高30%。在下面的案例中,戴爾科技采用最新的硬件設備和xfs,lvm 及l(fā)vs等技術,配置包括2臺PowerEdge R740服務器,1臺PowerVault ME4084存儲,可用容量為640TB,以達到7GB/s的讀和4.8GB/s寫性能。
方案架構圖圖
測試配置清單
NSS7.4-HA服務器軟件版本
測試摘要:
NSS7.4解決方案的I/O性能測試中,所有性能測試均在無故障的情況下進行,以測量解決方案的最大能力。測試重點是三種類型的I/O模式:大量的順序讀取和寫入、小量的隨機讀取和寫入,以及三項元數據操作(文件創(chuàng)建、統(tǒng)計和刪除)。
840TB(原始存儲大小)配置通過EDR上的IPoIB網絡連接進行了基準測試。使用32個節(jié)點計算群集來生成基準測試的工作負載。每個測試都在一系列客戶端上運行,以測試解決方案的可擴展性。
本研究中使用了IOzone和mdtest基準。IOzone用于順序和隨機測試。對于順序測試,使用了1024KiB的請求大小。傳輸的數據總量為2TB,以確保NFS服務器高速緩存達到飽和。隨機測試使用了4KiB請求大小,每個客戶端讀取并寫入一個4GiB文件。使用mdtest基準配合OpenMPI執(zhí)行了元數據測試,包括文件創(chuàng)建、統(tǒng)計和刪除操作。
IPoIB大規(guī)模順序I/O性能
IPoIB隨機 I/O性能
IPoIB元數據操作
為了評估系統(tǒng)的元數據性能,使用了MDTest工具版本1.9.3。使用的MPI發(fā)行版為OpenMPI版本1.10.7。執(zhí)行元數據測試的方法是:為最多32個線程數創(chuàng)建960000個文件,然后增加文件數,以測試解決方案的可擴展性,如表列出的結果。
元數據測試:跨線程分發(fā)文件和目錄
IPoIB文件創(chuàng)建性能
IPoIB文件統(tǒng)計性能
IPoIB文件刪除性能
測試結果匯總
方案優(yōu)勢總結
適用于HPC NFS存儲的Dell EMC Ready解決方案具有如下優(yōu)勢:
01統(tǒng)一交付
提供基于標準的戴爾易安信PowerEdge服務器、PowerVault ME4存儲產品以及Redhat的可擴展文件系統(tǒng)幫助用戶部署NFS服務器,以達到最佳性能及可靠性。縮短用戶的安裝時間,降低了規(guī)劃和部署存儲系統(tǒng)的成本。
02高性能
針對HPC NFS存儲的Dell EMC Ready解決方案對吞吐量性能進行了調整,存儲單柜可支持5U84塊硬盤,可提供7GB/s的讀和4.8GB/s寫性能。
03可擴展
通過在受支持的單個命名空間中輕松擴展多達64個節(jié)點,可以更輕松地滿足未來需求,從而以更快的吞吐量運行更大、更復雜的應用程序。
另外,戴爾科技提供提供針對Dell EMC HPC NFS存儲解決方案的安裝和實施服務,戴爾科技現場部署工程師可將此解決方案部署至您的HPC環(huán)境或非HPC環(huán)境中,確保您的存儲解決方案獲得成功。
尊敬的讀者
如果你想了解更多
戴爾科技在醫(yī)療行業(yè)的
領先優(yōu)勢和技術成果
歡迎參加4月23日
于杭州舉辦的
2021中華醫(yī)院信息網絡大會
戴爾科技將攜手合作伙伴
帶來全面的醫(yī)療IT基礎架構
解決方案
歡迎掃描下圖二維碼
或點擊文末閱讀原文
報名參會
Ps. 今天成功報名預約的同學
還有機會抽取禮品~
▼
相關內容推薦:戴爾春季新品特惠月開啟|服務器、交換機、存儲等產品鉅惠進行中