為什么道熵分布式存儲是PACS存儲的更優(yōu)選擇
前言
道熵分布式存儲是業(yè)界率先實現(xiàn)無人值守自動化運維與數(shù)據(jù)自修復(fù)的分布式存儲,采用雙重RAID數(shù)據(jù)保護機制,具備高容錯的Fail-in-Place特性,是PACS醫(yī)療影像存儲的更優(yōu)選擇。
一、醫(yī)療PACS影像存儲現(xiàn)狀
醫(yī)院存儲的數(shù)據(jù)80%-85%來自于影像數(shù)據(jù),隨著醫(yī)療影像設(shè)備的激增、拍片設(shè)備單次拍片量的增加,以及拍片設(shè)備分辨率的不斷提高,醫(yī)院的醫(yī)療PACS數(shù)據(jù)量預(yù)計每年增長15%,五年翻一番,并呈加速增長的態(tài)勢。PACS系統(tǒng)所收集的B超、X射線、CT、核磁等影像數(shù)據(jù)飆升,三甲綜合性醫(yī)院或胸科、肺科、骨科等三甲專科醫(yī)院,一年的新增拍片量在50TB ~ 60TB。并且,根據(jù)國家電子病歷保存相關(guān)規(guī)定,醫(yī)療機構(gòu)保管保存醫(yī)療影像數(shù)據(jù)時間要求不少于15年。無論是從業(yè)務(wù)發(fā)展還是合規(guī)要求方面,醫(yī)療影像數(shù)據(jù)的存儲都對存儲系統(tǒng)提出了更高需求。
目前醫(yī)院的醫(yī)療PACS數(shù)據(jù)普遍采用傳統(tǒng)陣列存儲FC SAN或NAS,并采用在線、近線、離線的三級存儲架構(gòu)。這種PACS存儲架構(gòu)普遍面臨以下問題:
1、性能/容量擴展困難
PACS影像的典型特征是大部分文件都是小文件,其中MR文件平均大小為60KB左右;CT文件平均大小為300KB左右,也是小文件。長期以來,小文件存儲都是存儲系統(tǒng)面臨的挑戰(zhàn):小文件讀寫性能低,且當(dāng)存儲的文件數(shù)量增多時性能會不斷下降。
目前在線存儲使用傳統(tǒng)陣列存儲系統(tǒng)時,PACS圖像調(diào)閱的速度最快僅為每秒80幅左右。典型的MR檢查,平均每次檢查產(chǎn)生約3000~5000張小圖片,調(diào)閱圖片需要數(shù)十秒以上;在大型醫(yī)院的業(yè)務(wù)高峰期,數(shù)百位門診、臨床醫(yī)生同時閱片時,對存儲系統(tǒng)產(chǎn)生高并發(fā)訪問,閱片等待時間更長。
2、系統(tǒng)架構(gòu)復(fù)雜、數(shù)據(jù)訪問不便
三級存儲架構(gòu)下,PACS影像數(shù)據(jù)分散保存在三套不同的存儲系統(tǒng)中。這會導(dǎo)致以下問題:
在患者進行復(fù)查時,醫(yī)生需要調(diào)閱半年前或一年前的檢查影像,這些影像位于近線存儲中,需要將這些影像先遷移到在線存儲中再調(diào)閱,操作繁瑣,難以讓醫(yī)生立即調(diào)閱。
三級架構(gòu)導(dǎo)致的數(shù)據(jù)隔離,難以將積累的大量PACS數(shù)據(jù)用于如AI輔助診療、影像數(shù)據(jù)分析與影像智能診斷等科研活動,使數(shù)據(jù)價值難以充分發(fā)揮。
不同存儲系統(tǒng)之間的數(shù)據(jù)難以統(tǒng)一管理,數(shù)據(jù)遷移工作繁重。
3、總體擁有成本較高
傳統(tǒng)中高端磁盤陣列存儲設(shè)備的購置成本較高,尤其是后期擴容成本難以控制。此外,分級存儲帶來的數(shù)據(jù)遷移工作量巨大,三套存儲的運維也增加了醫(yī)院信息中心的運維成本。
二、道熵分布式存儲在醫(yī)療PACS上的應(yīng)用優(yōu)勢
道熵分布式存儲是一種具有Fail-in-Place高容錯特性的陣列式分布式存儲,每個存儲節(jié)點是一個RAID陣列,通過分布式技術(shù)將多個RAID陣列融合為一個統(tǒng)一的存儲平臺,同時具備磁盤陣列高性能、高穩(wěn)定性與分布式存儲的高擴展性、易管理的特點。
道熵分布式存儲相對于傳統(tǒng)陣列存儲,在大規(guī)模在線擴展、百億級小文件管理、高性能數(shù)據(jù)吞吐、敏捷化運維管理、TCO成本優(yōu)化等方面具有明顯的技術(shù)優(yōu)勢,可以有效解決目前醫(yī)療PACS在存儲上遇到的性能瓶頸、數(shù)據(jù)孤島、運維困難、成本較高等問題,成為醫(yī)療機構(gòu)存儲架構(gòu)的更優(yōu)選擇。
數(shù)據(jù)安全性
道熵分布式存儲采用雙重RAID架構(gòu),同時具備節(jié)點內(nèi)RAID保護和節(jié)點間副本雙重保護機制。而無論是傳統(tǒng)磁盤陣列還是三副本分布式存儲,都只有單層數(shù)據(jù)保護,因此數(shù)據(jù)安全性比同類產(chǎn)品高出一個數(shù)據(jù)級。
存儲硬件錯誤類型非常多,包括磁盤壞道、Firmware bug、靜默錯誤導(dǎo)致數(shù)據(jù)損壞無法及時發(fā)現(xiàn)、電壓不穩(wěn)定導(dǎo)致數(shù)據(jù)未寫入但返回成功、SSD長時間下線導(dǎo)致數(shù)據(jù)丟失、網(wǎng)絡(luò)傳輸錯誤導(dǎo)致數(shù)據(jù)通過網(wǎng)卡后產(chǎn)生bits反轉(zhuǎn)等。
道熵分布式存儲通過對每個數(shù)據(jù)塊產(chǎn)生一個256位校驗碼,作為數(shù)據(jù)塊的元數(shù)據(jù)分開保存,并在數(shù)據(jù)讀出時進行校驗,并利用RAID功能對數(shù)據(jù)進行自修復(fù)。雙重RAID機制結(jié)合數(shù)據(jù)自修復(fù)功能,可確保醫(yī)療影像數(shù)據(jù)最少保存15年而不損壞。
性能提升
道熵分布式存儲對PACS應(yīng)用場景進行了針對性優(yōu)化:PACS影像文件的大小集中在32KB或以上,因此道熵在存儲底層采用32KB塊大小來匹配工作流,每個小文件的讀寫只需消耗1到2次讀寫操作,使得其性能顯著高于傳統(tǒng)存儲和同類分布式存儲。
PACS影像數(shù)據(jù)具有典型的雙模工作流特征,即數(shù)據(jù)在剛產(chǎn)生時的一段時間內(nèi)屬于熱數(shù)據(jù),要求迅速讀取,而當(dāng)熱數(shù)據(jù)冷卻后雖然極少訪問卻需要長期保存。道熵分布式存儲采用高速度的固態(tài)硬盤(SSD)來保存熱數(shù)據(jù),采用大容量的機械硬盤(HDD)來保存冷數(shù)據(jù),并通過智能緩存算法,自動識別并管理熱數(shù)據(jù)。每個存儲節(jié)點可在線增加SSD緩沖容量,以提升性能。
統(tǒng)一存儲平臺
道熵分布式存儲可同時提供塊存儲、對象存儲、POSIX文件系統(tǒng)以及大數(shù)據(jù)分析存儲等,并實現(xiàn)各種數(shù)據(jù)存儲的統(tǒng)一管理。支持FC、iSCSI、NFS、Samba、FTP、SFTP、S3、HDFS、Openstack Cinder/Nova/Glance、VMware VAAI等多種存儲協(xié)議,除了支持PACS醫(yī)療影像系統(tǒng),還可支撐醫(yī)院信息系統(tǒng)HIS、實驗室信息系統(tǒng)LIS、電子病歷EMR、臨床信息系統(tǒng)CIS等醫(yī)院多種業(yè)務(wù)系統(tǒng)。
按需擴容,持續(xù)演進
道熵分布式存儲采用分布式元數(shù)據(jù)管理,使擴容變得極為簡單:只需要通過加入新的硬盤或者服務(wù)器即可實現(xiàn)擴容,支持設(shè)備內(nèi)增加任意數(shù)量的硬盤,性能隨存儲節(jié)點數(shù)線性提升,數(shù)據(jù)的遷移通過集群內(nèi)部高效率的完成,用最少的操作步驟將業(yè)務(wù)影響程度降到了最低。
使用道熵分布式存儲后,原來在線、近線、離線三層架構(gòu)簡化為一套存儲,所有PACS影像都可在線調(diào)閱,并且調(diào)閱性能無差異,消除了PACS數(shù)據(jù)孤島,有效支撐影像大數(shù)據(jù)分析、AI輔助診療等科研和新興業(yè)務(wù)需求。
道熵分布式存儲支持持續(xù)性硬件生命周期管理,可在線更換老舊磁盤、老舊服務(wù)器等硬件,而不影響業(yè)務(wù)連續(xù)性。新增的服務(wù)器品牌、種類可以不同,支持異構(gòu)擴展。存儲硬件的升級換代,只需要通過將新節(jié)點上線、舊節(jié)點下線、數(shù)據(jù)自動遷移就能實現(xiàn),無需人工數(shù)據(jù)遷移。
運維簡化,成本節(jié)省
道熵分布式存儲實現(xiàn)了無人值守的自動化運維,具有自動化報警、自動化故障診斷和極強的自我修復(fù)能力。支持平滑的在線擴容能力,使隨需擴容成為可能。
由于PACS影像數(shù)據(jù)量在快速增長,同時PACS影像按合規(guī)要求保存的時間更長,PACS影像數(shù)據(jù)的存儲成本問題逐漸顯現(xiàn)出來。采用性能和擴展性更高,TCO成本更經(jīng)濟的分布式存儲將成為越來越多醫(yī)聯(lián)體或大型醫(yī)療機構(gòu)的考慮方案。