超融合超越企業(yè)傳統(tǒng)存儲繞不開的六個問題
原創(chuàng)【51CTO.com原創(chuàng)稿件】 在虛擬化及云計算技術(shù)大規(guī)模應(yīng)用于企業(yè)數(shù)據(jù)中心的科技浪潮中,存儲性能無疑是決定企業(yè)核心應(yīng)用是否能被虛擬化、云化的關(guān)鍵考量指標(biāo)之一。傳統(tǒng)的做法是升級存儲設(shè)備,從低端、中端到高端存儲,但這沒解決根本問題,性能和容量仍不能兼顧,并且不能很好的解決異構(gòu)設(shè)備利舊和架構(gòu)擴(kuò)展的問題。因此,企業(yè)需要一種大規(guī)模分布式存儲管理軟件,能夠充分利用已有的硬件資源,在可控成本范圍內(nèi)提供***的存儲性能,并能根據(jù)業(yè)務(wù)需求變化,從容量和性能兩方面同時快速橫向擴(kuò)展。這也是當(dāng)今軟件定義存儲興起的現(xiàn)實基礎(chǔ)。
超融合架構(gòu)(Hyperconvergence Infrastructure, 簡稱HCI)將虛擬化計算和存儲整合到同一個系統(tǒng)平臺,通過軟件來統(tǒng)一管理。簡單的說就是物理服務(wù)器上運行虛擬化軟件(Hpyervisor),通過在虛擬化軟件上運行分布式存儲服務(wù)供虛擬機(jī)使用。分布式存儲可以運行在虛擬化軟件上的虛擬機(jī)里,也可以是與虛擬化軟件整合的模塊。廣義上講,除了虛擬化計算和存儲,超融合架構(gòu)還可以整合網(wǎng)絡(luò)以及其他更多的平臺和服務(wù),為企業(yè)實現(xiàn)可擴(kuò)展的 IT 基礎(chǔ)架構(gòu)。
歷史經(jīng)驗一再表明,由技術(shù)進(jìn)步推動的變革往往以超乎人們想象的速度和烈度發(fā)生著。面對新的變革和潮流,在追逐新技術(shù)潮流變化的同時,我們還需冷靜思考可能帶來的問題。在企業(yè)級數(shù)據(jù)中心,如何正確認(rèn)識超融合和傳統(tǒng)存儲?如何能提高性能和降低成本,并可控風(fēng)險?這些都需要我們從實際出發(fā),辯證和客觀的去看待。
問題一、企業(yè)傳統(tǒng)存儲與超融合差別在哪里?
企業(yè)傳統(tǒng)存儲架構(gòu)***的問題有如下幾個方面:1.存儲資源集中化,很難隨著計算資源擴(kuò)展而擴(kuò)展,無法適應(yīng)數(shù)據(jù)中心的這種可靈活擴(kuò)展的需求。2.采用存儲與計算分離的這種架構(gòu),需要獨立的網(wǎng)絡(luò)、獨立的存儲與獨立的計算。為了提高系統(tǒng)可用性,需要通過資源冗余的方式達(dá)到設(shè)計目標(biāo)。因此,網(wǎng)絡(luò)、存儲控制器(雙控或多控)都會進(jìn)行多份冗余,增加了數(shù)據(jù)中心的投資。3.多種不同的存儲系統(tǒng)在數(shù)據(jù)中心中進(jìn)行部署無疑增加了數(shù)據(jù)中心的管理復(fù)雜度。尤其是后端多種類型的存儲設(shè)備,增加了數(shù)據(jù)中心的管理成本。
采用超融合架構(gòu),它明顯的優(yōu)點是易于擴(kuò)展,最小部署,按需擴(kuò)容。具體表現(xiàn)在:1.完全軟件定義。獨立于硬件,采用商業(yè)通用標(biāo)準(zhǔn)硬件平臺(如X86),完全采用軟件實現(xiàn)計算、存儲、網(wǎng)絡(luò)等功能。2.實現(xiàn)統(tǒng)一管理。以虛擬化計算為中心,計算、存儲、網(wǎng)絡(luò)均由虛擬化引擎統(tǒng)一管理和調(diào)度,軟件定義屏蔽了以往異構(gòu)設(shè)備的復(fù)雜性。3.完全分布式,去中心化。橫向擴(kuò)展的分布式系統(tǒng),計算、存儲、網(wǎng)絡(luò)按需進(jìn)行動態(tài)擴(kuò)展,系統(tǒng)不存在任意單點故障,采用分布式存儲可實現(xiàn)去中心化。
問題二、傳統(tǒng)存儲與超融合分布式在數(shù)據(jù)一致性方面的區(qū)別
數(shù)據(jù)一致性是指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整,可以理解為應(yīng)用程序運行的數(shù)據(jù)狀態(tài)與最終寫入到磁盤中的數(shù)據(jù)狀態(tài)是否一致。在企業(yè)核心應(yīng)用高并發(fā)業(yè)務(wù)場景下,數(shù)據(jù)一致性的保障可大大提高系統(tǒng)的可靠性和容錯性。引起數(shù)據(jù)一致性問題的一個主要原因是位于數(shù)據(jù)I/O路徑上的各種Cache或Buffer(包括數(shù)據(jù)庫Cache、文件系統(tǒng)Cache、存儲控制器 Cache、磁盤Cache等)。由于不同系統(tǒng)模塊處理數(shù)據(jù)IO的速度是存在差異的,所以就需要添加Cache來緩存IO操作,適配不同模塊的處理速度。這些Cache在提高系統(tǒng)處理性能的同時,也可能會“滯留”IO操作,帶來一些負(fù)面影響。如果在系統(tǒng)發(fā)生故障時,仍有部分IO“滯留”在IO操作中,真正寫到磁盤中的數(shù)據(jù)就會少于應(yīng)用程序?qū)嶋H寫出的數(shù)據(jù),造成數(shù)據(jù)的不一致。當(dāng)系統(tǒng)恢復(fù)時,直接從硬盤中讀出的數(shù)據(jù)可能存在邏輯錯誤,導(dǎo)致應(yīng)用無法啟動。
首先從緩存管理上看,傳統(tǒng)存儲和超融合的分布式緩存管理是不一樣的。首先,傳統(tǒng)存儲是集中式緩存一致性管理。在這種緩存管理模式下,集群中所有節(jié)點均不維護(hù)本地緩存,而是所有節(jié)點共享訪問一個集中存放的緩存,數(shù)據(jù)在緩存中只有一份副本,不會也不可以出現(xiàn)多份副本。該緩存管理架構(gòu)的優(yōu)點是天然的緩存一致性,因為不存在多個副本,不需要特殊過程來維護(hù)緩存一致性。對于高端存儲系統(tǒng)而言,該設(shè)計的劣勢是緩存需要集中放置,需要使用某種外部網(wǎng)絡(luò)來連接集中的緩存,而且提供異步化的類似IO的訪問方式,編程復(fù)雜,難以掌控和優(yōu)化,需要投入大量成本。
而超融合分布式的緩存管理則是集群中的每個節(jié)點都有自己獨享的緩存,這種情況會給緩存一致性管理上帶來極大的復(fù)雜性,當(dāng)然,所獲得的收益便是一旦***則性能會非常好。所謂對稱式指的是集群中所有節(jié)點在緩存管理的地位上是均等的,都可以自行控制管理各自的緩存。所謂任意關(guān)聯(lián),則是指任意節(jié)點均可以緩存任意數(shù)據(jù)塊,數(shù)據(jù)塊大小視不同產(chǎn)品設(shè)計靈活而定。因為可以任意緩存,所以會導(dǎo)致多個集群節(jié)點同時緩存有同一個數(shù)據(jù)塊的多個不同版本的副本,從而導(dǎo)致一致性問題。解決的辦法則是效仿多CPU緩存一致性管理方面的思路,采用MESI一致性基本協(xié)議及其變種,可以在盡量減少廣播通信的前提下實現(xiàn)任意關(guān)聯(lián)分布式緩存一致性。該設(shè)計的優(yōu)點是可以充分利用緩存空間,劣勢是成本高,因為需要一個低時延的網(wǎng)絡(luò)來實現(xiàn)MESI協(xié)議流量,否則性能將很差;另外,需要一個高速搜索算法來搜索對應(yīng)目標(biāo)數(shù)據(jù)塊在緩存中的位置,必要時引入硬加速比如TCAM等,導(dǎo)致成本再次增加。
還有就是分布式的系統(tǒng)常常受制于CAP定律。CAP定律說的是在一個分布式計算機(jī)系統(tǒng)中,一致性、可用性和分區(qū)容錯性這三種保證無法同時得到滿足,最多滿足兩個。眾所周知,分布式事務(wù)一般采用兩階段提交策略來實現(xiàn),這是一個非常耗時的復(fù)雜過程,會嚴(yán)重影響系統(tǒng)效率,在實踐中我們盡量避免使用它。在實踐過程中,如果我們?yōu)榱藬U(kuò)展數(shù)據(jù)容量將數(shù)據(jù)分布式存儲,而事務(wù)的要求又完全不能降低。那么,系統(tǒng)的可用性一定會大大降低,在現(xiàn)實中,我們一般都采用對這些數(shù)據(jù)不分散存儲的策略。
從以上分析來看,傳統(tǒng)存儲與超融合分布式的數(shù)據(jù)一致性還是有明顯區(qū)別的,在具體業(yè)務(wù)場景中,需要綜合成本、性能、穩(wěn)定性方面來綜合考量和選擇。
問題三、企業(yè)級數(shù)據(jù)服務(wù)的高級功能
目前,在大多數(shù)超融合系統(tǒng)和SDS系統(tǒng)都具備了核心的企業(yè)級功能,包括數(shù)據(jù)冗余、自動精簡配置、快照、克隆、SSD Cache/Tier、數(shù)據(jù)自動重建、高可用/多路徑等數(shù)據(jù)功能,但有些高級功能例如重復(fù)數(shù)據(jù)刪除、數(shù)據(jù)加密、數(shù)據(jù)壓縮等還是缺失的。相對于高端存儲系統(tǒng),如果超融合架構(gòu)要承載核心關(guān)鍵應(yīng)用,還有一些差距,包括但不限于QoS控制、數(shù)據(jù)保護(hù)、數(shù)據(jù)遷移、備份容災(zāi)、一致性的高性能。核心存儲系統(tǒng)應(yīng)該遵循RAS-P原則,先做好穩(wěn)定可靠性,其次是企業(yè)數(shù)據(jù)功能完備性,***才是高性能,這個順序不能亂,光有高性能是不行的。
目前超融合架構(gòu)中,許多兩副本和三副本的解決方案也是在同一個數(shù)據(jù)中心內(nèi)或同一POD里,跨數(shù)據(jù)中心的容災(zāi)幾乎沒有。還有就是存儲雙活和仲裁,目前VSAN支持存儲雙活,還引入了WITNESS組件。但其他超融合解決方案還沒有支持應(yīng)用雙活的案例。
對于超融合來說,如果缺少完整可靠的數(shù)據(jù)服務(wù)能力則意味著采用這個解決方案的客戶仍然需要購買額外的存儲系統(tǒng)來填補(bǔ)原有解決方案所缺少的功能。
目前,核心關(guān)鍵業(yè)務(wù)系統(tǒng)還不太敢往超融合架構(gòu)上遷移,主要還是從非核心業(yè)務(wù)開始檢驗,畢竟超融合出現(xiàn)時間還比較短,需要更多的時間做實踐驗證。但是,我們有理由相信未來超融合必定是可以支持核心關(guān)鍵業(yè)務(wù)的主流架構(gòu)。
問題四、如何進(jìn)行數(shù)據(jù)生命周期管理
隨著企業(yè)業(yè)務(wù)發(fā)展以及各種平臺、系統(tǒng)的建立,這意味著需要管理的數(shù)據(jù)量越來越龐大,資源維護(hù)成本越來越高,效率越來越低。那么,面對企業(yè)對數(shù)據(jù)的不同時效、不同訪問頻率、不同重要性等要求,如何降低數(shù)據(jù)存儲和使用維護(hù)成本,對不同數(shù)據(jù)進(jìn)行生命周期管理是非常有必要的。
結(jié)合業(yè)界的相關(guān)標(biāo)準(zhǔn)規(guī)范,企業(yè)需要對IT系統(tǒng)的數(shù)據(jù)進(jìn)行必要的歸類。目前,根據(jù)系統(tǒng)的業(yè)務(wù)特點,比較流行的數(shù)據(jù)歸類包括:生產(chǎn)交易型數(shù)據(jù)、服務(wù)支撐型數(shù)據(jù)與系統(tǒng)日常數(shù)據(jù)三部分。
根據(jù)數(shù)據(jù)歸類,不同類別的數(shù)據(jù)應(yīng)匹配不同的數(shù)據(jù)存儲策略。數(shù)據(jù)存儲策略就是將不同的數(shù)據(jù)存放在指定的存儲設(shè)備上。目前,主要的存儲設(shè)備主要分成在線存儲、近線存儲、離線歸檔存儲這三種常用存儲。
在傳統(tǒng)企業(yè)存儲中,通過分級存儲策略,根據(jù)數(shù)據(jù)不同的重要性、訪問頻次等指標(biāo)把數(shù)據(jù)分別存儲在不同性能的存儲設(shè)備上,并采取不同的存儲方式。這樣一方面可以大大減少非重要性數(shù)據(jù)在一級本地磁盤所占用的空間,還可加快整個系統(tǒng)的存儲性能。
對于超融合分布式存儲來說,目前還未充分考慮到數(shù)據(jù)生命周期的管理,對于冷熱數(shù)據(jù)雖然也有存儲區(qū)域上的區(qū)分,但基本都是拿閃盤來做緩存加速,還不能有效做到分級存儲,來滿足企業(yè)對于大量不同數(shù)據(jù)的精細(xì)化管理和生命周期管理。
問題五、企業(yè)傳統(tǒng)存儲與超融合是對立還是共存互補(bǔ)?
傳統(tǒng)企業(yè)的IT一般都經(jīng)過了若干年的發(fā)展,形成了自己特有的基礎(chǔ)架構(gòu)和硬件設(shè)施。企業(yè)采購的服務(wù)器、存儲等IT資源都是固定資產(chǎn),往往希望將淘汰或過保的這些資源進(jìn)行利舊,從而達(dá)到保護(hù)投資的目的。而且在企業(yè)中,還有相當(dāng)一部分的傳統(tǒng)IT應(yīng)用仍然運行在物理服務(wù)器和傳統(tǒng)存儲系統(tǒng)之上。我們可以樂觀地認(rèn)為沒有哪一種應(yīng)用程序不能被部署在超融合基礎(chǔ)架構(gòu)上,但是考慮到運行效率、硬件依賴性以及和虛擬化環(huán)境兼容性等因素,很多IT應(yīng)用***還是繼續(xù)保持運行在物理硬件架構(gòu),比如關(guān)鍵數(shù)據(jù)庫應(yīng)用、實時控制系統(tǒng)以及大量遺留IT系統(tǒng)。當(dāng)然許多業(yè)務(wù)場景,需要靈活的擴(kuò)展性和彈性配置,也非常適合超融合的架構(gòu),我們也會根據(jù)需求來決定是否采用超融合解決方案。
大多數(shù)的超融合解決方案都希望數(shù)據(jù)中心可以“完全投入”,即用超融合解決方案自帶的基礎(chǔ)架構(gòu)和流程替換數(shù)據(jù)中心現(xiàn)有的存儲硬件、基礎(chǔ)架構(gòu)和流程。他們通常希望數(shù)據(jù)中心摒棄共享式集中存儲硬件,而支持商業(yè)化的超融合架構(gòu)。這種想法有點激進(jìn),容易讓超融合站在傳統(tǒng)存儲的對立面,而又不能解決實際的問題。企業(yè)級數(shù)據(jù)中心的演變一定是一個漸變的過程,所以企業(yè)傳統(tǒng)存儲與超融合不是對立的關(guān)系,而是共存和互補(bǔ)的關(guān)系,只有面對企業(yè)現(xiàn)實場景和具體問題,各自發(fā)揮自己的優(yōu)勢和特長,解決問題才是達(dá)到真正的和諧與共贏。
問題六、與同類廠商比,缺少合理的計價模式
超融合解決方案大部分按照容量包獲得許可。許多軟件還針對高級功能收取額外費用。這就造成了一個問題,因為大部分?jǐn)?shù)據(jù)中心從來都不能確定自己合適的容量限點來充分利用容量打包價格的優(yōu)勢。例如,一個初級容量包可提供5-10TB的存儲服務(wù),更高一級的容量包則支持10-25TB。如果企業(yè)需要12TB存儲容量怎么辦?這就意味著企業(yè)為了支持多出的2TB的容量,必須升級到25TB的容量許可。其實根據(jù)容量來算多少錢,這個方法并不公平。如果按能提供多少個IOPS來算錢?這個才比較公平。這兩種方法實際上有差別,***個,全閃存這個性價比非常的高。但是,這個價格也比較高,是混合型的3倍,很多用戶接受不了這樣高的價值。很多用戶還是希望容量和性能的匹配。
另外大部分超融合解決方案都會忽視的另一項成本是:不支持現(xiàn)有基礎(chǔ)架構(gòu)和存儲系統(tǒng)所產(chǎn)生的相關(guān)成本。這樣在實現(xiàn)異構(gòu)統(tǒng)一管理的過程中,還需開發(fā)相應(yīng)的接口和API,這些隱形成本也是一筆不小的開支。
基于超融合未來良好的發(fā)展前景,各廠商也紛紛推出了超融合一體機(jī)產(chǎn)品。這種一體機(jī)很明顯的優(yōu)勢就是降低了成本,簡化了部署,提高了可用性,加快了業(yè)務(wù)上線時間,但也有擴(kuò)展性和兼容性方面的一些問題。因此,還需結(jié)合企業(yè)特點做深度定制并針對不同的業(yè)務(wù)場景進(jìn)行性能優(yōu)化,充分利用它的計算、存儲、網(wǎng)絡(luò)融合的硬件架構(gòu)優(yōu)勢和分布式存儲高吞吐、高IOPS的特點,進(jìn)一步整合高速網(wǎng)卡、SSD閃存等硬件的優(yōu)異性能,從而使得產(chǎn)品整體性能相比業(yè)界同類平臺得以大幅提升,滿足不同行業(yè)的需求才更有市場。
超融合的未來
隨著云服務(wù)的崛起,比較精準(zhǔn)的VM管理、系統(tǒng)級QoS,數(shù)據(jù)分析和挖掘都是未來的增值重點。未來5-10年,新一代數(shù)據(jù)中心基礎(chǔ)架構(gòu)會朝著軟件定義和超融合方向發(fā)展,SAN/NAS存儲逐漸被軟件定義的存儲所替代,超融合架構(gòu)將成為數(shù)據(jù)中心基礎(chǔ)架構(gòu)的核心。雖然現(xiàn)階段超融合還有許多問題,但是不妨礙它的優(yōu)秀。同時,我們看到超融合是一個不斷演進(jìn)的架構(gòu),是一個充滿生機(jī)和活力的商業(yè)模式,未來潛在的市場空間巨大,在未來也會發(fā)展的更好!
【51CTO原創(chuàng)稿件,合作站點轉(zhuǎn)載請注明原文作者和出處為51CTO.com】