為什么重復數(shù)據(jù)刪除對于云存儲而言如此重要?
譯文【51CTO.com快譯】大多數(shù)人認為云存儲服務較實體存儲更便宜。畢竟大家可以根據(jù)性能與訪問需求以每TB每年276美元甚至更低的價格租用存儲資源。相比之下,企業(yè)數(shù)據(jù)倉庫的每TB每年使用成本一般在2500美元到4000美元之間。
然而除了一級數(shù)據(jù)之外,大家還需要在云環(huán)境下對數(shù)據(jù)進行備份或者副本保存,這無疑會令資源使用支出大幅提升。設想一下,若企業(yè)需要以三年為周期每月保留100 TB備份數(shù)據(jù),則其原始備份數(shù)據(jù)約等于3.6 PB,每月支出將超過83000美元。而且這還不算數(shù)據(jù)訪問以及檢索帶來的成本。
正因為如此,高效的重復數(shù)據(jù)刪除技術對于內部及云存儲體系皆極為重要,特別是在企業(yè)需要長期保留其歸檔數(shù)據(jù)的情況下。事實證明,如果無法進行重復數(shù)據(jù)刪除處理,云環(huán)境下的存儲資源使用成本將迅速提升至無法接受的水平。
云存儲的承諾:成本低廉、可擴展、永遠可用
云存儲一直被視為一種廉價、可靠且能夠***擴展的資源——事實也基本就是如此。AWS S3等對象存儲服務每月每TB的標準層使用成本僅為23美元,連續(xù)訪問層則為每TB 12.5美元。眾多現(xiàn)代應用已經能夠發(fā)揮對象存儲的既有優(yōu)勢。云服務供應商提供自己的文件或者塊存儲選項,例如AWS EBS每月每TB塊存儲資源成本為100美元,且可按小時計費。亦有不少第三方方案可作為后端用于將傳統(tǒng)文件或塊存儲同對象存儲系統(tǒng)對接。
即使是每年每TB 1200美元的AWS EBS,其使用成本也僅為內部解決方案的二分之一到三分之一,而且后者還需要更高昂的前期投入。正因為如此,企業(yè)紛紛選擇云存儲以降低運營成本及前期投入,且享受由此帶來的按使用量計費收益(而非像傳統(tǒng)方案那樣購置遠超實際需求的資源容量)。
云存儲成本的爆表之路:無窮無盡的副本
云存儲與傳統(tǒng)內部存儲間的成本差異在于,前者的成本要素更為分散。云存儲的成本要素主要包括:
1)一級數(shù)據(jù)存儲成本,包括對象或者塊存儲。
2)副本、快照、備份或數(shù)據(jù)歸檔的成本。
3)數(shù)據(jù)傳輸成本。
***項之前已經討論過了,下面看看后兩項。
數(shù)據(jù)副本。這與您存儲在云內的具體數(shù)據(jù)量無關——上傳數(shù)據(jù)并不收費,而且存儲單一副本也用不了多少投入。最可怕的是保存多份數(shù)據(jù)副本——包括備份、歸檔或者其它需求——這會在不經意間帶來可怕的支出。即使大家并未主動進行數(shù)據(jù)復制,應用程序或數(shù)據(jù)庫的內置數(shù)據(jù)冗余與數(shù)據(jù)復制功能亦會默認擴大資源需求。
在云環(huán)境中,每套副本都會產生與原始對象相同的成本。雖然云供應商可能會在后臺進行重復數(shù)據(jù)刪除或壓縮,但這種情況并不常見。以消費級云存儲服務Dropbox為例,復制十套文件副本即會占用十倍的存儲配額。
對企業(yè)而言,這意味著快照、備份與歸檔數(shù)據(jù)都會產生額外費用。舉例來說,AWS EBS的每月存儲快照成本為每GB 0.05美元。雖然快照會進行壓縮并僅存儲增量數(shù)據(jù),但由于不具備重復數(shù)據(jù)刪除機制,100 TB數(shù)據(jù)集的快照每年需要花費60000美元。
數(shù)據(jù)訪問。公有云供應商通常會向不同云服務區(qū)或者云外部間的數(shù)據(jù)傳輸收費。例如在不同Amazon服務區(qū)間移動或復制1 TB的AWS S3數(shù)據(jù)會帶來20美元成本,而將其移動至互聯(lián)網的成本則為90美元。事實上,GET、PUT、POST、LIST以及DELETE等請求都會產生對應的數(shù)據(jù)訪問成本。
重復數(shù)據(jù)刪除對于云存儲的重要意義
云應用在設計上具備分布式特性,且標準部署在非關系型大規(guī)模可擴展數(shù)據(jù)庫內。在非關系型數(shù)據(jù)庫中,即使不進行復制,大多數(shù)數(shù)據(jù)仍然屬于冗余信息。以MongoDB或者Cassandra為例,其復制因子為3,意味著為了確保數(shù)據(jù)完整性,其會在分布式集群中保留3份副本。
備份或者次級副本通常由快照進行創(chuàng)建及維護。數(shù)據(jù)庫體系結構決定當我們保存快照時,實際上同時也制作出了三份副本。
不僅是重復數(shù)據(jù)刪除——還有重復語義刪除
大多數(shù)重復數(shù)據(jù)刪除技術作用于存儲層,即對數(shù)據(jù)塊進行重復刪除。這種作法對于SAN或NAS等集中式存儲非常有效,但卻不太適用于MongoDB等分布式數(shù)據(jù)庫的數(shù)據(jù)層。在這一領域,重復刪除技術需要解決兩大基本問題:
1)需要立足數(shù)據(jù)層起效,而非存儲層。為了在分布式集群中實現(xiàn)重復數(shù)據(jù)刪除,軟件需要理解并解釋底層數(shù)據(jù)結構。
2)需要搶在冗余數(shù)據(jù)被寫入數(shù)據(jù)庫前將其清除。一旦數(shù)據(jù)寫入,則會在集群內進行復制,這意味著必須利用實時重復數(shù)據(jù)刪除方可解決。
原文標題:Why Deduplication Matters for Cloud Storage
原文作者:Jeannie Liou
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】