換掉NAS:用云存儲非結構化數據的八個關鍵點
譯文云存儲想用于存儲非結構化數據,就需要提供與企業存儲系統相當的靈活性、性能和生產力。
云存儲具有的成本效益、規模和可管理性是連***的企業數據中心都根本無法與之匹敵的。
像AWS、谷歌和Azure這些超大規模云存儲服務提供商在去年將價格降低了多達65%,承諾將來會采用遵循摩爾定律的價格模式,言外之意就是價格會一路走低。AWS提供999999999.99%的耐久性,這意味著如果你用亞馬遜S3服務存儲10000個對象,平均而言每10000000年才會遇到丟失一個對象的情況。此外,亞馬遜S3將對象存儲在多個數據中心的多個設備上,旨在經受得住數據在兩個數據中心同時丟失的情況。
遺憾的是,就在不久前,云存儲實際上只適用于平常使用的數據,而不是適用于實際用的數據。換句話說,云存儲成本低、容量大,卻無法提供本地存儲具有的性能。云存儲想適用于存儲非結構化數據,它就需要提供與企業存儲系統相當的靈活性、性能和生產力。成本優勢本身盡管很吸引人,但是光有這一點還不夠。
為了使用云既用于存儲活動數據,又用于存儲非活動數據,一定要讓人覺得它并不遜色于已經部署的本地文件管理器。為了這讓成為實現,就必須滿足下列幾大要求:
* 本地緩存:考慮到用戶期望獲得類似局域網的文件訪問時間,活動數據需要緩存在本地,而非活動數據存儲在云端。雖然大多數數據并不是經常訪問,非常適合放在云端,但是活動數據需要仍然靠近用戶。需要采用基于文件使用情況的機器學習、“固定文件夾”或者結合使用這兩種方法,以確保合適的文件緩存在本地,而不常用的文件放回到云端。
* 全局性重復數據刪除:全局性重復數據刪除確保,只有一個獨特的數據塊存儲在云端、緩存在本地。由于數據塊常常散布于文件上,全局性重復數據刪除可減少存儲在云端的數據量以及在云和本地緩存之間發送的數據量,因為存儲和發送的僅僅是變化的數據塊。比如說,當美國藝電公司(Electronic Arts)使用云存儲來集中組織數據后,總的存儲占用空間從1.5PB減少至僅僅45TB。在辦公室之間傳輸50GB大小的游戲版本所花的時間從多達10個小時縮短到短短幾分鐘,因為實際發送的僅僅是游戲版本的變化部分。
* 類似NAS的響應能力:文件目錄瀏覽的響應速度必須跟本地NAS一樣迅即。為了做到這一點,不僅活動數據應該緩存在本地,所有文件、而不僅僅是緩存文件的元數據也必須緩存在所有站點的固態硬盤上。固態硬盤必不可少,因為用戶可以看到整個文件系統中所有文件的完整表示,盡管不到5%的文件緩存在本地。用戶上下瀏覽網絡驅動器中的文件和文件夾時,一定要讓人“覺得”所有那些文件就在那里。由于一部分文件元數據常常與文件名稱一并顯示,文件鎖定對任何文件來說一定要瞬時完成,即便沒有緩存在本地,所以元數據的訪問要盡可能快。要是沒有緩存中的所有文件元數據,用戶以為其計算機或網絡運行速度緩慢,因為瀏覽文件夾是最最基本的功能之一。
* 支持“繁瑣累贅”的應用程序:應用程序跨站點運行時要與在單一站點時運行時一樣順暢。許多技術類應用程序(CAD、 PLM和BIM)極其繁瑣累贅,通常會將打開、保存或同步文件的時間從本地NAS上的不到30秒增加到云端集中后的超過20分鐘。大多數人以為這是帶寬問題,但實際上這是由于應用程序非常繁瑣累贅。
比如說,一個常見的CAD應用程序有近16000個順序文件操作需要在打開文件之前進行。如果權威副本在同一個局域網上,文件鎖只需要0.5毫秒,那樣打開文件要花8秒(16000 x 0.5毫秒)。然而,如果通過廣域網進行操作,繁瑣累贅的應用程序會引起嚴重延遲。如果集中在錫拉丘茲的某個文件從圣迭戈打開,文件鎖需要86毫秒(從圣迭戈到錫拉丘茲的往返延遲),所以打開文件要花16000 x 86毫秒――大概是22分鐘。實際的數據傳輸所花時間只是22分鐘的幾分之一而已。
#p#
* 數據完整性和跨站鎖定。數據駐留在文件服務器上時,我們只要擔心維護一個一致的副本(只要用戶在編輯文件時,文件被鎖定)。當數據駐留在云端,但是從許多站點訪問時,這種情況發生了變化。為了避免使用云存儲時出現文件受損,你需要兩個機制:
云端數據權威副本與每個站點本地緩存副本之間明確分離。即便出現硬件或電力故障,“事務一致”的文件系統也可以保持文件完整性,而不依賴文件系統檢查或之前的文件版本。這在分布式環境下保證了數據完整性。
跨站點工作的細粒度組件級鎖定,可以鎖定文件的一部分,而不是鎖定全部文件。你在跨站點工作時,云不可能是文件鎖數據的中介。站點之間需要有直接的連接,確保數據***,并保持高效的字節級鎖定。
* 比本地安全更高的安全:尋找四種安全功能,即跨文件系統加密、安全密鑰管理(密鑰根本不該發送到云端或存儲在云端)、鎖管理與其他安全工具整合,以及符合相關的安全標準,比如FIPS 140-2。
* 可以靈活地更換提供商:你根本不知道何時可能需要更換云服務提供商,還記得Nirvanix這家云存儲服務提供商嗎?你可能還想要使用兩家云提供商,實際上使用一家作為輔助站點。全局文件系統應該支持這兩種場景。
有許多公司已經在使用云作為多個站點的主存儲。比如說,C&S Companies和Mead & Hunt這兩家公司都為分布式項目團隊支持云端的Autodesk Revit和CAD文件;藝電公司跨40個站點運行其密集的軟件開發應用程序,文件數據駐留在云存儲中;Milwaukee Electric Tool使用云服務來存儲其所有文件,不過其動機是需要在美國和中國兩地之間協作處理CAD和視頻文件。
許多復雜的應用程序和數據會繼續需要本地SAN或NAS,或者需要行為就像本地SAN或NAS的系統。數據完全性、應用程序類型、文件大小或復雜性以及其他問題意味著,一些數據需要留在企業組織里面。但是傳統存儲成本高、缺乏靈活性――應用程序數據跨多個辦公室共享時更是如此,阻礙著許多公司。找到一種滿足本文概述的上述要求的云存儲解決方案,有望讓云還能成為主存儲方案;到目前為止,云主要扮演災難恢復、備份和存檔這一類角色。
原文標題:Replace your NAS with cloud storage: the 8 key requirements