大數據如何為備份和恢復改變游戲規則?
譯文在如今的分布式數據庫中,想針對所有那些PB級的數據獲得一份可靠的快照并非易事。
這是IT界眾所周知的事實:改變軟件堆棧的一部分,你很有可能要改變另一個部分。如果舉個明顯的例子,只要看看大數據。
首先,大數據徹底改變了數據庫領域,帶來了一批新的“向外擴展型”技術。Hadoop、MongoDB和Cassandra之類的產品就體現了這一點:數據分布在多臺商用服務器上,而不是被塞入到一臺大型服務器上。當然,這么做的優點在于靈活性:若想容納更多PB級的數據,你只需要添加另外一兩臺廉價的服務器,而不是“向上擴展”,支付大筆費用購買更龐大的服務器。
這一切很好,不過現在出現了一個新的棘手問題:備份和恢復。
知名調研機構Gartner的副總裁戴夫·拉塞爾(Dave Russell)說:“傳統的備份產品處理數量非常多的數據時面臨挑戰。架構具有的向外擴展性對傳統的備份應用軟件來說也難以處理。”
拉塞爾表示,如今的橫向擴展型數據庫確實包括可用性和恢復方面的一些功能,但是它們通常不如IT用戶已經習慣的那些功能來得強大、可靠。
如果出現系統停運,這個問題就會導致大企業岌岌可危。不過與此同時,一類新的數據保護產品開始浮出水面。Datos IO公司的RecoverX就是其中之一。
Datos IO的聯合創始人兼首席執行官塔倫·塔庫爾(Tarun Thakur)說:“如果你有一個傳統的數據庫,比如甲骨文或MySQL,它又是向上擴展的,那么始終存在持久性日志(durable log)這個概念。”
在這類情況下,如果出現了問題,該日志的副本就成為了備份。
在如今下一代數據庫盛行的世界(數據分布在多臺小型機器上),這并不是那么簡單。
塔庫爾解釋道:“根本沒有持久性日志這個概念,因為沒有主系統,每個節點都在處理各自的事務。不同的節點可能獲得不同的權利,每一個節點對于操作有不同的視圖。”
這一方面是由于為了適應通常所說的大數據的“三個V”:數量、速度和種類而做出的取舍。具體來說,為了提供可擴展性,同時適應以越來越快的速度向我們涌來的海量數據,如今的分布式數據庫背離了傳統關系數據庫通常承諾的“ACID”標準。相反,它們采用了所謂的“BASE”原則。
這是一個重大區別。最密切相關的是,相比傳統數據庫承諾在整個過程中有很強的一致性(也就是ACID中的“C”),分布式數據庫而是力爭實現所謂的“最終一致性”。更新會遲早體現在數據庫的所有節點中,不過存在時間滯后。
塔庫爾說:“如果你需要可擴展性,就需要放棄一致性――你必須得放棄其中一個。”
這樣一來就很難為時間點恢復獲得全局的一份可靠快照。451 Research的研究副總裁西蒙·魯賓遜(Simon Robinson)表示,不僅更難在任何一個給定的時間點跟蹤哪些數據可能轉移到了分布式數據庫中的哪個地方,如果數據出現了損壞,常常被“整合”到更新穎分布式數據庫中的彈性功能(比如復制)也無法保護你。
他說:“你剛剛復制了那個損壞的數據。”
本月早些時候,Datos IO推出了RecoverX,借助功能特性(包括所謂的可擴展版本控制和語義重復數據刪除),解決那些問題。該公司表示,其結果是,與集群一致的備份不僅節省空間,還能夠以原生格式出現。
索維克·達斯(Souvik Das)就在不久前還是第一資本汽車金融公司(CapitalOne Auto Finance)的首席技術官兼主管工程技術的執行副總裁,他對備份難題可是深有體會。
達斯表示,使用了多年的傳統數據庫后,第一資本早在幾年前進行了一次“巨大的轉變”,包括推出新的分布式技術,比如Cassandra。現在,他是面向醫療保健行業的初創公司Grand Rounds主管工程技術的高級副總裁。
這就意味著為備份和恢復尋找一種新的策略。
他解釋道:“大多數備份廠商和軟件通常適應它們備份的系統的類型。”
他表示,如果使用老式備份產品的同時使用新式的分布式數據庫,可能會帶來麻煩。
達斯說:“不是該軟件會因不知道如何備份新的數據存儲系統而完全失效,就是它會以一種很不理想的方式運行。我們知道,那樣的話,我們就要使用不同的備份解決方案。”
達斯表示,第一資本一直在評估Datos IO以及這個領域的另一家大廠商:Talena。
提供較傳統備份產品的廠商也在針對大數據,逐步調整自己的技術。
451 Research的羅賓遜說:“老牌的備份廠商通常需要一些時間來支持新穎的技術。”
他補充說:“回到10年前,最初為VMware虛擬機輕松進行備份是件很難的事情。這就給了Veeam之類的廠商大好機會,得以從老牌廠商的眼皮子底下進入并搶奪虛擬機備份市場。”