面對這些可能出現的意外,你的運維團隊準備好了嗎?
一聲巨響,數據中心應聲倒下
羅馬尼亞一家銀行數據中心業務中斷了大約10個小時。原因是數據中心在對消防系統進行測試時,打開了儲存有“煙烙盡”的鋼瓶,“煙烙盡”通過軟管和噴嘴均勻地噴灑在狹小空間、當氣體通過噴嘴釋放時,壓力過大,在釋放“煙烙盡”時發出了異常大的巨響,巨響超過了130分貝,引起振動,服務器和數據存儲設備都因此受到了影響,破壞了設備內部部件,導致銀行的業務癱瘓。實際上,數據中心設備對噪聲也非常敏感,尤其是這種突然的巨響,很容易造成內部電子元器件的失效。(專家點評:有必要在數據中心增加一些消聲設施,提供一個相對安靜的環境,有利于延長設備的使用壽命。)
一輛SUV汽車引發的慘劇
2007年11月位于美國達拉斯的Rackspace公司數據中心遇到了一場無妄之災,一位大型四驅車司機,在開車途中由于糖尿病病發而出現短暫昏迷,汽車一路向前直沖,并從丁字路口處撞向路邊外側的護堤。護堤被撞擊后,沖向空中,并落在了Rackspace公司的數據中心建筑物上,恰好砸在了供電裝置上,一陣火光帶閃電之后,數據中心電力供應中斷,使其業務在數小時內陷入了癱瘓。Rackspace公司為此次事故向客戶支付了350萬美元賠償金,同時還增加了客戶流失的風險。(專家點評:數據中心需具備一定的抗震、抗撞、防火能力,避免遇到這樣的意外故障。)
颶風吹停了數據中心發電機
2012年10月位于美國紐約曼哈頓地區的一處數據中心整套供電系統失效,原因是肆虐一時的颶風桑迪襲擊了曼哈頓。在數據中心的十八層擺放了多臺備用發電機,用于持續提供電力且不至于受到洪水影響。但風暴來襲時直接灌滿了該數據中心建筑的地下室,并且摧毀了應急發電機的燃油泵送系統,遭到海水浸泡的整套電路立刻失去了作用,備用發電系統失效,而十八層電力采用的是市電,當颶風來襲造成整個曼哈頓市電系統故障,數據中心主備供電均故障,造成數據中心斷電,所有應用系統無法運行。
太陽耀斑事件
1989年,太陽耀斑定向瞄準了加拿大魁北克水電電網,導致電網電壓振蕩,造成跳閘保護設備啟用,某個核電站的發電機升壓變壓器***損壞,無法提供服務。太陽耀斑是一種最劇烈的太陽活動,周期約為11年,通過高速度產生強磁場的過程中發出的帶電粒子,對于數據中心和電網是一個毀滅性的災難。這屬于小概率事件,但一旦發生,對數據中心就是致命一擊。
天災之下,數據中心人員是束手無策,還是能夠有所作為?故障突然發生的一刻,運維人員是否真的能在最短時間內有效地完成故障處理?系統是否真的能如預案中快速恢復?這些都是對數據中心故障處理能力的實際考量。良好的培訓和完善的應急預案及演練將有助于意外事件的應對。
災難恢復演練
以農業銀行***全行參與的數據中心信息系統業務級災難恢復演練為例,包括事件響應、預警準備、系統恢復、業務驗證和總結回退等5個階段,10分鐘內完成了總分行災難恢復人員集結;在75分鐘內恢復了公共應用、內部核算、單折、銀行卡、客戶信息、聯行、現金管理、庫房現金及表外等9大類核心業務,并通過了全國36家分行營業網點的業務驗證,業務驗證成功率為99.94%。
未雨綢繆,多手準備
桑迪颶風之后,發現許多企業并沒對燃料供應鏈有足夠的關注。數據中心災難計劃把備用發電機作為重中之重:當燃料被耗盡之前,所有的工程項目和技術、系統都可以表現得很好,直到柴油燃料被悲劇般地耗盡了……。
即使企業能夠獲得燃料供應商的支持,他們也要防止在需要的時候遭遇災害事故引起的交通癱瘓問題。這些問題可能會在其他情況下發生,如地震、颶風、龍卷風造成的重大民用基礎設施損害。而我們從桑迪颶風中所汲取到的一個關鍵的教訓便是,需要在燃料的供應鏈冗余、地理和備用運輸路線方面投入更多的關注。
人員培訓
當發生天災時,人員的冗余問題固然是必需的,這樣不會造成單一某一個人成為企業操作的關鍵,但是一旦發生百年難遇的特大災難時,事前安排N+1個人可能也是不夠的。像發生桑迪這樣的災難時,更廣泛的交叉培訓將幫助數據中心解決很大的難題。