數據中心停機事故的教訓:關注基礎設施
在過去一年中,大多數停機事故都是由已知原因引起的,并且可通過強大的設計和流程進行預防。
根據調研機構Uptime Institute公司在2018年夏季公布的調查結果,近三分之一的數據中心在過去一年中出現了停電,而2017年則為25%。但這一增長并不是由于一些致命的新惡意軟件造成的。
相反,導致停機的三大原因是斷電(33%)、,網絡故障(30%)以及IT或軟件錯誤(28%)。
最重要的是,80%的數據中心管理人員表示這些停機事件是可以預防的。
但卻無法阻止雷擊(例如2018年9月雷擊摧毀了微軟Azure在圣安東尼奧市數據中心)或零日惡意軟件攻擊。但是,但是,通過適當的規劃和數據中心設計,由于意外天氣事件、攻擊、例行人為錯誤或未調度系統導致的停機可以最大限度地減少影響。
在中斷發生后,使數據中心快速啟動并運行同樣重要。根據信息技術情報咨詢公司今年的報告,數據中心運營商一小時的停機時間的損失平均為260,000美元,而5分鐘的停機時間損失僅為2,600美元。
基礎設施冗余仍然有效
在最基本的層面上,數據中心系統需要備份。備份電源主冷卻系統,備份數據,甚至備份整個數據中心。
Uptime Institute公司表示,很多企業需要擁有2N冷卻和電源架構的數據中心,換句話說,需要一個完全冗余的鏡像系統。在去年有22%的用戶經歷了停電。與那些采用價格更低,不完全冗余的“N+1”方法的人相比,減少了三分之一的中斷,這些人中有33%的人報告了停機事件。
而整體數據中心的備份可提供更高的可靠性。根據Uptime的調查數據,40%的數據中心管理人員表示他們會在兩個或多個數據中心復制工作負載和數據。
“如果有一個數據中心并且有雷擊,那么你就會宕機失敗。”SSH通信安全首席技術官Markku Rossi表示,“企業應該有一個輔助數據中心,它們之間存在物理隔離,因此它們不依賴于相同的電源。”
他補充說,沒有任何數據中心能夠免受這個問題的影響,他以微軟公司美國中南部的數據中心受雷擊為例。
“如果有第二個數據中心,可以立即實現故障轉移。”他說。
Rossi補充說,無論備份系統處于什么位置,計劃和測試都是關鍵,并且計劃需要考慮到當今數據中心的復雜性,在這些數據中心,一些問題可能觸發其他問題。
他以最近GitHub公司的數據中心在維護期間發生的中斷為例。他們在幾分鐘內就解決了物理問題,但是需要24小時才能使數據正確同步。
數據中心管理人員需要查明潛在的問題區域,然后在發生事情時準備好工具和流程。
Rossi說:“集中精力建立流程,建立為失敗做準備的心態。”
不僅僅在周邊加強安全
數據中心管理人員應該從最近發生的與惡意軟件相關的中斷中吸取的最大教訓之一就是,擁有一個強化的邊界已經不夠了。攻擊者可以進行攻擊。
2018年,很多醫療保健公司、政府機構、教育機構和主要制造商都受到了沖擊,盡管在去年創紀錄的違規行為之后,每個人都應該已經處于高度戒備狀態。
顯然,保持最新的防御措施以防止惡意軟件首先進入是至關重要的。但數據中心管理人員必須做好準備,以防周邊防御失敗,并具有二級保護。
其中包括惡意流量檢測機制,網絡防御(如分段)和最低權限的訪問和通信方法。
總部位于以色列的網絡安全服務商Guardi Core公司產品管理總監Igor Livshitz說,這些可能有助于防止惡意軟件進入網絡后傳播,或者至少減慢它的速度,以便讓安全團隊有機會做出回應。
WannaCry特別利用了服務器消息塊傳輸協議中的漏洞利用。他說,數據中心應該采取更多措施來減少橫向通信。
“在過去一年中WannaCy勒索軟件的許多案例中,攻擊廣泛影響的主要驅動因素是,一旦這些蠕蟲在數據中心內占領立足之地,就很容易擴散。”Livshitz說,“事實上,服務器之間的SMB流量根本不是必需的。如果它被阻止,攻擊的擴散和對數據中心的破壞可能會大大減少,并且在它造成如此大的破壞之前的早期階段檢測到攻擊。”
從2018年的違規事件中得到的教訓是,數據中心的管理者必須面對一個新的威脅。他們需要重新回歸基礎。
幾乎所有的數據中心停機都是由于糟糕的規劃和投資決策,加上流程不良或無法遵循流程,Uptime Institute研究執行主任Andy Lawrence在2018年6月的調查報告中寫道。“Uptime Institute報告或研究的幾乎所有故障都發生過,并且經常有很好的記錄。”
閃電襲擊和新型惡意軟件可能占據行業頭條新聞,但是當涉及到彈性時,數據中心基礎設施的安全性仍然是最重要的。