云彈性指南:最大限度地提高安全性,最大限度地減少停機時間
毫不奇怪,云彈性是本世紀20年代IT界的熱門詞匯。確保抵御網絡攻擊和勒索軟件勒索的彈性,以及從IT中斷中快速恢復的能力,對于當今的組織來說是至關重要的。如果沒有彈性的IT和應用基礎設施,操作業務流程很容易發生故障。
所有大型云提供商都提供彈性服務和功能。然而,任何CIO或IT專業人員都不應認為將所有工作負載轉移到云端就可以保證完全的彈性。云提供的是積木,而不是現成的童話城堡。相反,安全架構師和業務連續性管理專家必須巧妙地將功能和服務結合起來。
● 內部彈性著眼于應用或數據庫崩潰的挑戰,而不受外部事件或底層基礎設施問題的影響,也不受其他組件的任何影響。
● 基礎設施彈性解決底層硬件或技術層以及網絡中的問題。
● 崩潰級聯彈性旨在抑制多米諾骨牌效應,即一個應用的崩潰會影響其他應用。
● 網絡攻擊彈性,用于應對闖入數據中心云租戶的外部攻擊者。
場景一:內部彈性
內部彈性必須涵蓋的主要風險是編碼和配置錯誤、意外的數據排列以及峰值資源需求。在云中更容易實現工作負載峰值的彈性。首先,平臺即服務(PaaS)包具有自動擴展功能。其次,在基礎設施即服務(IaaS)云世界中,負載均衡器與虛擬機組相結合是一種易于實施的解決方案。這種方法通過根據需求擴展和縮小并用新虛擬機替換崩潰的虛擬機來保證始終有足夠的虛擬機。
憑借如此強大的預防功能,經典的糾正模式將移至后臺。提高編碼、配置或數據排列問題彈性的主要預防措施是更多的測試和更好的軟件設計。如果錯誤進入生產環境,導致崩潰,修復錯誤并重新部署代碼是大學教科書的糾正措施。雖然重復崩潰是必要的,但重新啟動應用是使應用恢復在線的即時戰術措施。盡管應用團隊應該調查頻繁的崩潰,但規模集和類似的服務可以自動執行這些自我修復重新啟動。最后,一如既往,恢復備份是最后一個選擇,無論是配置、數據還是應用代碼。
場景二:基礎設施彈性
硬件或網絡層的故障聽起來像是20世紀80年代的問題,但如今仍然是一個問題。在IaaS領域,應用團隊必須處理虛擬機和磁盤故障。手動重啟是默認的恢復選項。但是,前面提到的ScaleSets以及類似的服務是云中的方便的預防措施,可以最大限度地減少中斷的可能性。
對于存儲賬戶、AmazonS3存儲桶、DBaaS或Lambda函數等PaaS服務,該方法有所不同。許多企業提供各種冗余選項供客戶選擇。理想情況下,組織的云平臺團隊定義并強制執行生產環境的最低要求。然后,所有運營責任均由云提供商承擔。
網絡層有更多方面。客戶決定如何在云之間以及本地數據中心和云之間建立連接。組織是否通過互聯網或更可靠的GCP云互聯服務與GCP連接?如果使用云互聯,組織是依賴于一個網絡運營商,還是與兩個或更多的網絡運營商合作?客戶說了算。他們還設置了自己的路由和DNS服務。但是,它們完全依賴于云提供商提供的底層骨干網和數據中心內的連接。
場景三:崩潰級聯恢復能力
崩潰級聯彈性解決了一個應用程崩潰不應影響其他應用的必要性,從而導致多米諾骨牌式級聯應用崩潰。例如,銀行應確保核心銀行系統中的問題不會影響ATM解決方案,該解決方案可以24/7實時批準全球客戶的提款。然而,架構師和管理者必須明白,存在明顯的局限性。
在這種情況下,彈性模式可以贏得一些時間,也許是五分鐘、五個小時或五天。賭注是該應用會在對其他應用程序產生任何影響之前重新上線。與提款的例子一樣,這種模式只能是臨時解決方案。任何ATM應用都無法在不更新客戶帳戶余額和信用評分變化的情況下運行數周。
一種實現模式很簡單,用于應用交互的異步集成模式,即批處理、消息隊列和發布訂閱。相比之下,API調用簡直就是邪惡的。即使對方系統僅關閉一秒鐘,或者應用必須實現復雜的故障處理邏輯,它們也會導致應用失敗。異步集成模式只有一個重要的腳注。它們通常依賴消息傳遞中間件。該中間件的可用性對于整個應用環境至關重要。
最后,盡管云提供了即用型中間件并緩解了對不需要的直接應用間連接的限制,這迫使應用使用中間件網關,但云并不是這種彈性場景的游戲規則改變者。此外,針對級聯崩潰的恢復能力是特定于應用的,甚至只是部分IT主題,更多的是業務設計主題。如果核心銀行系統出現故障,企業是否允許ATM解決方案根據昨天的數據批準現金提取?如果ATM無法到達ATM解決方案,是否可以進行有限取款?只有業務部門與IT部門合作才能定義這樣的業務邏輯,這對應用生態系統的整體穩定性做出了巨大貢獻。
場景四:網絡攻擊彈性
抵御網絡攻擊是第四種也是最后一種情況。數十年來,網絡安全專家和CISO一直致力于解決這個問題。因此,許多組織已經擁有成熟的工具和流程。
預防和檢測網絡攻擊涉及系統強化、滲透測試、訪問控制、惡意軟件防護和入侵檢測系統。與老式的本地世界相比,云具有客戶可以快速激活的各種功能,從而加快了安全控制的實施速度。
對于遏制,存在兩種互補的方法:區域隔離和E端點檢測和響應(EDR)。EDR工具可隔離和隔離單個受感染的筆記本電腦、服務器和虛擬機。相比之下,分隔網絡區域是一種防火墻方法,旨在通過關閉連接來防止橫向移動。
因此,如果一家企業在澳大利亞的網絡受到損害,他們就會切斷與新加坡和瑞士網絡區域的連接。然后,工程師清理澳大利亞的服務器,然后重新建立與新加坡和瑞士的連接。這是一種可靠的方法,但前提是應用和業務不太交織。
遏制之后是恢復,即從備份恢復攻擊前的狀態或使用CI/CD管道重新部署應用。然而,企業必須意識到攻擊者了解備份并試圖刪除它們。因此,不可變的備份是必要的,即任何人都無法刪除備份,甚至管理員也不能刪除。更復雜的是,雖然遏制和恢復工具已經“成熟”,但非虛擬機工作負載的覆蓋范圍可能會受到限制。
結論
我們對四個關鍵場景的探索揭示了實現真正彈性IT和應用環境的多方面方法。雖然公共云在尋求冗余和快速激活安全工具時可以帶來緩解,但防止多米諾骨牌式級聯應用崩潰仍然需要單個應用架構來實現。他們的應用設計和業務流程決定了是否可以暫時與其他應用解耦,并保護它們免受外部崩潰的影響,這對于希望快速解決方案的管理者來說是一場噩夢,對于熱愛應對真正挑戰的雄心勃勃的架構師來說是一個夢想。