透過網絡故障看冗余準備的重要性
譯文【51CTO.com快譯】冗余性不僅僅對應用程序和內部服務來說很重要,對基礎設施和第三方提供商來說也很重要。
隨著互聯網應用的深入,人們對互聯網的依賴也越來越重:對于互聯網公司而言,如果因為故障導致用戶無法使用Web服務,那么每一分鐘的經濟損失都會讓公司難以承受;如果員工無法訪問工作用途的Web應用程序,那么工作效率也隨之大大下降……
似乎在無形中人們因互聯網故障加深了一種認知:不能把任何真正重要的東西托付給互聯網。
看一下去年發生的幾起互聯網故障,就會發現,雖然改用基于云的架構和應用程序已降低了IT基礎設施的復雜性,但這是以犧牲彈性(resiliency)為代價。IT部門不得不經常兼顧冗余性與復雜性(冗余性增強了彈性),最近的故障表明冗余性老是被人遺忘。網絡基礎設施監控公司ThousandEyes的高級主管尼克·凱普哈特(Nick Kephart)說:“IT部門需要為關鍵服務方面的冗余性作好規劃。”
注重冗余性
冗余性是一條基準的IT準則。無論是運行同一Web應用程序的多臺后端服務器,還是構建組成RAID陣列的磁盤驅動器,IT部門都要定期確保可用性,即便在出現故障的情況下也是如此。不過,針對域名系統(DNS)服務提供商Dyn發動的大規模DDoS攻擊表明,許多企業組織并沒有認真考慮關鍵基礎設施方面的冗余性。
那次攻擊發送了足夠多的垃圾郵件,讓Dyn的服務器招架不住,以至于合法的DNS請求再也無法得到響應。依賴Dyn將流量轉發到其服務器的其他網站認識到沒有備用DNS提供商意味著實際上在此期間與互聯網的其余系統斷開來,可惜為時太晚。
那些對DNS域名服務器進行負載均衡,將負載分布到多家提供商上的網絡公司,比如亞馬遜(同時使用Ultra DNS和Dyn),能夠在故障期間切換,并保持不受到影響。
互聯網通常正常運轉,沒有任何重大問題,但是DDoS的強度越來越大、頻次越來越高,這證明了需要把DNS當成關鍵互聯網基礎設施來對待,并采取相應級別的措施來保護。針對DNS的攻擊并非反常之事――基于云的DNS提供商NS1在去年初遭到了攻擊,還有6月攻擊全部13臺DNS根服務器的那次攻擊。網絡基礎設施監控公司ThousandEyes的經理阿查納·凱薩凡(Archana Kesavan)說:“那是針對互聯網基礎設施最關鍵的部分發動的大規模攻擊,導致出現大約三個小時的性能問題。”
對于許多企業來說,Dyn似乎是為DNS服務確保冗余性的合理選擇,因為Dyn已經提供一種分布式架構。IT團隊之所以不想要多家DNS提供商,是因為那樣會給網絡基礎設施增添復雜性,但是DNS故障會發生,而且確實在發生,所以IT團隊需要在DNS提供商方面做到雙保險,或者甚至三保險。IT部門還應該調低DNS服務器在生存時間方面的設置,那樣萬一主提供商遇到故障,流量可以更快速地重定向至備用提供商。
樹大也會招風
故障不僅僅是惡意活動或設備故障的結果。要是沒有適當的網絡和容量規劃,很高的知名度同樣帶來危害。訪客數量眾多和人人嚷著使用的熱門應用軟件是好事,但是增加的流量會導致服務器癱瘓、網絡因不堪重負而崩潰。
凱普哈特表示,如果網絡架構沒有考慮到流量突發(traffic burst)情況,沒有內容分發網絡(CDN)前端會帶來慘重的后果。
1月份是近幾年來彩票頭獎最高的月份之一,但是Powerball無力應對中獎數百萬美元所帶來的高漲熱情。應用軟件和網絡都處理不了流量激增的情況,導致數據包丟失增加,網頁加載時間變長。Powerball避免了全面崩潰,采用的辦法就是在開獎前夕,將流量分布到韋里遜的Edgecast CDN網絡、微軟數據中心和州際彩票協會的數據中心。凱薩凡說:“危害已經釀成,用戶的網站體驗在標準以下。”
網絡架構和不堪重負的目標服務器共同讓用戶無法玩爆款游戲PokemonGo后,該游戲的服務器遇到了類似的故障。蘋果的服務器在竭力處理任天堂發布期待已久的游戲《超級馬里奧跑酷》,零星的故障影響了其所有網店,包括iOS應用程序商店、Mac應用程序商店、Apple TV和Apple Music。
基準測試和容量規劃至關重要,尤其是在軟件更新和大規模活動之前。不管網絡架構設計得多好,CDN和任播服務器都要能夠支持網絡,最大限度地提升用戶體驗。
我們還沒有說冗余性?
基礎設施的冗余性同樣不容忽視。IT團隊忍不住要想:“我的互聯網服務提供商(ISP)能處理這個問題,我不需要做其他任何事。”凱普哈特表示,但是連上游提供商也會遇到故障,無論是由于錯誤配置、硬件故障,還是安全事件。網絡本身會遇到故障,面臨安全威脅,所以IT部門需要把出現故障后靈活應對的機制設計到網絡架構中。企業通常在把冗余性帶入到自己的數據中心方面做得很到位,但是忽視了對第三方基礎設施提供商采取同樣的做法。
別依賴單單一家提供商,因為那會成為單一故障點。而是應該依賴多家ISP、DNS提供商和主機托管公司。
原文標題:A lesson from network outages: Redundancy matters
作者:Fahmida Y. Rashid
【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】