高可用方案成為云時代企業重要選擇
在“上云”已經成為共識之后,如何保障云上企業業務的連續性和可用性,成為業界關注的一個重要話題。
根據明尼蘇達大學的研究,在遭遇災難的同時又沒有災難恢復計劃的企業中,將有超過60%的的企業在兩到三年后退出市場,而隨著企業對數據處理依賴程度的遞增,該比例還有逐漸上升的趨勢。
IDC在全球范圍內,針對多個行業的中小型企業(員工數小于1000名)的調研顯示,近80%的公司預計每小時的停機成本至少在2萬美元以上,而超過20%的企業估算其每小時的停機成本至少為10萬美元。
目前,不管是對于云計算廠商,還是對于上云企業,高可用都已經成為業務架構設計中必須考慮的因素之一,它通常是指通過技術手段,盡可能縮短因日常維護操作(計劃)和突發的故障(非計劃)所導致的停機時間,以提高業務的可用性。
以國內領先的云計算廠商騰訊云為例,騰訊云目前在高可用性這塊做了很多的努力,無論是技術架構還是落地實踐都走在國內公有云廠商的前列。架構上,騰訊云高可用包括客戶端接入、外網接入、云內網絡、云上服務器、中間件、數據層等多個層面。
詳細來說,在客戶端引入騰訊云全球領先的接入層技術(云解析、httpdns和IP直連), 通過騰訊云智能調度系統,可以保證任意節點發生故障均能無縫切換到其他節點;針對外網接入,高達40+ BGP線路和跨區域容災能力,能夠及時對故障快速調度切換,防止骨干網故障;云內網絡通過跨區域數據中心互聯互通,形成雙環路保護。
最核心的云上服務器,騰訊云目前支持宕機遷移無感知,同時,云硬盤三副本存儲策略,可以消除單點故障;騰訊云中間件能夠實現跨區域集群,在保障數據正確的同時,減少業務感知;騰訊云數據庫支持實時熱備,讀寫分離,實現了同城多可用區、異地災備和兩地三中心,滿足跨地域容災金融級需求。
除了上述六層高可用方案保證之外,在最關鍵以及最主要的基礎設施層,騰訊云也具備高可用方案。比如,依托遍布全球五大洲25個地區的53個可用區,騰訊云為國內外用戶提供強有力的技術支持,助力業務飛速拓展。另外,部署全球的超1300+個加速節點,超過100T的帶寬儲備,能夠將服務內容分發到全網加速節點,支持千萬用戶并發,有效解決跨運營商、跨地域高延遲訪問等問題。
對于越來越多的上云企業而言,除了選擇有高可用架構的云服務商之外,更要搭建符合自身業務特色的高可用架構,才是業務穩定性的重要保證。
比如,作為目前國民級短視頻社區快手。短視頻和直播業務是快手最重要的業務,其中訪問量,突發,高性能處理等并發要求高,平臺服一旦故障,將會對其產生巨大的損失。
為了確保平臺服的高可用,騰訊云從接入層、邏輯層、以及數據層幫助快手建設高可用解決方案。在接入層,通過專線鏈接各大機房,利用騰訊云的安全產品,保障全站的網絡攻擊;邏輯層和數據層針對核心的業務做異地多活,定期演練,以應對機房災難性故障的快速恢復。通過多項高可用方案,騰訊云全面護航快手業務連續性和穩定性。
電商平臺由于自身的業務特性,需要應對節假日等流量高峰和高并發沖擊,其對高可用的需求更為強烈。在移動電商領域,每日優鮮是這個領域最典型的案例。作為致力于重構供應鏈,連接生鮮生產者和消費者的領導電商,每日優鮮目前在北上廣深等10多個城市構筑了“城市分選中心+社區配送中心”的極速達冷鏈物流體系,為全國數百萬客戶提供會員1小時送貨服務。
每日優鮮之前業務全部部署在單一云服務商之上,一旦出現網絡故障,將會導致業務全部中斷,沒有容災切換能力。騰訊云通過多云熱備部署,DNS應急切換,保障業務連續性,實現業務容災切換。雙云之間通過專線打通,實現雙線冗余,系統異常時,流量切入騰訊云,并通過技術手段實現數據一致性。
游戲場景對于高可用方案的需要則更為迫切,一款熱門游戲,在極短的時間內需要應對10倍以及百倍的用戶量增長。完善的高可用解決方案對于保障游戲的順利運營,起到極為重要的作用。作為國內知名的游戲平臺,樂逗游戲承載數款熱門網絡游戲,其最重要的業務模塊為游戲平臺服務系統,為了確保該系統的高可用,騰訊云為樂逗游戲平臺提供了一整套異地容災高可用解決方案。
為了實現游戲平臺服的跨城異地容災,規避機房故障等災難性故障對業務造成的影響,騰訊云通過負載均衡接入,并將BGP高防包綁定負載均衡做抵御網絡攻擊;同時,為應對業務用戶激增方便擴展,系統接入自動擴容,根據業務流量動態擴縮容;另外,在關鍵的數據層采用數據庫讀寫分離架構和主備容災架構做好高可用。
隨著越來越多的企業將業務部署在云上,故障已經成為企業不得不重點關注的重點,采用高可用架構和方案也成為企業運維人員必須思考的話題,除此之外,作為企業技術人員,如何保證企業業務和服務的穩定性,值得業界一起探索。