亞馬遜云如何應對網絡界的“完美風暴”?
譯文亞馬遜網絡服務(AWS)的經營規模超大――在知名調研公司Gartner***的魔力象限(Magic Quadrant)中,該公司估計AWS的計算能力比該公司14個緊隨其后的競爭對手的總和還強五倍。
亞馬遜云覆蓋全球11個地區,共由28個可用區域(availability zone)組成,每個可用區域至少有一個數據中心,每個數據中心部署的服務器數量在5萬臺到8萬臺之間。AWS每天為其云添加的新計算能力足以滿足亞馬遜網站在2004年的要求,當時它還是一家年收入只有70億美元的公司。
AWS副總裁兼杰出工程師James Hamilton擔心會拖累整個系統的一個環節就是網絡。
Hamilton在AWS re:Invent大會上演講時表示,網絡行業出現了一場“***風暴”。“這是問題,是紅色警報情形。”
諸多因素讓網絡成為AWS非常擔憂的大問題。首先,相比計算和存儲,網絡成本在增加。Hamilton表示,服務器價格在下降,而網絡價格“歷久不變”。
由于計算能力的成本不斷下降,每臺服務器塞滿了數量更多的虛擬機。光這一點就讓網絡不堪重負,不過現在還在使用更多的網絡資源密集型先進數據分析方法,這增添了另外的壓力。主要的問題是數據中心內部的流量,也就是所謂的“東西向”流量,與之相對的是出入站流量,又叫“南北向”流量。
AWS應對這個問題的辦法其實很簡單:該公司構建了自己的網絡和設備。Hamilton表示,這是大膽的舉動,不過就AWS的規模來看,這又是很自然的解決辦法。
多年前,AWS就開始與原始網絡設備制造商合作,設計自己的定制網絡設備。AWS開發了一種定制的協議,現在用來運行其云。此舉不僅降低了成本,還提高了可用性。Hamilton表示,通過直接與制造商合作,AWS獲得了優勢。如今的許多網絡硬件公司無力根據客戶的具體要求來定制設備。通過與制造商直接合作,AWS就能做到這點。
不過,這還不足以支持AWS的龐大規模。AWS有自己的專用網絡連接其服務地區。這家公司并不是依賴公有云提供商,而是擁有專用的隧道,這就提高了可用性、提高了性能,抖動更少、成本更低。Hamilton說:“變得更可靠了,鏈路成本更低,延遲更短。用戶完全變得更滿意。”
相比其他基礎設施即服務(IaaS)云服務提供商,AWS擁有一種獨特的架構。在每個地區(共有11個地區)的后面是可用區域,可用區域提供了物理上分離的數據中心,以便在每個地區建立容錯機制。每個地區的前面是轉接中心,它為三個主目的地提供了連接:可用區域與其他地區之間、連接到AWS的直連項目(Direct Connect)合作伙伴,以及連接到公共互聯網。
AWS已將冗余路徑做入到可用區域里面,那樣如果其中一個在某地區出現了故障,該地區仍能正常服務。某地區里面的每個可用區域其彼此之間的延遲不到2毫秒,通常更接近1毫秒。每個可用區域起碼有自己的數據中心;至于美國東部地區(US-East),這個AWS歷史最悠久的地區其可用區域有五個數據中心。
眾所周知,AWS對于其運營系統的內部機制一直保持緘默,但Hamilton透露了這家公司如何順暢運營、快速創新。今年,該公司預計會向其云發布大約500項更新服務。與此現時,其簡單存儲解決方案(S3)在使用率方面預計同比增長120%以上,彈性計算云(EC2)每年增長99%。不是每家公司都能夠采取AWS那樣的措施來解決問題,但也不是每家公司都面臨AWS那樣的規模和問題。
布加迪編譯