騰訊云詳解宕機(jī)故障:光纖挖斷后的150秒
3 月 23 日 16 時(shí)左右,騰訊服務(wù)器發(fā)生了大規(guī)模宕機(jī),有網(wǎng)友發(fā)微博稱旗下《王者榮耀》、《刺激戰(zhàn)場(chǎng)》等多款熱門游戲和網(wǎng)絡(luò)服務(wù)產(chǎn)品“集體陣亡”。
除了騰訊系手游出現(xiàn)問(wèn)題,比如王者榮耀、奇跡暖暖、掌盟、紅警等等登錄不了,微信、QQ、QQ 音樂(lè)全民 K 歌等服務(wù)也受到波及。
@騰訊游戲在當(dāng)日 16 時(shí)做出了回應(yīng),稱本次崩潰是因上海當(dāng)?shù)鼐W(wǎng)絡(luò)運(yùn)營(yíng)商的光纖線路大面積故障,使得騰訊游戲及外部多個(gè)網(wǎng)絡(luò)應(yīng)用的使用均受到影響。目前運(yùn)營(yíng)商正在緊急搶修中,公司也正在積極做容災(zāi)處理,業(yè)務(wù)陸續(xù)恢復(fù)中。
晚上 19 點(diǎn) 54 分,騰訊回應(yīng)已基本修復(fù),各業(yè)務(wù)基本正常運(yùn)行。類目太多未公布各類游戲補(bǔ)償獎(jiǎng)勵(lì)。
據(jù)騰訊 2018 年財(cái)報(bào)顯示,全年游戲營(yíng)收 1284 億,核算停止?fàn)I運(yùn) 4 個(gè)小時(shí),粗略損失 5800 多萬(wàn)收入;而這 4 個(gè)小時(shí)其他運(yùn)營(yíng)成本沒(méi)有減少。
此事也被當(dāng)?shù)仉娨曅侣劗?dāng)晚報(bào)道,未披露施工方信息,目前還沒(méi)有相關(guān)單位發(fā)聲明對(duì)此事負(fù)責(zé)。
3 月初,阿里云出現(xiàn)大規(guī)模宕機(jī)故障,華北地區(qū)很多互聯(lián)網(wǎng)公司都受波及,一大波程序員、運(yùn)維專員都從睡夢(mèng)中被叫醒跑去辦公室干活。
對(duì)此,阿里云官方回應(yīng)稱,宕機(jī)原因?yàn)椋喝A北 2 地域可用區(qū) C 部分 ECS 服務(wù)器等實(shí)例出現(xiàn) IO HANG,后經(jīng)緊急排查處理后逐步恢復(fù)。
3 月 20 日淘寶、天貓、淘寶直播、閑魚等 App 崩潰,緊接著 12306 也躺槍。這次騰訊光纖又被挖,AT 兩大巨頭僅時(shí)隔三天。
對(duì)此次事故,有網(wǎng)民評(píng)價(jià)道:“上次是蕭山拔阿里網(wǎng)線,這次是上海拔企鵝的網(wǎng)線!什么互聯(lián)網(wǎng)+大數(shù)據(jù),終究干不過(guò)傳統(tǒng)工業(yè)的一鏟子。”
接下來(lái),我們來(lái)看看騰訊云在光纖被挖斷后的 150 秒到底發(fā)生了什么?
光纖挖斷后的 150 秒
上周末的這起光纖中斷事故引發(fā)了一場(chǎng)聲勢(shì)浩大的斷網(wǎng)危機(jī)。在云服務(wù)越來(lái)越普及的今天,如何在面對(duì)網(wǎng)絡(luò)故障的情況下,盡可能保證服務(wù)的穩(wěn)定性和連續(xù)性,是所有企業(yè)都需要重視的問(wèn)題。
智能化流量調(diào)度系統(tǒng)大顯身手
當(dāng)天下午,騰訊云網(wǎng)絡(luò)監(jiān)控平臺(tái)監(jiān)測(cè)到上海到浙江電信出現(xiàn)小范圍公網(wǎng)質(zhì)量下降。
騰訊云隨即啟動(dòng)流量智能調(diào)度系統(tǒng),將上海地區(qū)公網(wǎng)流量通過(guò)騰訊云內(nèi)部 T 級(jí)骨干網(wǎng),引導(dǎo)至騰訊云廣州區(qū)電信出口,再由電信骨干網(wǎng)直達(dá)浙江電信。
“ 這項(xiàng)技術(shù)的厲害之處在于,即使遇到運(yùn)營(yíng)商的光纖故障,這套調(diào)度系統(tǒng)能夠根據(jù)需要自動(dòng)繞過(guò)故障點(diǎn),從而***時(shí)間恢復(fù)公網(wǎng)用戶的網(wǎng)絡(luò)覆蓋。”
—— 騰訊云工程師 kris
正常來(lái)說(shuō),如果沒(méi)有這套流量調(diào)度系統(tǒng),只能被動(dòng)的等待運(yùn)營(yíng)商來(lái)完成修復(fù),這樣的結(jié)果是可能需要更長(zhǎng)的時(shí)間。
從架構(gòu)上看,騰訊云公網(wǎng)流量智能調(diào)度系統(tǒng):
- 一方面通過(guò)接口自動(dòng)執(zhí)行并反饋管理臺(tái)下發(fā)的各種調(diào)度和控制信息。
- 另一方面和公網(wǎng)出口設(shè)備建立 BGP(公網(wǎng)路由協(xié)議)連接,通過(guò)采集設(shè)備路由信息,根據(jù)調(diào)度需求向不同路由設(shè)備下發(fā)流量調(diào)度命令,從而實(shí)現(xiàn)領(lǐng)先的公網(wǎng)自動(dòng)化流量工程技術(shù)。
最終結(jié)果是,此次光纖故障,騰訊云從發(fā)現(xiàn)到恢復(fù)故障,全程只有 2 分鐘(抖動(dòng)時(shí)間:14:40:15-14:42:45),并且所有流程自動(dòng)化執(zhí)行,在短短 150 秒之內(nèi)就快速恢復(fù)了網(wǎng)絡(luò),企業(yè)運(yùn)維人員幾乎無(wú)任何感知。
“四纖三路由”高冗余架構(gòu)
能否做到上述效果與騰訊云自身高度冗余的網(wǎng)絡(luò)架構(gòu)以及智能自愈機(jī)制有很大關(guān)系。
首先,騰訊云在基礎(chǔ)設(shè)施的高可用方案為網(wǎng)絡(luò)的平穩(wěn)運(yùn)營(yíng)提供了重要前提和支撐。
騰訊云目前在每個(gè)區(qū)域,例如上海南匯,引入并劃分了多個(gè)可用區(qū),可用區(qū)之間提供可靠的風(fēng)火水電物理全隔離。
同時(shí)又妥善考量了各個(gè)可用區(qū)之間的網(wǎng)絡(luò)低延遲,這就從基礎(chǔ)設(shè)施層面有效保證了用戶的網(wǎng)絡(luò)高可用性和穩(wěn)定性。
另外,從架構(gòu)層面看,此次光纖故障,騰訊云網(wǎng)絡(luò)能夠在極短時(shí)間內(nèi)自動(dòng)恢復(fù),一個(gè)重要原因要?dú)w功于它可用區(qū)之間互聯(lián)的底層網(wǎng)絡(luò),這套網(wǎng)絡(luò)采用了運(yùn)營(yíng)商級(jí)“四纖三路由”的高冗余架構(gòu)設(shè)計(jì)。
什么意思呢?通俗一點(diǎn)來(lái)說(shuō)就是騰訊云每個(gè)可用區(qū)與可用區(qū)之間都采用 3 條獨(dú)立光纖連接(分別來(lái)自不同方向),并同時(shí)接入兩套完全物理分離的波分系統(tǒng),從而有效保障光纖意外中斷時(shí),能夠在 50 毫秒級(jí)自動(dòng)切換。
騰訊云四纖三路由高度冗余架構(gòu)
除此之外,騰訊云波分系統(tǒng)中部署有光時(shí)域反射儀,在產(chǎn)生光纜中斷時(shí),系統(tǒng)可以主動(dòng)探測(cè)光纜具體中斷情況,***時(shí)間精準(zhǔn)定位光纜中斷的具體位置,并及時(shí)反饋給運(yùn)營(yíng)商,為此次光纜的順利修復(fù)提供非常準(zhǔn)確的信息。
對(duì)于騰訊此次光纖故障導(dǎo)致的大規(guī)模宕機(jī)你想說(shuō)什么?歡迎底部留言分享。