IDC掛了你咋辦?從世紀互聯(lián)斷電事件談起
原創(chuàng)【51CTO獨家特稿】對于世紀互聯(lián)而言,今天無疑是個黑色星期五。從周四下午5點左右開始,世紀互聯(lián)天津塘沽運營商核心機房開始斷電,對外公布的斷電原因是大鏟車意外將機房電纜挖斷。之后,斷電一直持續(xù)了16個小時以上,傲游瀏覽器、豌豆莢、新浪郵箱、愛詞霸等多家企業(yè)的服務受到不同程度的影響,直到今天早上9點-11點,一些主要的服務才逐步恢復。
超過12個小時的電力中斷,對于配備雙路/三路市電、UPS和柴油發(fā)電機的標準機房而言,似乎是個不可想象的事情;根據(jù)業(yè)內(nèi)人士分析,意外停電的情況,一般在3-5小時之內(nèi)肯定能恢復電力了;這次事故與其說是電纜被挖斷,倒更像是光纜被挖斷所造成的。應該說,這次的事故是有疑點的,而這疑點由于世紀互聯(lián)目前尚未公布具體的事故報告,暫時還無法了解細節(jié),恐怕需要等待世紀互聯(lián)將事故報告和賠償方案提交給他們的客戶之后,才會有一些詳細的情況公布出來。
事故的處理目前已經(jīng)暫告一段落,對于以上遭受波及的企業(yè)而言,在將服務恢復正常的同時,一方面要出事故報告,另一方面也有賠償?shù)氖乱獏f(xié)商(賠償?shù)姆绞胶徒痤~一般都在企業(yè)和IDC的服務條款當中,協(xié)議內(nèi)容一般都是保密的,因此每家企業(yè)的情況都不一樣)。對于其他企業(yè)的IT管理人員而言,如何在發(fā)生類似意外事故的時候盡可能的減少負面影響,才是我們最需要關注的事情。
為此,51CTO編輯聯(lián)系了一位對IDC相當熟悉的業(yè)內(nèi)人士cno,請他介紹了一下有關IDC的選擇,以及緊急情況如何處理的一些問題。
如何選擇IDC
根據(jù)cno的介紹,一般企業(yè)在選擇機房的時候,大多數(shù)會考慮代理商,也可以直接租用電信、聯(lián)通等運營商的機房。代理商的優(yōu)勢在于多線全國互聯(lián),價格一般也便宜一些;而直接接入運營商機房的好處則在與少了一層中間環(huán)節(jié),出問題的概率較小,出問題后解決問題的效率也高。
對于規(guī)模較大、成本控制方面比較寬松的企業(yè),技術部門在提方案的時候,一般只會考慮業(yè)界信譽好的幾家IDC,根據(jù)服務器量和帶寬的需求,一般需求高的都會獲得一些優(yōu)惠。另外,也會根據(jù)企業(yè)的其他應用進行調(diào)整,比如使用了藍訊的CDN的企業(yè),那么合理的方案則是將自己的源站放在藍訊的IDC。
冗余災備方面的考慮
冗余方案可以說是應對此類事故的唯一解決方案,不過出于成本的考慮,不少企業(yè)省下了這一步,其實是非常危險的。這次豌豆莢和新浪郵箱都沒有遭遇完全的服務中斷,而傲游和愛詞霸的核心業(yè)務則徹底不能訪問,正是由于這一點區(qū)別。
核心中心做冗余的費用較高,這樣的話做一個備份節(jié)點也是可以的,不過別放在同一個機房,否則遇到今天這樣的事故也是白搭。一般在北京的公司,備份節(jié)點放在廊坊的很多,因為費用較低。
發(fā)生了事故怎么辦?
如果你之前做過冗余方案或異地備份,那么直接切換過去就是了,備份的情況切換要復雜一些,服務質(zhì)量肯定會受到一些影響,但不會徹底死掉。要是之前什么災備方案都沒做的話,就只能干等了……是了,你可以在焦急的等待中考慮未來的災備方案應該如何做。
***,51CTO編輯還想補充的一點是,面對怨念沖天的用戶,早點公開事故的原因,向用戶道歉,并實時更新***的進展情況,要遠遠勝過對用戶不聞不問,拋下一條冷冰冰的、言語不詳?shù)耐ǜ妗T诜罩袛嗷虿环€(wěn)定的時候,如何向用戶作交代,讓用戶感到受重視,其實重要度并不亞于盡快恢復服務的工作。
【編輯推薦】