從支付寶故障看服務器擴容一:事前準備篇
原創【51CTO獨家特稿】2009年10月29日15:30分很多淘寶網的淘友們突然發現支付寶不能使用了,官方的解釋是“系統緊急維護”,但是很多人對這個公告并不買賬,因為按照淘寶的慣例,維護多在凌晨進行,不會選擇交易量瘋狂的下午,更嚴重的是很多買家付款后系統仍顯示“待付款”,于是很多人都紛紛猜測淘寶網已被黑客光顧?
17:00以后,淘寶網的交易流程陸續恢復正常,淘友們賬戶中的money也沒有縮水。對于眾淘友們來說,錢沒少就已經皆大歡喜了,而僅僅一個多小時的中斷時間也是無關痛癢的,而對于我們這些每天管理服務器的IT人士來說,這個事件給我們一個大大的警示。
淘寶網給我們的最終解釋是:2009年10月29日下午15時30分左右,支付寶方面發現系統運轉緩慢,采取服務器緊急擴容來應對這些流量不足。我們不禁要問流量不足的問題為什么IT部門沒有事先預判到?為什么要采取緊急擴容?在擴容前以及擴容后我們都需要注意哪些事項?我們不妨說一說。由于這方面所涉及的點比較多,我們把服務器擴容的注意事項分成三個篇章來講述,首先說說事前準備篇。
我們知道,不管是暴露在網外的,諸如電子商務、OA、郵箱等公用服務,還是置身于內網的活動目錄、DNS、ERP等專屬服務,它們的存在都是一個機構正常運行的保證,任何時候都不能出現中斷的情形。而如果服務器所營造的平臺不能滿足當前的應用需求而必須要做出更換或者擴容的時候,我們必須做好充足的準備工作。
服務器擴容事前準備篇A、擴容實施的時間
每一個服務都有存在的價值,即便是短暫的停歇也會造成重大的損失,所以我們在做服務器擴容時要選擇合適的時間。最佳的時間段應該在凌晨2:00~5:00之間,這個時間段使用的用戶較少,服務器的短暫維護不會造成太大的影響。而如果是跨國企業,我們還要考慮到時差的因素,維護的時間最好安排在周六的凌晨進行,這基本上算是公用的休息時段。
服務器擴容事前準備篇B、冗余服務器
如果某一項服務只有一臺服務器,那么我們必須考慮到它的冗余問題,在升級、擴容之前,我們必須為其準備一臺冗余服務器,以防止擴容失敗造成服務不可用的情形,因為這個冗余服務器只是臨時使用,所以為了不增加成本我們可以在其他服務器上建立一個虛擬化服務器作為冗余,待擴容平穩結束,未出現任何問題時,我們即可拆除這個虛擬化冗余。
服務器擴容事前準備篇C、軟、硬件的綜合考評
一個新的應用系統(比如:OA、FMS)誕生往往要經過很多版本的測試,呈現給最終用戶手中的必定是最穩定的正式版,但是這個新系統是不是完美無暇了呢?它和我們現行系統的兼容性如何?能否平穩過渡?這都是需要我們在正式實施前做出正確的評估和相應的測試的。
而增加硬件我們則要充分評價其兼容性和動能指標,對某臺服務器需要大的改動(比如增加多塊硬盤)則需要詳細計算它的最大輸出功率是否滿足需求,其散熱是否能達到相應指標,它采用的是何種RAID技術,同其他硬盤的RAID是否能完美的融合在一起。
服務器擴容事前準備篇D、數據中心的承壓能力
如果當前數據中心不能滿足日益增長的信息需求,那么僅僅是對一臺服務器進行擴容改造有時是杯水車薪的,所以我們看到最多的就是多臺服務器的更換或者是大量增加。
這種部署是IT運維人員最喜歡的,因為搞IT的都迷戀于追新,況且這種部署可以有充分的實施和測試過程,相對比較容易。但是我們不要忽略一個重要問題,那就是大量的增加服務器破壞了整個數據中心的電力、散熱等恒定因素,我們需要重新計算UPS的供電能力,精密空調系統的恒溫恒濕能力,這也是前期準備階段不容忽視的。
服務器擴容事前準備篇E、通告
隸屬于本網的所有用戶都有信息知情權,在作出服務器擴容之前我們要通過Web公告或者郵件群發等形式告知所有用戶,哪個時段做維護,哪些服務不能使用,并建議用戶做好相關文件的備份等工作。
OK,注意到這些事項后我們即可進去正式的實施階段,我們在下一篇文章將會講述服務器擴容的具體實施注意事項。
【編輯推薦】