Hotmail系統故障:都是自動化腳本惹的禍
上周微軟曾承認Windows Live Hotmail出現故障,導致用戶郵箱被完全清空并且聲稱該問題已經解決。日前,微軟詳細解釋了Hotmail故障的始末,并100%恢復了丟失數據。微軟Hotmail團隊Mike Schackwitz解釋說:“Hotmail服務器健康度監控中有一種方式是通過自動化測試進行的。我們創建一些不同配置的帳號,然后使用自動化測試進行記錄這些帳號,讓它們模擬正常用戶活動和行為,系統會在遇到錯誤時告警。我們通過腳本批量創建和刪除這些測試帳號,而刪除測試帳號的方式是從一組將用戶和新郵件指向正確郵箱地址的目錄服務器中刪除它的記錄。
在12月30日,我們的一個腳本代碼意外地將部分真實用戶的帳號與測試帳號一并從目錄服務器上刪除了。但那些受影響用戶的郵件和文件夾實際上是沒有 被刪除的,只是他們指向正確郵箱的位置的記錄被刪除了。當這些用戶登錄后,系統(因找不到郵箱位置)自動為他們創建了新的郵箱,而新的存儲服務器是不包括 他們之前的郵件和文件夾的。這也就是為什么這些帳號收到了‘歡迎使用 Hotmail’的初始郵件。”
隨后的1月1日,不斷有用戶向微軟報告這個問題,微軟因此開始重視該問題,并且與當晚查清了故障根源。“我們***步是恢復這些用戶在目錄服務器上的 記錄項(1月2日早晨),然后又合并了故障發生之初至1月1日早晨之間的新郵件與舊的郵件。這個過程需要多次執行才能獲得所有的帳號和對應的郵件,對于一 些用戶來說,直到5日才完全恢復。我們在1 月2日完成了16035個帳號的合并,并在5日完成了剩下1320名用戶的合并。”
編輯提醒:這件事情再次說明了,運維工程師們對線上環境的腳本一定要慎之又慎!
【編輯推薦】