阿里云史詩級故障賠償拿到了!但是業務也是影響的一片狼藉
2023 年 11 月 12 日 18 時許,阿里云發布公告稱,阿里云云產品控制臺服務異常,阿里云立即發布公告,公告顯示,北京時間2023年11月12日17:44起,阿里云監控發現云產品控制臺訪問及API調用出現異常,阿里云工程師正在緊急介入排查。工程師通過分批重啟組件服務,絕大部分地域控制臺服務已恢復訪問。
業務影響
數據排查
圖片
排查
圖片
結果
最終結果是三分之一的直播錄制視頻完全丟失,其它的錄制視頻都是不完整,也就是說只錄制了前半部分,后半部分是沒有的。
賠付
PS:由于業務影響較大,所以除了代金券賠付,還有額外的現金賠付,現金數額秘?秘?
賠償短信
【阿里云】尊敬的xxx:您好,非常抱歉阿里云11月12日發生的產品故障對您產生的影響。根據阿里云向您承諾的《服務等級協議》,本次您的SLA賠償金總額應為227.24元,我們將為您實際發放總額227.24元。您可前往控制臺-“SLA賠償”查看并領取。如您有任何疑問,歡迎聯系您的商務經理、撥打400-80-13260轉9、或提交工單聯系我們。我們再次誠摯地為此次故障道歉。
補償發放通知
圖片
SLA賠付
圖片
故障報告
影響范圍
- OSS、OTS、SLS、MNS 等產品的部分服務受到影響,大部分產品如 ECS、RDS、網絡等運行不受影響。
- 云產品控制臺、管控 API 等功能受到影響
時間
北京時間 2023 年 11 月 12 日 17:39-19:20
問題概況
北京時間 2023 年 11 月 12 日 17:39 起,阿里云云產品控制臺訪問及管控 API調用出現異常、部分云產品服務訪問異常,工程師排查故障原因與訪問密鑰服務(AK)異常有關。工程師修訂白名單版本后,采取分批重啟 AK 服務的措施,于 18:35 開始陸續恢復,19:20 絕大部分 Region 產品控制臺和管控API 恢復。
處理過程
2023 年 11 月 12 日
17:39 阿里云云產品控制臺訪問及管控 API 調用出現異常。
17:50 工程師確認故障是 AK 服務異常導致,影響云產品控制臺、管控 API 調 用異常,以及依賴 AK 服務的云產品服務運行異常。
18:01 工程師定位到根因。
18:07 開始執行恢復措施,包括修訂白名單版本、重啟 AK 服務。
18:35 杭州等 Region 開始恢復正常。
19:20 絕大部分 Region 的云產品控制臺和管控 API 調用恢復正常。
原因
訪問密鑰服務(AK)在讀取白名單數據時出現讀取異常,因處理讀取異常的代碼存在邏輯缺陷,生成了一份不完整白名單,導致不在此白名單中的有效請求失敗,影響云產品控制臺及管控 API 服務出現異常,同時部分依賴 AK 服務的產品因不完整的白名單出現部分服務運行異常。
改進措施
1、增加 AK 服務白名單生成結果的校驗及告警攔截能力。
2、增加 AK 服務白名單更新的灰度驗證邏輯,提前發現異常。
3、增加 AK 服務白名單的快速恢復能力。
4、加強云產品側的聯動恢復能力。
總結
盡管阿里云在此次事故后進行了賠償,但仍然引起了一些質疑。有些人認為這是阿里云裁員的結果,說了這么多,好像我們自己搭建機房不出問題似的,如同360老總說的一樣死海效應,做實事的往往會最先離職,都蒸發了,最后留下的都是混日子的老油條,包括管理層也一樣。
對于企業而言,多平臺災備是非常必要的。盡管阿里云在此次事故中表現出了較強的處理能力和平臺安全能力,但仍然需要考慮到其他云服務提供商的可用性。企業需要制定災備計劃并保持與多個云服務提供商的合作,以確保在出現類似問題時能夠快速響應并減少損失。
總之,這件事情給我們提醒,任何服務都有可能出現問題。關鍵在于企業如何管理和應對這些問題。通過制定災備計劃并與多個云服務提供商合作,企業可以更好地應對類似的問題并確保業務的連續性。