降本增笑:滴滴P0級故障
本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。
2023 年 11 月 27 日晚間,滴滴因系統故障導致 App 服務異常,不顯示定位且無法打車。11 月 27 日晚,滴滴出行進行了回復:非常抱歉,由于系統故障。
11 月 27 日深夜,上海、北京、廣州等多地滴滴用戶反饋,滴滴出行 App 無法使用,顯示網絡異常,地圖無法加載,用戶無法使用定位功能且無法打車。
“滴滴崩了”的話題隨即登上微博熱搜。熱搜話題下不少用戶發帖表達自己在使用滴滴 App 過程中遇到的“奇葩”問題。
有用戶反饋雖然打到了車,但同時來了好幾輛車,有的用戶遇到來了三輛、有用戶遇到來了四輛車,無法取消,無法聯系客服。
圖片
從各平臺上的反饋來看,此次滴滴平臺在接單、定位、計費等環節上都出現了問題。
有網約車司機表示,昨晚 App 崩潰時剛好在接單,“從晚上 10 點 20 分開始什么都做不了,客服電話也進不了線。目前恢復了少部分功能,但不能正常使用,很多錯單亂單,還出現了多位司機接同一單的現象。”
27 日深夜,滴滴出行對滴滴 App 服務出現異常進行了回復,滴滴出行稱:非常抱歉,由于系統故障,今天晚間滴滴 App 服務出現異常,技術目前正陸續恢復中。由此給廣大用戶和司機師傅們造成不便,再次向大家致歉。
圖片
2023 年 11 月 28 日早間,滴滴出行消息稱,網約車等服務已恢復,騎車等在陸續修復中。11 月 28 日,在滴滴發出公告的同時,記者在上海、深圳等地使用滴滴呼叫網約車,發現網約車功能并未恢復使用,網絡加載異常,仍無法打車。11 月 28 日,滴滴向記者回應稱,網約車服務已恢復,司機乘客權益陸續恢復補發。
11 月 29 日,滴滴再次發文致歉,稱初步確定事故起因是底層系統軟件發生故障。
圖片
來源:https://weibo.com/2838754010/NuMAAaUEl
在滴滴官方發布這份公告之前,已經有資深 IT 技術人士分析:“從表現上看,打車、共享單車全掛,不同的業務板塊之間應該是有隔離的,說明問題出在更加底層的基礎設施。攻擊者一般只能訪問到應用層,基礎設施訪問不到。要么是被攻擊者打穿,要么是自己系統操作不慎掛了。即便是前者,也算是一種系統缺陷,才會被打穿。”
360 安全專家認為,滴滴閃崩背后的技術原因可能有六種:
第一,系統更新升級過程中出現了編程錯誤、邏輯錯誤或未處理的異常情況:一般情況下,互聯網廠商發布更新都會在晚上,與滴滴發生故障的時間也能對應,當然業務升級維護是放量更新,但現在滴滴全平臺、全業務都故障了,說明肯定是他 “家里” 的問題。
第二,服務器故障:比如滴滴的核心機房,可能恒溫恒濕環境出了問題,導致服務器過熱、CPU 燒了,或者核心機房所在地發生了自然災害如地震、洪水、海嘯等,這種情況下,硬件需要重新更換,里面的服務軟件也需要重新配置,恢復周期相對較長,但這個可能性比較小。
第三,第三方服務故障:滴滴的后臺架構可能使用了第三方服務或者組件。如果第三方出了問題,也可能會影響滴滴的正常運行。但出于安全性考慮,滴滴可能不會將核心業務托管給第三方,不過這個可能性也較小。
第四,DDOS 攻擊:黑客采用分布式拒絕服務的方式,搶占了大量的服務器資源,導致用戶無法訪問,但這個不太可能,因為 DDos 不會導致數據出錯,而且滴滴從體量上來說,有足夠的成本和能力去對抗。
第五,其他網絡攻擊:某些黑灰產團伙可能會通過拖庫盜取數據,然后在暗網上售賣,在這個過程中不排除會有誤操作,破壞了數據庫。
第六,勒索病毒:網絡攻擊黑客對滴滴的底層數據、業務代碼進行了加密。據披露現象,用戶的賬單和打車數據都算錯了,存在一定可能是滴滴為了避免更大損失主動暫停了業務。近期勒索攻擊事件屢屢發生,月初,某金融機構就是因為遭遇勒索病毒攻擊造成了業務停擺。
不過也有網絡安全公司專家認為,如果是來自外部的黑客攻擊,公司一般會在第一時間進行聲明。他猜測更集中于滴滴發生了內部重大業務調整,或有新業務接入原系統,但沒有做好預案,導致關聯業務或關聯系統出現重大故障,這是大公司系統故障最常見的原因。
因此對于滴滴此次大規模的長時間故障,有行業人士認為,降本增效可能也是原因之一。
該人士認為,互聯網公司核心業務頻繁宕機,且長時間宕機,是降本增效的附屬品之一。系統投資少了,維護資源少了,程序員更換頻繁了,BUG 就多。
他舉例稱,一般在業務上行階段都有冗余,為了迎接隨時爆發的訂單,上行階段要維持負載的上限不能過大,比如平時 70%,這樣遇到一個小爆發不用擔心會出問題,足以應對小高峰;但是下行期的邏輯就不同了,負載很高的時候抗一抗就行了,雖然后面遇到小高峰可能會難受,但是隨著時間的推移總體負載會下降。
其實類似故障情況在 2022 年 9 月 22 日也曾出現過。當日滴滴出行官方微博致歉稱由于機房網絡故障,導致滴滴部分服務受影響。
然而像今天這樣大面積、長時間的故障,應該是滴滴史上少有的。以目前情況來看,大家還無法確認故障原因。有技術專家感慨于修復時間太長,表示“是時候廢棄微服務了,別覺得自己水平多高,看看今天的滴滴吧。”
而更多人則認為這次故障跟“降本增效”有關。如平時為了迎接隨時爆發的訂單,設置了足夠多的冗余,但現在可能沒有給予足夠的冗余量。根據相關資料顯示,目前滴滴由滴滴云提供服務。滴滴云官網顯示,滴滴出行的云計算服務基于滴滴出行的業務技術和經驗積累,采用領先的云計算架構、高規格服務器集群搭建、高性能資源配置機制、精細化運營模式,致力于為開發者提供簡單快捷、高效穩定、高性價比、安全可靠的 IT 基礎設施云服務。在今年 2 月,滴滴云發布公告,由于產品線調整,滴滴云在 2023 年 3 月 31 日起將不再對外提供公有云服務。
圖片
對于互聯網大廠研發和架構師常常提到的高可用性,此次事故讓人不禁感嘆,難道同城多活、異地多活只是PPT里的說辭嗎?降本增效的所謂互聯網方式,難道只是裁員留下一堆中層領導天天寫PPT來維護系統嗎?
降本增笑,開猿節流帶來的后果是:
9月份,Boss直聘服務器崩了 11月初,阿里云服務器崩了
11月底,滴滴服務器崩了
下一位會是誰?
最后來看一下網傳的消息,有同行說滴滴這次嚴重故障是升級 k8s 版本導致,當時 SRE 工程師定位了三個小時都沒定位到問題。
圖片
圖片
從滴滴公開的技術分享來看,滴滴彈性云在上個月升級了 k8s 版本:從 k8s 1.12 升級到 1.20。(K8s 1.12 發布于 2018 年,K8s 1.20 發布于 2020 年。)
圖片
來源:滴滴彈性云基于 K8S 的調度實踐
另外,滴滴還為所有用戶派發了一張 “致歉補償券”,無門檻使用,立減 10 元。
不過,有用戶反饋補償券領取失敗,并且登上百度熱搜,因此有用戶質疑補償券是限量的。
圖片
對此,滴滴客服回應稱:補償券不是限制數量的,目前領取人數較多,辛苦您后續重新嘗試領取。
圖片
原文鏈接:https://mp.weixin.qq.com/s/CkmK155WBVfYp_FTzhYyCg