通過滴滴技術博客:探尋造成此次P0故障的真正原因
2023年11月27日晚至2023年11月28日早晨,滴滴發生了長達12小時的P0級故障,導致滴滴核心業務都受到了影響,比如不顯示定位無法打車、滴滴單車無法掃碼等問題,期間滴滴進行了多次致歉。
圖片
來源:https://weibo.com/2838754010/NuMAAaUEl
目前問題故障已經恢復,根據最新的消息得知造成此次事故的原因,是由于升級K8S 集群導致。
圖片
1. 集群體量大
最大集群規模已經遠遠超出了社區推薦的5千個 node 上限,有問題的爆炸半徑大。
圖片
2. 版本升級跨度大
直接從1.12 升級到了1.20,跨越多個版本,有可能存在api不兼容的問題。
3. 升級方式應該選擇了原地升級
雖然滴滴有能力基于K8S二次開發,但是由于版本跨度較大,細節點較多,原地升級風險我覺得比替換升級大不少。
比如集群版本已經升級為1.20,但是Node節點的kubelet的版本還是 1.12,如果api不兼容,那么這個影響是非常大的,集群回滾又沒有那么快。
圖片
至于為什么采用原地升級方案,估計還有很多細節我們不得而知,但是此種方式確實有點激進,船大不好掉頭。