谷歌云服務大規模中斷事件溯源,API 管理系統故障引發全球癱瘓
2025年6月12日,谷歌云(Google Cloud)遭遇近年來最嚴重的服務中斷事件,其API管理系統出現關鍵故障,導致全球數十項服務癱瘓長達七小時。此次事故源于服務控制(Service Control)二進制文件中出現的空指針異常,該組件負責管理API授權和配額策略,影響范圍覆蓋谷歌云平臺(GCP)和Google Workspace產品的數百萬用戶。
二進制文件崩潰引發全球故障
故障根源在于谷歌的服務控制系統——這個區域性服務負責在基礎設施中授權API請求并執行配額策略。2025年5月29日,工程師部署了新增配額策略檢查功能,但相關代碼既缺乏完善的錯誤處理機制,也未啟用功能標志(feature flag)保護。
危機爆發的直接原因是:包含意外空白字段的策略變更被寫入服務控制系統依賴的區域性Spanner數據庫表。由于配額管理具有全球同步特性,這些損壞的元數據在幾秒內就完成了全球復制。當服務控制系統嘗試處理這些空白字段時,觸發了未受保護的代碼路徑,導致空指針異常,最終引發所有區域二進制文件同時進入崩潰循環狀態。
"本次變更的根本問題在于既沒有配置適當的錯誤處理機制,也沒有啟用功能標志保護。由于缺乏錯誤處理,空指針直接導致二進制文件崩潰。"谷歌在事故報告中解釋道。
網站可靠性工程(SRE)團隊在10分鐘內定位到根本原因,并在40分鐘內部署了"紅色按鈕"緊急終止開關,關閉問題服務路徑。雖然大部分區域在兩小時內恢復,但us-central1區域卻遭遇持續性問題——當服務控制任務在這個主要區域重啟時,對底層Spanner基礎設施形成"羊群效應",海量并發請求導致數據庫不堪重負。
工程師發現服務控制系統缺乏預防級聯故障的隨機指數退避機制。谷歌不得不限制任務創建,并將流量路由至多區域數據庫以減輕過載基礎設施的壓力。這一延長恢復過程影響了包括谷歌計算引擎(Compute Engine)、BigQuery、云存儲(Cloud Storage)在內的核心服務,這些產品構成眾多企業數字業務的基石。
整改措施
針對此次大規模服務中斷,谷歌制定了全面整改方案:
- 立即凍結服務控制堆棧的所有變更和手動策略推送,直至系統完全修復
- 對服務控制架構進行模塊化改造,確保在個別檢查失敗時仍能保持API請求處理能力(故障開放而非關閉)
- 全面審計所有使用全局復制數據的系統
- 強制要求所有關鍵二進制變更必須啟用功能標志保護
受影響服務超過60項,涵蓋Gmail、Google Drive、Google Meet、App Engine、云函數(Cloud Functions)和Vertex AI等產品。谷歌強調現有流媒體和基礎設施即服務(IaaS)資源仍保持運行,但客戶在整個中斷期間遭遇API和用戶界面間歇性訪問問題。