谷歌云服務大規模中斷事件溯源，API 管理系統故障引發全球癱瘓

作者：空空star 2025-06-17 15:32:05

故障根源在于谷歌的服務控制系統——這個區域性服務負責在基礎設施中授權API請求并執行配額策略。

2025年6月12日，谷歌云（Google Cloud）遭遇近年來最嚴重的服務中斷事件，其API管理系統出現關鍵故障，導致全球數十項服務癱瘓長達七小時。此次事故源于服務控制（Service Control）二進制文件中出現的空指針異常，該組件負責管理API授權和配額策略，影響范圍覆蓋谷歌云平臺（GCP）和Google Workspace產品的數百萬用戶。

二進制文件崩潰引發全球故障

故障根源在于谷歌的服務控制系統——這個區域性服務負責在基礎設施中授權API請求并執行配額策略。2025年5月29日，工程師部署了新增配額策略檢查功能，但相關代碼既缺乏完善的錯誤處理機制，也未啟用功能標志（feature flag）保護。

危機爆發的直接原因是：包含意外空白字段的策略變更被寫入服務控制系統依賴的區域性Spanner數據庫表。由于配額管理具有全球同步特性，這些損壞的元數據在幾秒內就完成了全球復制。當服務控制系統嘗試處理這些空白字段時，觸發了未受保護的代碼路徑，導致空指針異常，最終引發所有區域二進制文件同時進入崩潰循環狀態。

"本次變更的根本問題在于既沒有配置適當的錯誤處理機制，也沒有啟用功能標志保護。由于缺乏錯誤處理，空指針直接導致二進制文件崩潰。"谷歌在事故報告中解釋道。

網站可靠性工程（SRE）團隊在10分鐘內定位到根本原因，并在40分鐘內部署了"紅色按鈕"緊急終止開關，關閉問題服務路徑。雖然大部分區域在兩小時內恢復，但us-central1區域卻遭遇持續性問題——當服務控制任務在這個主要區域重啟時，對底層Spanner基礎設施形成"羊群效應"，海量并發請求導致數據庫不堪重負。

工程師發現服務控制系統缺乏預防級聯故障的隨機指數退避機制。谷歌不得不限制任務創建，并將流量路由至多區域數據庫以減輕過載基礎設施的壓力。這一延長恢復過程影響了包括谷歌計算引擎（Compute Engine）、BigQuery、云存儲（Cloud Storage）在內的核心服務，這些產品構成眾多企業數字業務的基石。

整改措施

針對此次大規模服務中斷，谷歌制定了全面整改方案：

立即凍結服務控制堆棧的所有變更和手動策略推送，直至系統完全修復
對服務控制架構進行模塊化改造，確保在個別檢查失敗時仍能保持API請求處理能力（故障開放而非關閉）
全面審計所有使用全局復制數據的系統
強制要求所有關鍵二進制變更必須啟用功能標志保護

受影響服務超過60項，涵蓋Gmail、Google Drive、Google Meet、App Engine、云函數（Cloud Functions）和Vertex AI等產品。谷歌強調現有流媒體和基礎設施即服務（IaaS）資源仍保持運行，但客戶在整個中斷期間遭遇API和用戶界面間歇性訪問問題。

責任編輯：趙寧寧來源： FreeBuf

服務中斷安全管理企業安全

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

谷歌云服務大規模中斷事件溯源，API 管理系統故障引發全球癱瘓

二進制文件崩潰引發全球故障

整改措施