AI 如何重塑 IT 運營:從救火式響應到智能進化
企業的數字化轉型始終在不斷推進,伴隨而來的是IT系統的復雜性呈指數級增長。服務器、微服務、容器、數據平臺等多層技術堆棧交織在一起,遺留系統與云原生架構相互耦合,快速迭代的業務需求與全球化部署的彈性要求,使得傳統IT運營模式逐漸力不從心。
面對海量指標和告警、突發的故障、不斷更新的運營知識以及持續的系統迭代需求,運維團隊往往陷入“救火式響應”的惡性循環。然而,人工智能(AI)的引入為這一困局提供了突破之道——AI不僅解鎖了問題處理的效率邊界,更通過持續學習推動IT運營從“被動修補”走向“主動進化”。
一、IT運維的惡性循環與破局點
傳統IT運營遵循“發現-診斷-排查-解決-學習”的線性邏輯,但其核心矛盾在于:問題發現的滯后性與解決成本的指數級增長。
當系統出現異常時,運維團隊需要從成千上萬的日志、指標和告警中定位根源。這一過程往往依賴支持工程師的經驗與人工排查,耗時且容易誤判。在我們為客戶提供運維服務之前,企業平均需要數小時定位復雜系統的故障根因,而在此期間,業務損失可能已經產生。
更嚴峻的是,高昂的解決成本會倒逼團隊選擇“短視方案”——例如直接重啟服務、打補丁、甚至屏蔽告警。這些臨時措施雖能快速恢復業務,卻為系統埋下更多隱患:無論是從可觀測性還是系統代碼質量來看,臨時措施都會導致未來故障的連鎖反應與更高的修復成本,從而使運營團隊陷入『負循環』。最終的結果是更高的運維成本、逐步降低的可觀測性、甚至漸漸腐化的系統。
AIOps(智能運維)的核心價值,正是通過AI在問題萌芽階段介入,打破這一惡性循環。它從海量數據中提取模式,在故障影響擴散前預警、分析并推薦解決方案、根據問題的種類和優先級提供自動化解決方案并執行,同時將處理經驗沉淀為可復用的知識,最終實現“越早處理,成本越低”的良性閉環。
二、AIOps的三大核心場景落地
場景一:指標與告警管理——從“告警疲勞”到“精準洞察”
傳統監控工具常陷入“告警疲勞(Alert Fatigue)”:單一服務器CPU使用率飆升可能觸發數十條關聯告警,而其中僅1條指向真實故障。在客戶與Thoughtworks合作中,我們構建了一整套端到端的可觀測性解決方案,包括指標收集、告警梳理、異常處理、根因分析、協作軟件集成、直到運營報告的生成,在這個過程中,我們的解決方案設計整合了多個平臺、大語言模型、以及開源技術,最終,我們能夠在工單生成前,從指標數據中精準識別問題并提前處理,以下是這個解決方案的若干構件:
這個實施方案里:我們通過Chronosphere與Odigos進行多個信息源的可觀測性指標的收集、篩選、合并最終生成優先處理的告警;告警通過Rootly告警管理平臺進行管理,結合Slack平臺與運營人員進行即時互動;同時利用Google Vertex AI提供的大語言模型進行AI輔助——例如事故總結、根因分析、基礎知識輔助等;相關運營知識采用Glean的AI知識搜索功能進行抽取和總結;最終,在Slack上的處理結果將按類型分流:可以執行的自動化任務(由GitHub Actions完成)、更新的知識(自動生成Conflunce頁面)、或自動生成的工單(通過Jira或Zendesk)。
通過這個解決方案的實施,我們預計AI可以通過自動化的方式處理超過20%系統告警、超過60%的告警可以得到在工單生成之前得到有效處理、最終降低整體的工單量。
場景二:工單自動化與響應——從“人力密集型”到“智能流水線”
工單處理涉及大量重復性工作:用戶提交故障描述、運維人員檢索知識庫、分派任務并手動驗證結果。AI在此環節實現三重突破:
- 自然語言處理(NLP)自動解析工單:將用戶描述的系統問題自動關聯至性能指標、近期變更記錄等上下文,生成結構化工單。
- 知識圖譜驅動的自動化響應:例如,當識別到『登錄失敗』工單時,AI自動檢查身份驗證服務狀態、防火墻規則及最近代碼發布記錄,并執行預置的檢查腳本,60%的簡單問題可自動解決。
- 智能分派與協同:根據故障類型、工程師專長和當前負載,動態分配任務,并推送關聯案例和修復方案,減少跨團隊溝通成本。
在與東南亞某國政府的合作中,我們利用該方案實現了工單預處理團隊(Pre-L1)的全面自動化,成功替代8人的人工操作,每年為客戶節省近百萬美元的人工運營成本。
場景三:系統演進輔助——從“推倒重建”到“慢演進”
在與客戶的合作我們越來越發現,一個健康、且持續健康的系統對于運營團隊至關重要,優秀的系統架構、自動化程度、可觀測性等等都可以大幅降低運營團隊的成本、提升運營效率。所以Thoughtworks DAMO提出了『慢演進』的概念——相比高風險的“推倒重建”,更傾向于通過迭代優化,逐步提升系統健康指標。通過AIOps的實施,我們幫助客戶節省了大量運營成本、同時我們將這些被節省的成本重新投入到系統的『慢演進』中去,這里我們同樣使用AI進行系統演進。
例如以下這個例子:
為了使得每次提交的代碼,不引入架構問題、安全風險、或代碼質量問題,我們采用AI和人協同進行代碼審查的方式,秉承“持續改進”的敏捷思想,保證在每一次代碼提交時不破壞系統健康。
在另一個案例中,我們結合大語言模型與知識圖譜,從遺留代碼中提取業務和系統知識,并將其轉化為可復用的領域知識,助力研發、架構演進、及運維管理:
三、AI驅動的IT運營新范式
AIOps不僅僅是將算法嵌入既有流程,而是推動IT運營向三個維度演進:
- 從被動響應到主動預防:通過早期預警和根因分析,AIOps能夠在問題影響業務之前就將其攔截,從而實現主動防控。
- 從人工決策到人機協同:AI負責處理規則明確且高并發的簡單任務,而人類專注于復雜決策和創新,通過這種方式,整理工單量得以減少,用戶問題的響應能力也得到提升。
- 與架構團隊共同負責長期的系統演進:借助AI的力量,能夠有效保護代碼健康,并為系統架構的持續演進引駕護航。大語言模型的推理能力還能夠用于領域知識的抽取與轉化。
這種范式遷移的長期價值在于,隨著AI技術的應用,企業IT系統將變得越來越智能,系統的迭代將越來越穩定,從而支撐業務的數字化創新,同時降低長期維護成本。
四、結語
AI正在重新定義IT運營的“效率”與“價值”。它不僅是工具的升級,更是對角色定位的重新演繹:運維團隊的角色從“系統修理工”轉向“架構保護者”、甚至“業務護航者”,而IT系統本身也從“成本中心”演變為“創新引擎”。展望未來,隨著大模型與AI技術的進一步成熟,AIOps或將實現“自治運維”。然而,這并不意味著取代人類,而是通過人機協作的智慧,成為企業數字韌性的真正基石。