AIOps智能運維=機器學習+自動化運維
在互聯網和數字化成為全球經濟增長新引擎的今天,企業管理和業務運行與IT系統健康息息相關,高效的IT管理能幫助企業在瞬息萬變的市場競爭中獲得快人一步的競爭優勢。然而云計算、虛擬化和微服務技術的應用使得企業IT系統越來越龐大而復雜,要滿足高性能的業務運行需求絕非易事。
特別是為了提升用戶訪問體驗而廣泛采用的分布式應用系統和CDN資源,以及越來越復雜的網絡接入環境,使得IT部門很難第一時間發現IT故障的發生。企業為了保障系統的高可用,降低故障率,往往會進一步擴大IT系統規模,于是業務增長越快、IT規模越大,IT管理的負擔越重。
在2016年,Gartner針對IT發展和運維管理的困境,提出了一種全新的運維管理方法,以減輕企業IT的負擔,提升管理效率,這就是AIOps智能運維。AIOps是Algorithmic IT Operations的縮寫,從字面上看是一種基于算法的運維方式,區別于傳統的人工運維和自動化運維,通過基于運維大數據的機器學習,用智能決策逐步取代人工決策,提升IT管理效率,因此國內業務運維企業云智慧把AIOps稱為智能運維。
AIOps的落地,將把日常的IT管理工作移交給擁有機器學習和自動化運維的智能運維平臺,大大降低企業管理的時間成本和資金投入。而運維管理人員也可以從篩查海量告警信息、執行重復性巡檢任務、人工判斷故障、手動解決問題的低效工作中釋放出來,專注于構建更加高效、高擴展的IT系統,支持企業的數字化業務發展,這也就是業界所倡導的“IT從運維到運營”之路。
AIOps智能運維平臺還能有效預測潛在的IT故障,并在無需人為干預的情況下提前解決掉這些問題,而應用系統故障率的降低,將有效提高云計算資源的使用效率。這得益于機器學習和深度學習算法在IT監控和應用性能管理系統中的持續積累,不斷記錄IT運維人員在不同場景下使用故障排除或修復基本問題的自動化工具的操作。當針對不同型號設備、不同應用系統、不同的云平臺的學習樣本數據足夠豐富時,AIOps智能運維平臺就可以自動評估系統的健康狀態,如CPU使用率、磁盤吞吐率、設備故障率等,如果發現了系統的異常活動,就能提前自動觸發相關運維操作。
企業采用AIOps的能力不僅取決于IT監控系統的數據規模和自動化系統的可用性,還取決于人員和流程的一致性。服務商可以在很短時間內把AIOps智能運維平臺部署到企業,但任何管理轉型都不是安裝一套系統那么簡單,需要根據業務特點對人員和流程進行調整,而這往往需要更多的時間。
要衡量AIOps智能運維平臺在企業中的實施效果,可以重點關注兩項關鍵指標,平均故障恢復時間(MTTR)和事務(故障)處理數量,這兩項指標反映到客戶滿意度上,就是AIOps的價值。
以機器學習、深度學習為代表的人工智能技術的成熟,為利用IT手段持續改善企業經營水平和服務質量鋪平了道路。而AIOps以IT大數據為切入點,率先解決了所有數字化和互聯網+轉型企業所面臨的業務與IT系統斷層的問題。雖然大多數機器學習項目可能需要多年才能看到價值,但AIOps平臺可以用最小的代價為企業運營帶來卓越的投資回報。同時,這筆投資可以長期持續的提供業務價值和提升用戶口碑。