AIOps，SRE工程師手中的利器

作者：佚名 2021-03-08 16:18:07

AIOps開始成為一種極為重要的站點可靠性工程工具。它能夠高效吸納觀察數據、參與數據以及來自第三方工具的數據，判斷系統運行狀態并保證其處于最佳狀態。

基礎設施與網絡層面發生的問題，必須以閃電般的速度加以解決，在理想情況下，最好能讓最終用戶或客戶完全感受不到問題的發生。而隨著全球經濟體系乃至社會結構的數字化轉型，對事件管理能力的需求也變得愈發緊迫。

但是，盡管現代應用程序能夠快速響應客戶需求，但其自身的更新與修復又提出了新的速度要求，同樣對基礎設施可靠性形成巨大壓力。一旦出現性能問題甚至數字服務中斷，對現代應用程序造成的影響反而比傳統應用更嚴重。

在管理基礎設施可靠性方面，選擇正確工具無疑是達成目標的重要前提。對于站點可靠性工程師(SRE)及其他員工而言，相當一部分云原生方法確實太過復雜、難以理解。因此，除了良好的可見性之外，他們還需要建立起判斷問題優先級、迅速發現故障并加以解決的能力。

AIOps的意見也正在于此。隨著軟件與基礎設施資產的迅猛拓展，AIOps能夠自動檢測到環境中的異常、為團隊提供必要的安全性加持，保證在問題擴大化、復雜化之前及時將其解決。

值得注意的是，隨著應用程序與基礎設施的蓬勃發展，AIOps也開始成為一種極為重要的站點可靠性工程工具。它能夠高效吸納觀察數據、參與數據以及來自第三方工具的數據，判斷系統運行狀態并保證其處于最佳狀態。為了幫助團隊識別并診斷問題，算法與機器學習工具隨后會被整合至數據之內，借此充實關于現狀的情報，甚至有望自動高效地完成事件響應。

著眼于現實場景，以下五種AIOps應用方法值得關注：

方法一檢測事件

這也是AIOps擴展工具包的核心用例，幫助團隊快速發現問題。AI與機器學習能夠自動梳理異常跡象，而后將學習結果用于觀察系統及基礎設施的運行態勢。憑借這種自動性方法，AIOps能夠及時發現預警信號，幫助運營團隊在客戶體驗受到影響之前就及時介入。

方法二減少及消除噪音

事件響應當中，警報疲勞一直是個大問題。警報的持續涌出往往令員工的神經變得麻木，難以發現真正緊急的狀況。理想情況下，我們需要準確判斷哪些警報優先級較低、哪些警報彼此關聯。AIOps能夠關聯、精簡警報并確定其優先級，借此消除警報疲勞問題、幫助團隊高效處理對可靠性威脅最大的故障。

方法三結合背景

突發事件往往非常混亂，而且形勢也瞬息萬變。過多信息會導致團隊迷失方向，為此必須為運營人員提供背景信息，幫助他們找到正確的方向。AIOps能夠自動對事件做出映射，同時建立起全面了解。除了理解以外，背景信息在事件解決方面同樣有著重要作用。

方法四提升智能化水平

AIOps是一種不斷發展的有效工具。過往經驗、當前使用方式以及用戶反饋等，共同為AIOps提供良好的訓練數據，進而幫助我們識別并預防以往曾經發生或較為類似的問題。隨著信息的不斷積累，模型智能化程度將持續提升，最終提供更具針對性的關聯、洞見與建議。

方法五整合數據、統一團隊

任何來源的事件數據，都會與企業的現有事件管理工具及工作流集成在一處。輸入的數據越多，機器學習模型的訓練度也就越高，產生有針對性、高實用度結果的幾率就更高。AIOps解決方案能夠吸納數據，通過背景信息豐富數據內容，并將結果通報至相關團隊或響應人員手中，以供各個事件管理團隊加以使用。以此為基礎，各團隊將不必把時間浪費在不同工具的往來切換當中。

對于尚未開始使用AIOps的組織而言，這項工作聽起來似乎繁復無比。沒錯，AIOps確有一定門檻，但目前已經有不少實踐標準能夠幫助我們較為輕松地跨過這些門檻。

首先，考慮最適合自身需求的用例。縮小思考范圍，從小處入手開始學習，并在測試中不斷成長。

其次，保證工作流程的透明化。人們天然會抵觸變化，所以大家必須破除迷團、讓AIOps呈現出清晰明確的形象。

最后，為囊括AI及ML元素的新型IT運營體系做好準備。如今，采用AIOps技術支持運營體系的組織越來越多，相信它也終將成為顛覆傳統運營理念與運營思維的主流解決方案。

責任編輯：姜華來源：至頂網

AIOps 工具監控與管理

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AIOps，SRE工程師手中的利器