有了AI,IT運(yùn)維原來可以這么輕松
本文轉(zhuǎn)載自微信公眾號(hào)「計(jì)算機(jī)世界」,作者M(jìn)aria Korolov 。轉(zhuǎn)載本文請(qǐng)聯(lián)系計(jì)算機(jī)世界公眾號(hào)。
使用人工智能驅(qū)動(dòng)的IT運(yùn)營(yíng)技術(shù)可以自動(dòng)監(jiān)控和管理IT產(chǎn)品。云平臺(tái)、托管服務(wù)提供商和進(jìn)行數(shù)字化轉(zhuǎn)型的企業(yè)已經(jīng)開始從這種新興的IT趨勢(shì)中獲益。
這種新興的技術(shù)被稱為 AIOps,它可以提前阻止?jié)撛诘腻礄C(jī)和性能問題對(duì)運(yùn)營(yíng)、客戶和企業(yè)最終利潤(rùn)產(chǎn)生的負(fù)面影響。不過,企業(yè)開始部署更高級(jí)的人工智能系統(tǒng),是因?yàn)樗粌H可以識(shí)別問題,或在問題發(fā)生之前預(yù)測(cè)問題,還可以對(duì)事件做出智能、自動(dòng)化的緩解舉措。
那么AIOps究竟是什么?企業(yè)又是如何使用它的?在本文中,我們將更深入地介紹AI輔助IT 運(yùn)營(yíng)的技術(shù)、戰(zhàn)略和挑戰(zhàn)。
什么是AIOps?
AIOps是一種新興的IT技術(shù),它將人工智能應(yīng)用于IT運(yùn)維,幫助企業(yè)實(shí)現(xiàn)智能管理基礎(chǔ)設(shè)施、網(wǎng)絡(luò)和應(yīng)用程序,以提高性能、適應(yīng)性、容量、運(yùn)行時(shí)間,甚至安全性。通過將傳統(tǒng)的閾值警示和手動(dòng)流程轉(zhuǎn)移到利用人工智能和機(jī)器學(xué)習(xí)的系統(tǒng),AIOps使企業(yè)能夠更好地監(jiān)控IT資產(chǎn)并預(yù)測(cè)可能發(fā)生的負(fù)面事件和不良影響。
職業(yè)服裝零售商Carhartt 的CIO John Hill在三個(gè)主要領(lǐng)域:服務(wù)管理、績(jī)效管理和 IT 自動(dòng)化中利用 AIOps。現(xiàn)在,由于智能監(jiān)控,Carthartt可以在問題影響到用戶或客戶之前就發(fā)現(xiàn)問題。
“AIOps會(huì)監(jiān)控環(huán)境和了解正在發(fā)生的事情的整個(gè)過程,并根據(jù)這些指示信號(hào)采取行動(dòng),”Hill說,“以前,人們會(huì)根據(jù)停電或已經(jīng)產(chǎn)生的異常工作跡象得知有哪些地方需要修復(fù),但是在發(fā)現(xiàn)之前,客戶體驗(yàn)就已經(jīng)被損害了。”
AIOps工具
大部分AIOps平臺(tái)是建立在歷史悠久的監(jiān)控系統(tǒng)上,還有一些是來自于人工智能實(shí)驗(yàn)室,然后向外發(fā)展而成。好的AIOps工具會(huì)生成關(guān)于機(jī)器負(fù)載的前瞻性猜測(cè),然后觀察是否有產(chǎn)生偏離的情況。當(dāng)異常出現(xiàn),就會(huì)發(fā)出警報(bào),生成電子郵件、Slack帖子,如果偏差足夠大,則會(huì)生成尋呼機(jī)消息。復(fù)雜的AIOps工具還提供“根本原因分析”,它創(chuàng)建流程圖來跟蹤問題,看問題是如何在同一個(gè)現(xiàn)代企業(yè)應(yīng)用程序中通過不同機(jī)器傳播的。每個(gè)考慮采用AIOps的人都希望評(píng)估每個(gè)AIOps產(chǎn)品與特定數(shù)據(jù)庫和服務(wù)的集成程度。以下這些AIOps工具是當(dāng)今最好用的工具中的幾個(gè):
- AppDynamics
- BigPanda
- Datadog
- Dynatrace
- GitHub Copilot
- IBM Watson Cloud Pak for AIOps
- LogicMonitor
- Moogsoft
- New Relic One
- Splunk
AIOps應(yīng)用案例
AIOps可能已經(jīng)在你的IT產(chǎn)品中發(fā)揮作用了,而你甚至都不知道。高級(jí)的CRM或ERP系統(tǒng)通常會(huì)內(nèi)置智能管理系統(tǒng)。大多數(shù)云平臺(tái)也會(huì)使用機(jī)器學(xué)習(xí)驅(qū)動(dòng)的監(jiān)控和管理工具。
但是依賴單點(diǎn)解決方案中的內(nèi)置功能也存在缺點(diǎn)。在AIOps Exchange的調(diào)查中,65%的IT組織表示,他們?nèi)匀灰蕾嚤O(jiān)控方法(無論是否智能),這些方法要么是孤立的、墨守成規(guī)的,要么無法滿足整個(gè)IT環(huán)境的需求。此外,根據(jù)BigPanda最新的一項(xiàng)調(diào)查顯示,42%的IT組織在他們的IT環(huán)境中使用了超過10種不同的監(jiān)控工具。
Carhartt一開始就是使用了這種方式。“以前,面對(duì)不同的環(huán)境,我們必須對(duì)它們進(jìn)行獨(dú)立監(jiān)控,”Hill說。為了管理這種復(fù)雜性,Hill選擇將監(jiān)控結(jié)合到兩個(gè)平臺(tái)上,首先使用 AppDynamics進(jìn)行應(yīng)用程序性能監(jiān)控,然后利用Turbonomic來監(jiān)視 Carhartt 的基礎(chǔ)設(shè)施。
黑色星期五和網(wǎng)購星期一的購物高峰,通常會(huì)使公司網(wǎng)站出現(xiàn)需要即時(shí)修改的性能問題。Hill說,當(dāng)公司發(fā)現(xiàn)問題時(shí),客戶已經(jīng)感覺到服務(wù)質(zhì)量下降了。
自從Carhartt在2017年秋季部署 AppDynamics 到現(xiàn)在,黑色星期五和網(wǎng)購星期的峰值期間已經(jīng)實(shí)現(xiàn)了零宕機(jī)。
“我們?nèi)〉昧藙?chuàng)紀(jì)錄的增長(zhǎng),”Hill說,“我們的增長(zhǎng)速度是整個(gè)行業(yè)的兩倍,而且再也沒有出現(xiàn)過任何之前所經(jīng)歷過的宕機(jī)或性能下降。”
Carhartt在2019年初添加了Turbonomic,用于本地和云環(huán)境的資源管理。Hill表示,新系統(tǒng)使利用率從70%增加到92%。“它大概為我們節(jié)省了25%的基礎(chǔ)設(shè)施成本。”
增加利用率需求是自動(dòng)處理的,無需人工干預(yù),而是否為此減少容量仍需要人工批準(zhǔn)。
“它一旦監(jiān)測(cè)到我們遇到了容量挑戰(zhàn),就會(huì)向ServiceNow提出變更請(qǐng)求,”Hill說,“當(dāng)我們有太多容量時(shí),它會(huì)在ServiceNow 中創(chuàng)建一張通知單,然后有人會(huì)先快速地審查一下,只需單擊一下,所以目前我們還不需要讓它實(shí)現(xiàn)自動(dòng)化。”
該公司的下一步是把業(yè)務(wù)任務(wù)自動(dòng)化,例如使用文本識(shí)別和自然語言識(shí)別來處理客戶訂單。
作者:Maria Korolov,過去 20 年來一直致力于報(bào)道新興技術(shù)和新興市場(chǎng)。
原文網(wǎng)址:
https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html