云計算帶來了集約化、效率、彈性與業(yè)務敏捷的同時,對云上運維提出了前所未有的挑戰(zhàn)。如何面對新技術趨勢的挑戰(zhàn),構建面向云時代的智能監(jiān)測平臺,讓云上應用獲得更好的保障,是如今擺在每一個企業(yè)面前的一道難題。
在日前的【T·Talk】系列活動第八期中,51CTO內容中心特別邀請到了乘云產品VP張懷鵬做客直播間,為大家分享打造云時代數字化觀測利器的經驗與思考。【T·Talk】也將本期精彩內容進行了整理,望諸君能夠有所收獲:
?
數字化轉型浪潮下的數字化運營痛點
數字化轉型與數字經濟建設是當前時代的大趨勢,數字化轉型可以說是人類歷史上的第四次工業(yè)革命。我們日常的辦公方式、支付方式、購物方式,包括出行方式等,無時無刻不受到數字化的影響。簡單來說,目前我們已經由傳統(tǒng)的IT時代邁入了數字化DT的時代。
在數字化DT的時代,數字化轉型幾乎重新定義了當前企業(yè)的業(yè)務以及業(yè)務體驗的方式。但隨著各行業(yè)數字化轉型的不斷深入,越來越多的數字化應用事故也開始逐漸顯露。例如年初某省市的健康碼崩潰、核酸檢測系統(tǒng)異常等,都對社會面造成了非常大的影響。
據調查,目前60%的CEO認為數字化轉型非常重要,企業(yè)也在這部分人群的帶領下大踏步地向數字化轉型和人工智能演進。然而與此形成鮮明對比的是,95%的企業(yè)應用并沒有得到有效的監(jiān)測與關注。
當前數字化運營手段,大多都產生于傳統(tǒng)的數據中心時代,大量的工具或技術都沒有考慮到云計算的場景。隨著云計算的普及,信息化的場景發(fā)生了天翻地覆的變化。應用本身的復雜性呈現爆炸式增長,分布式越來越多,依賴關系也越來越復雜,軟件迭代節(jié)奏也越來越快。在這樣的場景下,企業(yè)急需構建面向DT時代的,基于業(yè)務和數據流的一套解決方案。
DT時代產生了太多新的技術、新的場景,例如目前熱度很高的云原生,云原生的要求加速了傳統(tǒng)運維向應用運維的演進。傳統(tǒng)場景存在大量基礎設施,但隨著業(yè)務上云,基礎設施都將托管給運營商或運營者,企業(yè)不再需要為傳統(tǒng)的機房管理、弱電管理、硬件的監(jiān)控、裸金屬的監(jiān)控、UPS配電及溫濕度煩惱。因此傳統(tǒng)的設備運維也演變成了Site reliability以應用為重心的運維,企業(yè)對傳統(tǒng)運維的投入將會變得越來越少。
目前來說,我們處在向智能化運維轉型的階段?,F在需要做的是讓數字化運維、IT運維變得更輕、效率更快、成本的支出更少。運維團隊的精力需要集中在企業(yè)業(yè)務本身,業(yè)務才是運維人員所需要關注的重點問題。這些都會帶來對智能運維的需求。
企業(yè)通往智能運維的典型技術路徑
1、什么是智能運維
關于智能運維,Forrester和Gartner曾在報告中進行過定義:AIOps是一套將AI和數據科學應用于業(yè)務和運維的數據領域,以建立關聯(lián),并能夠提供實時的規(guī)范性和預測性答案的軟件系統(tǒng)。AIOps可以是一套軟件系統(tǒng),因此它可以是一個落地的產品。AIOps能夠增強并部分取代傳統(tǒng)的主要的IT運維的功能,包括可用性和性能監(jiān)控、事件關聯(lián)和分析、IT的服務管理和自動化。
AIOps ,面向的是Operations,Operations是需要覆蓋觀測、管理與處置三方面。但目前業(yè)界整體水平更多的是聚焦在觀測層面。Forrester對此也給出了一個經典的語句:AIOps承諾了更強的可觀察性和穩(wěn)定性。
Forrester認為,當前AIOps的一個核心價值,就是將事前能力增強,提升和擴展你的可觀測能力。
2、什么是可觀測性
觀測性最早誕生于控制理論中,指系統(tǒng)可以由外部輸出,推斷其內部狀態(tài)的程度。在IT領域中,Gartner將可觀測性定義為軟件與系統(tǒng)的一種特性。具體指根據系統(tǒng)生成的遙測的數據來判定當前系統(tǒng)的狀態(tài)以及系統(tǒng)情況,這種能力便是可觀測能力或稱可觀察能力。
?
為什么需要可觀測性?
傳統(tǒng)的監(jiān)控的技術和工具很難跟蹤當前的越來越多的分布式架構中的通信路徑和依賴關系,在云原生的場景或者在云端的場景,依賴關系非常復雜,不再像傳統(tǒng)很多的單體架構的應用一樣。而可觀察性能夠更好地控制復雜系統(tǒng),通過可觀察性三大數據支柱能夠非常直觀詳細地了解到復雜系統(tǒng)的方方面面。
可觀察性不僅只服務于運維,還能夠服務于開發(fā)部門、SRE部門、Support部門、市場部門與Business部門。因此如果能夠將AIOps和可觀察性融合為一體,打造出來一體化的平臺,將會得到非常完美的產品,能夠一舉兩得。
3、企業(yè)通往智能運維AIOps 的兩條典型技術路徑
企業(yè)通往IT智能運維的兩條典型的技術路徑可以形象的歸納為“外掛AIOps”與“內生AIOps”。外掛AIOps,通過旁路的方式將AIOps的平臺植入企業(yè)IT運維的環(huán)境中。AIOps是一個獨立的算法平臺,通過接入企業(yè)異源異構的數據,而后通過數據工程師梳理數據之間的依賴關系,并借助大數據處理技術,實現項目制的交付。
內生AIOps強調的是一體化的技術路線,通過內生AIOps引擎,能夠實現數據處理全流程的閉環(huán),不需要數據工程師參與。類似于快遞的流程,寄件人的物品相當于數據。拿到數據后,由快遞員實行封裝、倉儲、調度、運輸等操作。但最終收件人收到的就是這個物品,中間的所有的處理環(huán)節(jié)是不需要寄件人和收件人去處理的。內生AIOps強調這一能力,將AI的能力嵌入到一體化觀測平臺當中。
技術實現上的差異:
外掛AIOps一般使用傳統(tǒng)的機器學習AI,這種技術本質上是一種統(tǒng)計方法,將Metric、log、事件等信息進行關聯(lián)分析,旨在降低告警的噪聲。通過機器學習AI,我們能夠獲得一組關聯(lián)告警。因此其需要一定的時間周期,一般來說外掛AIOps需要人工或歷史記錄去提出一個推薦性或者可能性的根因。
同時,外掛AIOps需要大量外部數據的依賴,外掛AIOps廠商通常只做算法平臺。數據的清洗、CMDB的實體間的依賴關系等等,都需要外部的數據。因此,想要落地外掛AIOps,需要企業(yè)的信息化運維的體系建設非常成熟,需要有調用數據的前提、有APM的產品、且可觀察性得做的相對完善,才能去做外掛的AIOps。
內生AIOps則提供了一個確定性的人工智能分析,將確定性的分析結果作為目標,也就是在問題發(fā)生后,問題發(fā)生原因的根因是確定性的,且是一個接近實時的結果。內生AIOps維系了一張實時性非常高的矩陣式依賴關系地圖,這項技術不需要去依賴傳統(tǒng)靜態(tài)的CMDB,而是這張依賴關系地圖本身就相當于一張實時的CMDB,能夠將依賴關系進行實時的變化,借助內生的關系實現了管理分析。
企業(yè)如何決策選擇適合自己的技術路徑?
在AIOps的落地層面,企業(yè)需要考慮的問題也比較多。從企業(yè)管理者的角度來說,除了成本、團隊等基礎問題外,還需要考慮不同部門之間的平衡,以及成本、穩(wěn)定性和效率之間的平衡問題。AIOps的目標,是既要解決問題,還要合理地解決問題。在保證成本的同時,最大化地提高企業(yè)業(yè)務的穩(wěn)定性與效率。
在Forrester的一篇報告中提到,企業(yè)落地AIOps時有以下幾點關鍵能力需要著重思考:
- AIOps平臺與ITOM工具鏈是否能夠無縫集成,是否能高度實現自動化的能力
- AIOps平臺非??粗卦鷶祿?,原生數據包括云原生的依賴關系、云原生機器數據的信息
- 全服務的依賴關系的地圖的自動化和全景的構建
- AIOps的未來是智能化的觀測感知和自動化的落地實踐
- 根因分析和事件補救計劃的自動化程度
- 現代技術運營需要智能化和自動化
從數據處流程上來看兩種技術路徑的差異:
傳統(tǒng)AIOps平臺,也就是外掛AIOps平臺在數據處理過程當中會使用到很多工具拼湊組裝,打造一套搖搖晃晃的大數據系統(tǒng)。如果發(fā)生工作人員的更換,則很有可能給新的交接者遺留大量的技術債務。
第一步的數據收集環(huán)節(jié),需要依賴大量開源與商業(yè)工具。第二步將數據注入大數據平臺。第三步,人工梳理數據關系以及清洗數據。前三個步驟是非常耗時的。第四步,發(fā)現問題、定位問題,這一步AIOps廠商才會參與進來,廠商團隊需要落地到客戶現場駐點按需打造。廠商會詢問需求,并提供相應服務。第五,構建儀表盤。第六,系統(tǒng)的擴展,隨著應用系統(tǒng)的規(guī)模的擴大,整個系統(tǒng)呈線性增長。
整個流程中,數據工程師需要花費將近80%的時間用來做數據的清洗、采集和組織,整個方案需要尖端的運維領域人才,既要是運維專家,還需要懂算法、懂開發(fā)。本身AIOps是一套支撐的系統(tǒng),是用來解決問題的,但外掛式AIOps很有可能會使運維變得更重,需要一支專門的團隊來維護AIOps平臺本身。
內生AIOps的數據處理流程則非常簡單,一個工具即可解決數據采集。且由其是一個高度商業(yè)化的產品,且具有開箱即用的儀表盤能力,包括引擎等。因此后續(xù)的處理流程都是黑盒的,無需企業(yè)過多關心,也不需要業(yè)務工程師懂算法并具備SRE的技術水平。
同時,內生AIOps會隨著企業(yè)業(yè)務系統(tǒng)的規(guī)模的擴展,呈非線性的增長。包括用戶的團隊以及產品的整個系統(tǒng),都是呈非線性增長的。整個方案布置下來的話,企業(yè)只需要要安裝一個Agent,后續(xù)很多都是自動化的能力。這使得企業(yè)的運維人員能夠將精力聚焦企業(yè)自身的業(yè)務。
總結:
業(yè)界需要新一代的軟件智能平臺,能夠全覆蓋整個數據處理流程。將客戶想要的結果直接交付,而不是呈現原始數據。總的來說,在外掛AIOps與內生AIOps兩條技術路徑當中,更推薦企業(yè)使用內生的AIOps,其屬于智能運維的新的范式。
?
內生AIOps助力云原生運維化繁為簡
內生AIOps平臺的目標是構建一個集AIOps和可觀察性于一體的一體化平臺。其需要具備觀測能力,且觀測能力要以應用監(jiān)控為中心,應用監(jiān)控才是面向最終用戶的現象層。同時,還需集成基礎設施的監(jiān)控,包括云平臺的監(jiān)控以及黑盒的監(jiān)控。最后還需要具備面向前端的數字體驗的能力。
新的AIOps平臺需要打造出持續(xù)的自動化,從數據的接入到數據結果的輸出實現自動化。需要具備事前能力,擁有預測與預警的能力。
新的AIOps平臺需要提供高階的可觀察性,并不只是把原始數據、原始零件展示給企業(yè),而是要關注現象、關注體驗,給出準確結果,這樣才能盡可能地減少海量噪音對企業(yè)帶來的影響與干擾。
內生AIOps的數據處理模型,有很多差異化的地方,比如在數據采集上面強調一個Agent的能力。在數據處理上面,我們強調指標體系,指標體系的構建和傳統(tǒng)的方式有所不同,我們強調內生AIOps內生于一體化平臺。
內生AIOps平臺主要會從以下五個方面幫助云原生運維實現化繁為簡:
- 內生AIOps平臺能夠直接獲取優(yōu)質的觀測數據
- 能夠打造持續(xù)的自動化能力,對于運維來說,工作效率會更高
- 平臺能夠構建一個實時的矩陣式的拓撲,按圖索驥
- 能夠即時輸出影響面分析
- 直指根因,見證成果
1、直接獲取優(yōu)質的觀測數據
首先,直接獲取優(yōu)質的監(jiān)測數據。一句比較經典的總結是“高質量的觀測來源于高質量的遙測”,高質量的后端的分析一定要求高質量的前端的遙測數據的產生??捎^察性關注三大支柱,如果要做高階的可觀測性、內生的AIOps分析,需要五大支柱,除了傳統(tǒng)的追蹤數據、指標、日志數據,還需要非常關鍵的拓撲數據與代碼數據,數據的質量能夠直接決定模型的上限。
直接獲取優(yōu)質的監(jiān)測數據,這些數據一定是實現非侵入式的、自動化的采集,不用修改源代碼、業(yè)務與應用,且能夠實現上下文信息和自動化的結合。上下文信息能夠輔助實現真正的根因分析,能夠幫助根因分析提取高保真的背景的信息,能夠幫助平臺構建實時的服務流圖和拓撲圖,進行依賴關系。包括矩陣式的關系拓撲的技術,這些上下文信息也是非常關鍵的。
拓撲圖,主要展示整個應用環(huán)境的依賴關系,包括垂直的堆棧和水平的堆棧。服務流圖是從一個服務或請求的維度去提供整個交易的視圖,通過服務流圖和拓撲圖,可以說明服務之間調用的序列。服務流圖顯示的是交易的整個分布的序列,是有序的,而拓撲圖則是更高級的抽象,顯示的是依賴關系等。
直接獲取優(yōu)質的監(jiān)測關系需要用到商業(yè)化的Agent的技術,雖然目前市面上已經有許多開源的工具或者免費的工具,但商業(yè)化Agent技術有著以下幾個開源工具所不具備的優(yōu)勢。
- 采集的代理探針的穩(wěn)定性、安全性和可靠性有保障
- 探針對宿主機、對于核心業(yè)務的資源開銷、性能影響有保障
- 部署和插裝,包括變更,能夠更少地使用手工操作
- 監(jiān)測能自動植入到動態(tài)的方法或者容器類的這些組件當中
- 各種指標采樣精細,原生高保真
- 有足夠的信息和上下文可供建立一個統(tǒng)一的數據模型
以上優(yōu)勢是很多免費的工具不具備的。內生AIOps平臺依賴于One Agent技術,Agent擁有邊緣計算的設計,在邊端端點上做了很多數據的聚合、數據的清洗的工作。
2、打造持續(xù)自動化
內生AIOps平臺的能力,旨在構建持續(xù)的自動化。監(jiān)測復雜的云原生環(huán)境,一定離不開自動化。包括自動化的部署、自動化的適配、自動化的發(fā)現、監(jiān)控、注入、清洗等一系列自動化。在復雜的云原生環(huán)境當中,憑人力是難以了解這些端到端的業(yè)務的,所以需要用高度的自動化能力來作為輔助工具,去輔助自動運維。
3、構建實時矩陣式關系地圖
內生AIOps平臺能夠構建實時矩陣式的拓撲。能夠按圖索驥,看到圖紙當中水平方向,比如服務層的依賴關系圖,還有容器層、主機層、進程級等。垂直向則是服務是跑在什么容器上,這個容器對應的是哪一個進程,這個進程是落在哪一個云主機上面。
4、即時輸出影響面分析
輸出影響面分析則相當于網絡安全的思維,在運維當中也是一樣。系統(tǒng)出現了故障或異常,其影響面有哪些,會影響哪些用戶、會影響哪些服務、影響哪些應用,其根本原因是什么。通過自動化的手段和技術,把結果輸出給用戶,并不需要運維人員人工分析。
5、直指根因,見證成果
最后,自動化運維非常重要的能力,就是直指根因,見證成果。傳統(tǒng)的技術需要基于知識庫、基于CMDB、基于因果推斷不同的方法,而AIOps則提供內生型根因定位。其能夠打通數據依賴關系,除了對象間的依賴關系,還可以打通不同數據類型間的依賴關系,比如調用鏈、日志、指標間的依賴關系。其提供的是一個實時的根因定位,具有高度的適應性,在低開銷的同時,準確率非常高。而且具備無監(jiān)督的技術,不需要過多的人工輔助去實現這些能力的交付。
總結
企業(yè)若想數字化轉型成功,需要做到所有的應用、數字化服務以及支撐其運行的動態(tài)多重云平臺都能完美地工作,而且要每時每刻做到這一點。
這些高度動態(tài)化、分布式的云原生技術,與傳統(tǒng)的場景截然不同。這導致由微服務、容器及軟件定義云基礎設施所帶來的復雜性在當前一發(fā)不可收拾。這些復雜性超越了團隊管理能力的極限,并且還在不斷擴大。要想隨時了解在這些瞬息萬變的環(huán)境中所發(fā)生的的一切,就必須提升可觀測與智能運維能力。
我們需要借助高度的自動化與智能化技術,讓云原生運維變得更輕、效率更快、成本的支出更少,讓企業(yè)團隊的精力需要集中在企業(yè)業(yè)務本身,真正的邁向智能化運維時代。
?
嘉賓介紹
張懷鵬,乘云產品VP。2017年加入杭州乘云數字技術有限公司,負責【DataBuff 一體化觀測與智能運維】產品線日常管理,擔任IPD集成產品開發(fā)團隊經理,參與市場管理、需求分析、團隊協(xié)同、流程結構化、質量控制等工作。