中國移動設計院:基于大數據的人工智能運維服務支撐方案
01、概述
在運營商傳統網絡運維中,巡檢、告警分析、故障處理等工作長期積累了豐富的經驗,其價值并未被充分挖掘。同時,目前的人工運維存在系統復雜耦合度高、數據來源多種多樣、人工維護風險度高,修復間隔時間過長、人員培養難度大等現狀,導致了性能相關告警不明確、無效告警篩查規則缺失、故障維護只能被動解決,優化/維護工單重復派發等問題,影響網絡運維的效率和成本。為了優化網絡運維的工作模式,提升網絡運維準確性及效率性,提出集中維護支撐服務項目,基于人工智能(Artificial Intelligence)的運維解決方案旨在強調實現以維護為中心,依托大數據挖掘技術與深度學習算法, 實現問題早發現,由被動處理問題改為積極預防問題,從而提高整體資源的利用率和維護效率。
02 、基于人工智能(AI)核心算法
2.1 聚類算法(KMeans)
通過對多維度求歐拉距離(或余弦距離),不斷的迭代對隱患進行聚類,找到關鍵核心點的特性進行隱患挖掘。K-Means算法是基于多維度距離的聚類算法,通過設置參數K,將樣本點分為K個緊湊且獨立的簇,每個簇由與簇的質心歐拉距離靠近的樣本點組成。
計算步驟:
- 隨機選取K個中心點遍歷所有數據,將每個數據劃分到最近的中心點中
- 計算每個聚類的平均值,并作為新的中心點
- 重復2-3,直到這k個中線點不再變化(收斂了),或執行了足夠多的迭代
以每個基站作為樣本點,以其性能指標參數及歷史告警類別和頻次作為特征,對所有有告警基站進行K-Means聚類,通過不斷迭代將將告警類型依據相似性能指標進行聚類,深入挖掘各類告警的關鍵核心特征,作為基站畫像、隱患挖掘與管理的基礎。
2.2 常規分類算法(邏輯回歸,KNN,決策樹,隨機森林)
通過把相似隱患進行歸并,可以對隱患進行分級,從而方便查找隱患的級別。常規分類算法是有監督的機器學習算法,對于給定的目標類別,將樣本進行分類。
- 邏輯回歸:基于Sigmoid函數的多特征的二分類/多分類廣義線性回歸。通過建立代價函數并利用梯度下降優化的方法,實現多樣本的分類。
- KNN:K最近鄰(kNN,k-NearestNeighbor)分類算法是數據挖掘分類技術中最簡單的方法之一。所謂K最近鄰,就是將每個樣本分類為它最接近的k個樣本的類別均值。
- 決策樹:決策樹又稱為判定樹,是運用于分類的一種樹結構,其中的每個內部節點代表對某一屬性的一次測試,每條邊代表一個測試結果,葉節點代表某個類或類的分布。決策樹的決策過程需要從決策樹的根節點開始,待測數據與決策樹中的特征節點進行比較,并按照比較結果選擇選擇下一比較分支,直到葉子節點作為最終的決策結果。
- 隨機森林:從樣本集中選取n個樣本,構建決策樹,并重復這一步驟m次形成m個決策樹,通過投票表決決定樣本類別。
以基站作為樣本點,通過分類方法可以將基站分為隱患基站和非隱患基站。通過對隱患基站性能指標參數、資產信息、地理信息及告警類型級別作為特征,對基站告警隱患進行分級,確定基站隱患級別,實現對基站健康度打分。并可根據已訓練好的機器學習模型對新樣本進行健康度評估。實現設備狀態預判。對于隱患級別高的基站進行重點關注,并將其對應的性能參數指標作為隱患基因統計進入隱患管理庫。
2.3 異常檢測算法
核密度估計(kernel density estimation)是在概率論中用來估計未知的密度函數,屬于非參數檢驗方法之一。所謂核密度估計,就是采用平滑的峰值函數(“核”)來擬合觀察到的數據點,從而對真實的概率分布曲線進行模擬。
核密度估計可用于進行異常檢測,計算正常樣本之外的異常分布可能性,用于異常數據分析、特殊場景分析。對于完成畫像的基站樣本點,對于未發生告警的基站進行異常檢測,可以發現性能指標相對于正常值(不會觸發告警的性能值)發生偏離的樣本點,動態自適應設定告警閥值,觸發維護工單。有效預警,降低站點告警故障。
2.4 深度置信網絡(DBN)
深度置信網絡是一個概率生成模型,與傳統的判別模型的神經網絡相對,生成模型是建立一個觀察數據和標簽之間的聯合分布,對P(觀測值|標簽)和 P(標簽|觀測值)都做了評估。
DBNs由多個受限玻爾茲曼機(Restricted Boltzmann Machines)層組成,一個典型的神經網絡類型如圖所示。這些網絡被“限制”為一個可視層和一個隱層,層間存在連接,但層內的單元間不存在連接。隱層單元被訓練去捕捉在可視層表現出來的高階數據的相關性。深度置信網絡可以用于樣本目標的數值預測以及樣本類別的分類。
對于樣本類別的分類,與常規分類算法應用相似。實現基站告警隱患分級,康度打分。并可根據已訓練好的機器學習模型對新樣本進行健康度評估。實現設備狀態預判。
對于樣本目標的預測值,通過深度置信網絡實現基站特征異常概率分析等功能。 針對網絡性能指標特征的異常情況,進行概率預判,即嘗試對“亞健康”網絡進行預判。 預先判斷網絡問題,減少投訴和性能告警、設備故障實際發生的概率。
2.5 堆疊自動編碼器(SAE)
自編碼器(AutoEncoder)是一種無監督的學習算法,主要用于數據的降維或者特征的抽取。autoencoder通過深度置信網絡進行預訓練,從而確定網絡權值的初始值。其目標是讓輸入值等于輸出值。首先用網絡權值矩陣對輸入進行編碼,經過激活函數后,再用矩陣轉置進行解碼,從而使得輸出數據等于輸入。該過程可以看作是對輸入數據的壓縮編碼,將高維的原始數據用低維的向量表示,使壓縮后的低維向量能保留輸入數據的典型特征。
為實現智能站點畫像,需要對站點的性能指標,資產信息,地理信息,歷史告警信息等多維特征進行梳理。通過自編碼器可以對大量特征進行梳理并降維,最終形成構成基站健康度指標的多維特征,可對后期的異常檢測,告警預測,隱患管理降低輸入數據維度,降低計算成本。
2.6 循環神經網絡(RNN)
循環神經網絡可用于時間序列相關的樣本取值預測。在傳統的神經網絡模型中,是從輸入層到隱含層再到輸出層,層與層之間是全連接的,每層之間的節點是無連接的。RNNs之所以稱為循環神經網路,即一個序列當前的輸出與前面的輸出也有關。具體的表現形式為網絡會對前面的信息進行記憶并應用于當前輸出的計算中,即隱藏層之間的節點不再無連接而是有連接的,并且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,RNNs能夠對任何長度的序列數據進行處理。
03 、端到端運維功能架構
3.1 網絡運營中心NOC
端到端的運維架構主要由兩大部分組成:網絡運營中心NOC(Network Operation Center)和現場外線。
圖1.端到端運維功能架構
NOC(網絡運營中心)是實現遠程實時監控服務運營和檢測設備狀況的網絡化中心,主要涉及運維設計、運維監控、故障分析、診斷測試等幾大功能模塊,可結合運營商EOMS(Electric Operation Maintenance System)電子運維系統進行任務工單派發,將NOC嵌入現有運維流程可提高相關技術、流程、組織及管理效率,進而提升網絡與服務的穩定性與可預見性。
現場外線主要是承載、處理、閉環EMOS電子運維系統所派發任務工單,包括現場維護人員的任務調度、資源調度及最終的排障巡檢。
3.1.1 運維設計功能
運維設計功能主要包括兩部分功能設計:運維規則設計與AI輔助規則設計。
圖2.運維設計功能
其中運維規則設計主要來源于運營商長期積累的相關運維經驗,制定分析規則、診斷規則、派發規則、調度規則、激活規則等,將上述規則應用于可視化設計分析中,為自動化運維提供快速設計能力。
AI輔助規則設計則是由傳統技術專家進行專業設計轉變為通過AI技術輔助進行根因規則設計。將相關網元類型、告警類型、告警信息、告警碼、位置信息等作為輸入項,通過神經網絡相關算法最終輸出AI輔助規則。
3.1.2 運維監控功能
通過對數據源、數據表等分析進行場景監控設計,可視化呈現多系統、多界面的監控。
圖3.運維監控功能
場景運維監控可對網絡全景監控,也可選擇性針對主題監控,定制適合實際需求的個性化監控功能。將之前被動運維、基本無故障預測轉變為隱患故障可預測及規避。
3.1.3 故障分析功能
通過部署RCA(RootCauseAnalysis)根本原因分析規則挖掘工具,根據算法學習出固有規律,形成規則放入RCA中進行告警根因查看和告警抑制壓減。
圖4.故障分析功能
再結合性能指標、參數配置、相關變更情況、問題日志等進行多源關聯分析,從而對故障進一步確認,提高故障分析的準確性及效率性。
3.1.4診斷測試功能
診斷測試功能主要包含人工診斷指令及自動診斷腳本兩部分。
圖5.診斷測試功能
首先通過人工診斷指令下發至EMS,再由EMS反饋診斷結果至人工診斷指令部分;自動診斷腳本可批量生成指令,再由EMS反饋上報相關診斷報告,將診斷結果或診斷報告中異常問題自動創建維護工單并指派現場處理,交由現場工單管理,進行后續流程處理。
3.1.5工單派發功能
工單關聯RCA的關聯規則,進行根故障派單,子故障合并派單,綜合考慮網絡拓撲、運維經驗等信息,例如同一基站下所有小區退服,則合并為一個業務工單,從源頭減少派單量,提高故障解決效率。
圖6.工單派發功能
T1告警消除最大量時間點,T2為關聯指派時間點,T3為告警派發最長時限,通過分析歷史告警,給出最佳關聯時間點閾值,減少消除告警的無效派單量,通過關聯減少派單總量,提升運維效率,通過動態設置派單時間閾值,追加合并派單,減少無效派單、重復派單。
3.2 現場外線配合
3.2.1 故障單處理
集中故障告警平臺針對告警監控進行結果輸出,在創建TT(Trouble Ticket)工單之前,需要等待一定告警清除時間,避免相關工單追回。當系統收到TT的告警清楚消息后,可以自動關閉TT單和相對應的WO(Work Order)單。
圖7.故障單處理
通過運維經驗和對歷史工單進行機器學習、挖掘工單相關性規則,啟動策略歸并重復工單,去除無效工單。
3.2.2 任務及資源調度
對于外部系統派發的TT單,在某些應用場景下,不需要相關分析處理,可以直接派發至外場工程師處進行解決。對于這種應用場景,系統提供TT單自動受理并派發子單的功能。當系統接收到TT單時,自動以系統超級用戶來受理TT單,然后進行處理,在處理該步驟時可自動選擇生成WO單,并生成子單。智能調度主要是將任務通過AI調度引擎進行工單計劃制訂、位置及路線規劃、員工能力及工具需求分析,把任務與資源相結合達到最佳匹配效果。通過人員調度、資源調度、路徑規劃等可實現工單“零”時間指派、合理安排人員工作任務量,提升派單準確率、提升平均工單響應時長及資源使用效率。
3.2.3 自動巡檢管理
自動巡檢管理主要涉及巡檢配置管理、巡檢規則管理、巡檢任務列表、指令適配/執行及自動輸出巡檢報告功能。
圖8.自動巡檢管理
- 巡檢配置管理包括基礎數據配置管理、設備網元配置管理、任務/方案管理及門限管理/通知管理。
- 巡檢規則管理是為制定相關巡檢規則(專業網信息、作業計劃)等以及配置解析規則。
- 巡檢任務列表可對巡檢計劃接口定義、巡檢定時任務、巡檢任務列表查看。
指令適配及執行由自動巡檢功能發現維護類問題,通過模板初始化規則及指令創建規則生成巡檢測試工單,再與指令模板進行匹配映射創建巡檢任務,指令執行后將指令結果反饋閉環輸出巡檢報告。
圖9.自動巡檢流程
將相關維護要求結合站點資產信息;歷史數據包含告警次數、故障處理次數、站點話務量、數據量等信息;地理位置、區域、地形特征(高山、平原、河岸、洼地等)、耐候性;氣象機構輸出的相關天氣數據,共同制定動態巡檢計劃,聚焦故障高發站點,主動預防歷史故障重發,減少維護資源的浪費。
3.2.4 隱患管理
隱患管理主要針對異常項目生成智能巡檢告警,自動完成對告警信息的分析,自動生成維護作業計劃告警工單,維護人員根據隱患工單來處理隱患問題。
圖10.智能巡檢
在巡檢設備上(鐵塔、基站等),放置NFC(Near Field Communication)標簽,通過近距離無線通訊技術,巡檢人員按照路線的設置,依次到每個地點進行巡檢,自動顯示巡檢內容并根據需求填寫巡檢的內容。
04 、端到端運維軟件架構
圖11.端到端運維軟件架構
端到端運維系統軟件架構主要包括5個部分,原始數據、數據ETL(Extract-Transform-Load)、數據存儲和后臺業務處理、業務處理控制、業務展現層。
其中原始數據可通過北向平臺、EOMS工單系統、代維資產管理系統、動環檢測系統及外部相關API接口數據(地理天氣數據信息)。通過數據ETL處理用來將數據從來源端經過抽取(extract)、交互轉換(transform)、加載(load)至目的端,從數據源抽取出所需的數據,經過數據清洗,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。將相關數據存儲至Hadoop集群中,通過AI平臺算法及功能(聚類算法、常規分類算法、異常檢測算法、深度置信網絡、堆疊自動編碼器、循環神經網絡等)結合專家知識庫進行智能任務調度及后臺業務處理。業務處理控制主要細化各模塊功能,通過相關業務邏輯中間件實現模塊功能。業務展現層,基于前端公共模塊相關技術對站點畫像、區域畫像、隱患管理、地理化分析等界面化呈現。
05 、基于AI的運維實施應用
5.1 站點畫像
通過學習借鑒互聯網用戶畫像技術,基于多維網絡運維數據,引入AI特征畫像和異常檢測算法、輸出網絡特征的站點畫像,為智能運維各模塊提供全景式特征畫像和數據支撐,實現隱患站點分級標簽化。整合系統自身大量的多渠道、多維度的基礎數據作為輸入,通過無監督學習算法進行聚類及異常檢測,輸出具有網絡特征的站點畫像標簽及指標異常站點列表。
(1)站點健康度評估
基于站點設備種類、性能情況結合站點環境、停電情況、備電時長、站點歷史故障等信息建立站點健康度評估指標體系,并設定告警閾值自動觸發維護工單,并有效預警,降低站點告警故障。
圖12.站點健康度評估
(2)區域可視化
采用多種代維指標和站點客觀運行指標,可以實現區域綜合可視化,以區域為對象,提供整體指標統計分析,用于運維提升支撐。
圖13. 區域指標評估評估
(3)站點維護成本分析
通過對歷史故障維護數據包括維護人員、車輛、油機、故障發生頻率等信息提供站點維護成本數據;為過程成本量化、站點維護預算及后續投標成本核算提供數據支撐。
利用AI算法實現告警智能分類,針對具體故障提供智能決策,指導運維人員故障處理,建立員工與工單之間的映射,實現工單精準指派,減少工單派發數量,提升工單派發質量,同時關聯APP,縮短故障恢復時長。達到“降本增效”的目的。
圖14 .維護過程管理
(4)制定站點維護計劃
基于站點重要級別、歷史故障信息、天氣狀況等制定維護計劃;對維護備件提供預測管理并減少站點故障率,降低單站維護成本。
圖15 .站點維護計劃管理
5.2運維效率分析
(1)GIS資產全景圖
對資源信息(人員、車輛、站點、油機)進行實時位置展示,工單關聯、軌跡回放;實時了解資源狀況,方便調度管理。
圖16.GIS資產全景圖
(2)“賽馬”Dashboard
通過現場大屏監控對項目基礎維護信息、人員效率指標、車輛效率指標、油機效率指標進行實時和趨勢分析呈現,監控中心隨時了解項目整體效率情況及區域賽馬情況。
圖17.現場大屏監控信息
(3)人員效率指標分析
對人員工單效率指標進行統計分析,包括上站任務詳細信息及工作時長信息;對車輛效率指標分析,包括上站里程、規劃里程分析;發現人員運維效率短板進行改進,提升效率。
表1. 效率指標總體統計數據
(4)APP掌上運維
管理人員可通過移動APP應用實時掌握了解項目運維情況及人員效率情況,并為管理人員提供實時運維決策效率數據支撐。
圖18.APP掌上運維
(5)故障預測
過去運維工作都是在進行大量的事后處理工作,現在,通過運維專家梳理,選取動力環境、歷史工單、網絡性能、天氣停電、故常告警、綜合資管等多個維度特征,構建訓練數據集。同時,我們選取了多種AI模型進行對比測試,最終確定選用多層LSTM循環神經網絡實現小區退服告警預測,以達到故障預警分析的目的,實現了變被動處理為主動預防的運維思路轉變,擺脫“救火隊員”的運維狀態,達到對故障的事先預判。
圖19.故障預測
06 、總結
通過運營商網絡部、網管、分公司、縣公司一線維護人員目標使用者,基于人工智能(AI)的運維解決方案,可提高維護效率和能力,預防性主動運維能力、快速響應的報告能力、快速應急處理能力、自動化減少人為工作量、經驗移植減低人員要求、支持市場前線的分級保障能力。使平臺融入運維生產中,實現商業目標。
【本文為51CTO專欄作者“移動Labs”原創稿件,轉載請聯系原作者】