騰訊織云 Metis 智能運維學件平臺正式開源
10月20日,騰訊織云 Metis 智能運維學件平臺正式對外開源。Metis 是 AIOps(Algorithmic IT Operations),即智能運維領域的***開源產品,它是聚焦在智能運維的應用實踐集合,基于騰訊已有的運維數據,將機器學習領域的分類、聚類、回歸、降維等算法和運維場景相結合,旨在通過一系列基于機器學習的算法,對運維數據進行分析、決策,從而實現自動化運維的更高階段。
主要功能
-
異常檢測:提供率值檢測和量值檢測 API 接口,對時間序列進行檢測,HTTP協議
-
特征提取:提供三類特征(統計特征、擬合特征、分類特征)的提取功能,特征維度90+;支持增加自定義特征
-
異常查詢:經 API 檢測后的時間序列(僅異常)入庫存儲,提供管理功能,分頁查詢、檢索、放縮等
-
標注打標:提供標注打標的功能,標記/取消標記為正負樣本,標記后樣本入樣本庫
-
樣本管理:提供樣本管理功能,檢索、圖示、編輯、刪除,導入等功能
-
模型管理:提供模型管理功能,支持自定義模型訓練
應用場景
-
質量保障: 利用機器學習技術,進行異常檢測、故障定位、瓶頸分析等,可在無人工干預下,智能地保障業務穩定運行。如無閾值智能監控、DLP 生死指標監控、多維根因分析。
-
效率提升:基于自然語言處理、機器學習技術,進行智能問答、智能變更、智能決策,可顯著提升運維效率。如 Metis 的智能咨詢機器人、輿情監控、集群智能負載均衡、數據庫參數調優、容量預測。
-
成本管理:基于大數據智能分析技術,進行資源(設備、帶寬、存儲)管理,可迅速分析資源使用的明細,并通過橫向大數據對比識別可優化點。如硬盤生命周期預測。本次 Metis 率先開源的無閾值智能監控學件,是從無監督+有監督學習的角度來解決時序數據的智能檢測問題。
項目特性
-
智能檢測:運維人員不需要再去設置監控閾值,模型能夠對異常情況做智能判決,直觀告知檢測結果是正常還是異常。通常而言,閾值的監控包含最值、同比、環比等維度設置,此檢測方案在檢測初期效果較好,但是隨著業務發展和規模壯大,就會需要付出較高的人力成本去維護合適的閾值范圍,對于大規模發展性業務得不償失。智能檢測的方案是基于統計判決、無監督和有監督學習對時序數據進行聯合檢測,通過統計判決、無監督算法進行首層判決,輸出疑似異常,其次進行有監督模型判決,得到最終檢測結果。這個過程就摒棄了閾值方式帶來的問題。
-
通用模型:智能檢測的模型由騰訊織云多元化的海量業務樣本訓練而成,比較適合復用在互聯網行業的時間序列檢測中。有監督的檢測效果取決于標注樣本的準確性和種類豐富性,通過樣本庫管理功能積累了大量的正負樣本、分為測試集和訓練集,通用模型是經過海量訓練集的樣本數據訓練而來,涵蓋較全面的樣本分類。可以幫助一些用戶避免掉缺乏訓練數據所帶來的難點,用戶可直接加載通用模型進行檢測。
-
規則學習:實踐過程中也會遇到較個性的業務場景,千人千面,不同的用戶對異常的判斷標準也不盡一致,因此支持標注反饋功能,用戶可根據標注信息進行訓練,生成新的檢測模型,進而掌握新的業務規則。
騰訊表示,秉承騰訊開源的理念,Metis 將打造一個開放的學件平臺,陸續開源時間序列指標預測、主機異常智能分析、MySQL 異常智能分析、硬盤生命周期預測等其它智能運維學件,集合廣大用戶在智能運維領域的建設經驗和實踐,豐富完善針對質量、效率、成本三個方面的AI學件,搭建完備的運維場景,并將在未來兼容其它監控領域的開源產品,如 Zabbix、Nagios、Open-Falcon 等。