成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

準(zhǔn)召率超80%,網(wǎng)易游戲AIOps異常檢測(cè)及故障定位優(yōu)化實(shí)踐

運(yùn)維 新聞
AIOps 圍繞質(zhì)量保障、成本管理和效率提升的基本運(yùn)維場(chǎng)景,逐步構(gòu)建智能化運(yùn)維場(chǎng)景。

根據(jù) Gartner 的最新闡釋,智能運(yùn)維(AIOps)意指整合大數(shù)據(jù)和機(jī)器學(xué)習(xí)能力,通過(guò)松耦合、可擴(kuò)展方式去提取和分析數(shù)據(jù)量(volume)、種類(variety)和速度(velocity)這三個(gè)維度不斷增長(zhǎng)的 IT 數(shù)據(jù),進(jìn)而為 IT 運(yùn)維管理產(chǎn)品提供支撐。AIOps 圍繞質(zhì)量保障、成本管理和效率提升的基本運(yùn)維場(chǎng)景,逐步構(gòu)建智能化運(yùn)維場(chǎng)景。在質(zhì)量保障方面,保障現(xiàn)網(wǎng)穩(wěn)定運(yùn)行細(xì)分為異常檢測(cè)、故障診斷、故障預(yù)測(cè)、故障自愈等基本場(chǎng)景;在成本管理方面,細(xì)分為資源優(yōu)化,容量規(guī)劃,性能優(yōu)化等基本場(chǎng)景;在效率方面,分為智能變更、智能問(wèn)答,智能決策等基本場(chǎng)景。

圖片

一、網(wǎng)易游戲AIOPS落地線路圖

2016年開始, 網(wǎng)易游戲在AIOps這條道路上持續(xù)探索,力求實(shí)現(xiàn)從人工運(yùn)維到智能化運(yùn)維的轉(zhuǎn)變。從2016年開始組建智能監(jiān)控團(tuán)隊(duì),構(gòu)建智能運(yùn)維平臺(tái),一直到現(xiàn)在,落地了異常檢測(cè)、預(yù)測(cè)、關(guān)聯(lián)分析、下鉆分析、日志分析、運(yùn)維機(jī)器人、故障定位、故障預(yù)警等。除此之外,還有很多其他功能,如火焰圖分析、硬件預(yù)測(cè)、CDN文件發(fā)布等,都取得不錯(cuò)的實(shí)踐效果。

圖片

二、異常檢測(cè)  

異常檢測(cè)是研究AIOps的必經(jīng)之路,后續(xù)很多場(chǎng)景功能都以異常檢測(cè)為基礎(chǔ),屬于不得不解決的問(wèn)題。異常檢測(cè)指通過(guò) AI 算法,自動(dòng)、實(shí)時(shí)、準(zhǔn)確地從監(jiān)控?cái)?shù)據(jù)中發(fā)現(xiàn)異常,為后續(xù)的診斷、“自愈”提供基礎(chǔ)。相比傳統(tǒng)閾值配置成本高、誤報(bào)多、場(chǎng)景覆蓋少的問(wèn)題,異常檢測(cè)有易配置、準(zhǔn)確率高、場(chǎng)景覆蓋面廣、自動(dòng)更新等優(yōu)點(diǎn)。

圖片

對(duì)于異常檢測(cè),其實(shí)網(wǎng)上很多文檔或者書籍都給出了一些算法或者工具,但在實(shí)際運(yùn)用的過(guò)程中,會(huì)發(fā)現(xiàn)效果往往不是很好,究其原因是這些算法只能有效地針對(duì)一些特定的場(chǎng)景、以及需要做很多的優(yōu)化來(lái)適配實(shí)際的場(chǎng)景。為了更好地在實(shí)際場(chǎng)景中落地,我們對(duì)算法做了一些調(diào)整優(yōu)化,并結(jié)合業(yè)務(wù)需求對(duì)指標(biāo)進(jìn)行劃分,達(dá)到更好的檢測(cè)效果。我們將異常檢測(cè)根據(jù)指標(biāo)類型劃分成了三種場(chǎng)景----業(yè)務(wù)黃金指標(biāo)(如游戲在線人數(shù))、性能指標(biāo)(如cpu使用率)、文本數(shù)據(jù)(如日志),采用不同的檢測(cè)算法。

圖片

1、業(yè)務(wù)黃金指標(biāo)

業(yè)務(wù)黃金指標(biāo)的特性是周期性強(qiáng)、曲線波動(dòng)小、指標(biāo)量級(jí)小、準(zhǔn)確率和召回率要求高。我們知道有監(jiān)督模型具有高準(zhǔn)召率、高擴(kuò)展性的優(yōu)點(diǎn),因此我們考慮采用有監(jiān)督模型對(duì)業(yè)務(wù)黃金指標(biāo)進(jìn)行異常檢測(cè)。然而有監(jiān)督模型需要大量的標(biāo)注數(shù)據(jù),但對(duì)異常檢測(cè)項(xiàng)目很難收集到足夠的異常數(shù)據(jù)。那應(yīng)該如何去解決和平衡這兩者之間的關(guān)系呢?我們從樣本構(gòu)建到報(bào)警可視化,構(gòu)建了一整套的檢測(cè)框架。

1)樣本構(gòu)建

考慮到樣本收集困難問(wèn)題,我們的樣本主要來(lái)自兩個(gè)方面——?dú)v史KPI數(shù)據(jù)集和線上用戶標(biāo)注數(shù)據(jù)。首先,抽樣部分KPI數(shù)據(jù)集,采用簡(jiǎn)單無(wú)監(jiān)督檢測(cè)模型如Iforest檢測(cè)得到異常score,通過(guò)不等比例分層抽樣篩選出疑似異常樣本和正常樣本,進(jìn)行人工標(biāo)注,并劃分成訓(xùn)練集和測(cè)試集用戶模型訓(xùn)練和測(cè)試。功能上線后,收集用戶標(biāo)注數(shù)據(jù),用于模型優(yōu)化。用戶標(biāo)注的數(shù)據(jù)僅會(huì)作用于本項(xiàng)目,避免不同用戶異常認(rèn)知差異導(dǎo)致的錯(cuò)誤報(bào)警問(wèn)題。還有一點(diǎn)需要注意,當(dāng)歷史異常數(shù)據(jù)不足時(shí)候,可以通過(guò)異常生成的方式生成樣本,如加噪聲、設(shè)計(jì)抖動(dòng)模式等方式。

2)預(yù)處理

預(yù)處理模塊包含曲線分類、缺失標(biāo)準(zhǔn)化處理以及特征計(jì)算三個(gè)部分。曲線分類采用LSTM+CNN的方式實(shí)現(xiàn),將待檢測(cè)KPI分成3類(穩(wěn)定、不穩(wěn)定、不檢測(cè)),分類準(zhǔn)確率可達(dá)到93%+。線性和前值填充的方式進(jìn)行缺失值處理,并max-min歸一化。特征包含統(tǒng)計(jì)特征、擬合特征、分類特征、濾波特征、自定義特征等,構(gòu)建近500維特征。考慮到無(wú)效特征問(wèn)題,需要進(jìn)行特征選擇,再進(jìn)行建模。  

3)算法模型

模型主要采用常見(jiàn)模型,如RF\XGB\GBDT等,再用LR進(jìn)行集成,進(jìn)行檢測(cè)。

4)可視化

可視化部分包含圖文告警、快速標(biāo)注、異常視圖三個(gè)模塊。通過(guò)圖文形式進(jìn)行報(bào)警,在報(bào)警消息中加上快速標(biāo)注鏈接,用戶在收到報(bào)警后可以快速確認(rèn)是否有異常發(fā)生并標(biāo)注。

圖片

通過(guò)有監(jiān)督模型的方式可達(dá)到高準(zhǔn)召率的檢測(cè)效果,線上檢測(cè)效果可達(dá)到90%+,可滿足用戶的需求。

2、性能指標(biāo)

有監(jiān)督檢測(cè)模型可以很好地對(duì)業(yè)務(wù)黃金指標(biāo)進(jìn)行檢測(cè),但并不適合性能指標(biāo)場(chǎng)景。如上面所說(shuō),性能指標(biāo)量級(jí)大、指標(biāo)類型復(fù)雜、周期不定等。若依舊考慮采用有監(jiān)督模型,需要花費(fèi)巨大的標(biāo)注成本和訓(xùn)練成本,對(duì)于大規(guī)模部署的業(yè)務(wù)很不友好。因此,我們采用無(wú)監(jiān)督模型來(lái)檢測(cè)性能類型指標(biāo)。

我們按異常類型進(jìn)行劃分,劃分成毛刺、漂移、高頻、線型趨勢(shì)四種類型,分別采用不同的檢測(cè)模型進(jìn)行檢測(cè),用戶可以根據(jù)自己的需求進(jìn)行選擇報(bào)警類型。

  • 毛刺類型:毛刺異常是最常見(jiàn)的一種類型,可以采用差分和SR算法進(jìn)行檢測(cè),都有不錯(cuò)的效果。  
  • 漂移類型:漂移問(wèn)題,首先需要進(jìn)行STL周期分解,分解出周期、趨勢(shì)和殘差項(xiàng)。然后采用均值漂移和魯棒回歸算法進(jìn)行檢測(cè)。
  • 高頻類型:高頻是毛刺的一種變種,有時(shí)不關(guān)心順時(shí)的抖動(dòng),但是持續(xù)抖動(dòng)時(shí)候就需要關(guān)注了。因此,采用的檢測(cè)算法也會(huì)比較類型,可以采用多步差分進(jìn)行檢測(cè)。
  • 線性趨勢(shì)類型:線性趨勢(shì)主要是為了監(jiān)控內(nèi)存泄漏類型問(wèn)題,可以先進(jìn)行STL分解,在LR回歸和MK檢測(cè)進(jìn)行趨勢(shì)檢測(cè)。

最后,均需要進(jìn)行周期抑制的步驟,避免周期性的誤報(bào)問(wèn)題。

圖片

無(wú)監(jiān)督的檢測(cè)模型,準(zhǔn)召率可達(dá)到80%+,基本可達(dá)到用戶預(yù)期。通過(guò)圖文告警的方式告警,幫助用戶快速確認(rèn)報(bào)警的正確性。

圖片

3、文本數(shù)據(jù)

業(yè)務(wù)的高速發(fā)展,對(duì)系統(tǒng)穩(wěn)定性提出了更高的要求,各個(gè)系統(tǒng)每天產(chǎn)生大量的日志:

  • 系統(tǒng)有潛在異常,但被淹沒(méi)在海量日志中,有的項(xiàng)目警量最多可達(dá)每日1w+,如何合并告警。
  • 故障出現(xiàn)后,日志報(bào)警量級(jí)太大,難以定位。
  • 新版本上線,系統(tǒng)行為有變化,卻無(wú)法感知。

這些問(wèn)題,歸根到底,是日志信息太多、格式多樣,不能很好歸類。日志智能分析基于大數(shù)據(jù)和AI算法,提供實(shí)時(shí)日志智能分類,以及日志指標(biāo)異常檢測(cè)等功能。利用模型根據(jù)日志文本的相似性進(jìn)行歸類,自動(dòng)提取對(duì)應(yīng)的日志模版。如下圖,可以從兩條日志中提取出模板。

圖片

目前業(yè)界日志分類的算法相對(duì)成熟,有很多的算法都可以達(dá)到不錯(cuò)的效果。一次分類我們采用drain算法,然后Spell進(jìn)行二次分類,解決一次分類長(zhǎng)度不同日志分在不同模板的問(wèn)題。

圖片

得到日志模板后,可以基于日志模板數(shù)量進(jìn)行異常檢測(cè)。智能異常檢測(cè)會(huì)對(duì)比不同時(shí)間段的分類日志數(shù)量,利用機(jī)器學(xué)習(xí)模型自動(dòng)識(shí)別突變或者和歷史趨勢(shì)不一致的日志類型,并發(fā)出告警信息:

  • 根據(jù)歷史兩天日志分布情況訓(xùn)練模型,學(xué)習(xí)正常日志波動(dòng)周期。
  • 從日志整體分布分析,減少單類日志小抖動(dòng)造成的誤報(bào)。
  • 自動(dòng)選取影響分布最大的topN類日志。

圖片

與指標(biāo)異常檢測(cè)不同,日志異常檢測(cè)可以檢測(cè)到代碼類型異常,對(duì)程序排障有重大幫助。此外,日志分類可以對(duì)日志治理也要很大的幫助,新項(xiàng)目/服務(wù)上線時(shí)候通過(guò)審查日志模板,可以根據(jù)需求整理、刪除無(wú)效日志。

三、故障定位

在標(biāo)準(zhǔn)的故障處理流程中,故障定位一般可分為兩個(gè)階段:

  • 故障止損前:可以快速獲得可用于止損決策的信息,做出相應(yīng)的止損操作使得服務(wù)恢復(fù)。
  • 故障止損后:進(jìn)一步找到導(dǎo)致故障的深層次原因,確定故障根因,將線上環(huán)境恢復(fù)到正常狀態(tài)。  

在游戲場(chǎng)景中,隨著游戲及系統(tǒng)架構(gòu)的日漸復(fù)雜,運(yùn)維人員收到的報(bào)警信息也變得多種多樣,在面對(duì)故障時(shí),紛雜的報(bào)警信息令運(yùn)維人員一時(shí)難以理清邏輯,甚至顧此失彼,無(wú)法在第一時(shí)間解決最核心的問(wèn)題:

  • 游戲架構(gòu)日漸復(fù)雜,出現(xiàn)故障后排查鏈路比較長(zhǎng)。
  • 故障產(chǎn)生后,往往會(huì)引發(fā)多個(gè)報(bào)警,但是這些報(bào)警比較零散,沒(méi)有按照一定的規(guī)則去分類和可視化。導(dǎo)致排查過(guò)程中需要人工先去梳理,和過(guò)濾報(bào)警。
  • 目前故障定位依賴人工經(jīng)驗(yàn),這些經(jīng)驗(yàn)難以被復(fù)用。

圖片

1、資源  

資源維度可區(qū)分機(jī)器、網(wǎng)絡(luò)渠道、SaaS進(jìn)行分析給出異常信息。  

1)機(jī)器

對(duì)最近20min內(nèi)所有metric進(jìn)行異常檢測(cè),計(jì)算異常檢測(cè)分?jǐn)?shù)。再基于越早發(fā)生的異常越有可能是根因、指標(biāo)異常越嚴(yán)重越可能是根因、機(jī)器故障越嚴(yán)重越可能是根因幾個(gè)準(zhǔn)則進(jìn)行排序,給出topN異常機(jī)器。

2)網(wǎng)絡(luò)/渠道

采用Adtributor算法,按區(qū)域、運(yùn)營(yíng)商等維度進(jìn)行下鉆分析,給出topN異常維度。

3)saas

目前我們SaaS有比較完善的報(bào)警,直接可獲取異常結(jié)果進(jìn)行匯總。

圖片

2、代碼

代碼問(wèn)題直接可通過(guò)日志分類和異常檢測(cè)發(fā)現(xiàn),給出topN異常模板。

3、人為操作

人為部分主要是變更事件,與變更系統(tǒng)聯(lián)動(dòng),關(guān)聯(lián)到故障發(fā)生前的變更事件,并異常提醒。

4、歷史故障

除了分析機(jī)器、代碼等問(wèn)題,還有一個(gè)比較有效定位故障根因的方式就是關(guān)聯(lián)歷史故障。如果本次故障與歷史故障異常表現(xiàn)相似,那么大概率是相同的原因?qū)е拢士梢詺v史故障原因作為本次故障根因的推薦。計(jì)算當(dāng)前故障與歷史故障的Tanimoto系數(shù),推薦Tanimoto值最大且超過(guò)閾值的topN故障以及其根因。

圖片

整體的故障定位流程,檢測(cè)到故障的發(fā)生,基于拓?fù)滟Y源、代碼、人為因素、歷史故障這幾個(gè)角度出發(fā),采用不同的方式進(jìn)行根因分析。如檢測(cè)到游戲在線人數(shù)下降,出發(fā)故障定位流程,檢測(cè)到機(jī)器A 網(wǎng)絡(luò)連接異常,告警出網(wǎng)絡(luò)問(wèn)題,人工進(jìn)行排查出公網(wǎng)故障導(dǎo)致。

圖片

責(zé)任編輯:張燕妮 來(lái)源: dbaplus社群
相關(guān)推薦

2022-05-20 11:38:38

網(wǎng)易智能運(yùn)維

2023-08-04 09:35:18

2022-07-19 16:36:33

網(wǎng)易游戲FlinkSQL

2022-04-28 15:34:00

應(yīng)用優(yōu)化實(shí)踐

2023-10-20 09:17:08

攜程實(shí)踐

2022-03-11 07:30:04

SQLMySQLCPU

2019-12-19 10:31:16

運(yùn)維架構(gòu)技術(shù)

2023-05-31 06:49:54

圖表查詢數(shù)據(jù)查詢

2022-11-10 08:48:20

開源數(shù)據(jù)湖Arctic

2023-01-05 07:54:49

vivo故障定位

2023-07-27 07:44:07

云音樂(lè)數(shù)倉(cāng)平臺(tái)

2018-08-22 11:31:59

華為云

2019-05-21 09:40:47

Elasticsear高性能 API

2012-12-11 15:14:25

謝騁超服務(wù)器架構(gòu)

2009-08-13 13:59:53

局域網(wǎng)故障維護(hù)局域網(wǎng)優(yōu)化

2019-11-26 18:00:59

系統(tǒng)運(yùn)維架構(gòu)

2014-12-31 13:17:18

百度預(yù)測(cè)開放平臺(tái)

2022-05-10 09:40:26

運(yùn)維游戲實(shí)踐

2024-03-13 07:35:34

歸因診斷算法KPI 指標(biāo)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 亚洲高清视频一区二区 | 成人片在线看 | 99精品久久久 | 国产一级在线观看 | 亚洲www啪成人一区二区 | 中文字幕一区在线观看视频 | 蜜臀网 | 国产激情视频在线免费观看 | 精品中文字幕一区二区三区 | 国产乱码高清区二区三区在线 | 精品欧美一区二区三区精品久久 | 亚洲一区视频 | 精品一区视频 | 欧美精品乱码久久久久久按摩 | 一区二区三区在线电影 | 亚洲高清视频在线观看 | 999精品在线 | 国产精品久久久久久久久免费樱桃 | 国产免费视频 | 国产精品xxxx | 中文字幕视频免费 | 欧美一区在线视频 | 国产精品99久久久久久www | 国产区在线 | 国产免费又色又爽又黄在线观看 | 色一情一乱一伦一区二区三区 | 久久精品性视频 | 九九久久精品 | www.av7788.com | 成人午夜在线 | 在线观看国产精品一区二区 | 99亚洲精品| 日本精品视频一区二区三区四区 | 国产美女精品视频免费观看 | 色综合桃花网 | 亚洲国产一区视频 | 免费观看日韩精品 | 亚欧洲精品在线视频免费观看 | 成av在线| 国产精品久久久久久久久久免费看 | 国产精品久久久久久久久久久久 |