成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

京東科技全鏈路故障診斷智能運維實踐

運維
我們在建設智能運維的基本目標與業界是一致的,主要都是為了降低故障的平均修復時間,延長系統的無故障的運行的時間,以此提升系統的可用性以及運維效率。在京東內部,主要依托于三大技術底座:運維知識圖譜、運維大數據處理技術、運維算法技術。
本文根據張靜老師在〖2023 中國數據智能管理峰會-上海站〗現場演講內容整理而成。

一、京東科技智能運維整體能力

我們在2018年就開始建設了智能運維,針對京東科技內部,我們運維面臨的問題主要是三點:

  • 難度逐步增加
  • 體系化要求越來越高
  • 成本要全面節省

圖片

我們在建設智能運維的基本目標與業界是一致的,主要都是為了降低故障的平均修復時間,延長系統的無故障的運行的時間,以此提升系統的可用性以及運維效率。在京東內部,主要依托于三大技術底座:運維知識圖譜、運維大數據處理技術、運維算法技術。

圖片

為賦能三大技術底座,我們主要做了兩件事情:

  • 一是通過運維算法技術,賦能我們的業務運維的監控,做到故障的快速發現和快速定位;
  • 二是運維算法賦能智能調度,提升資源的利用率。以及在去年開始,我們在硬件故故障預測上也投入了研發,并實現了場景落地。

下圖是我們智能運維的一個技術架構圖,主要包含數據采集計算層、數據存儲層、數據服務層、數據應用層。

圖片

此外,我們也會在每年618雙十一大促前,會對我們的業務應用進行應用健康度的體檢,并對核心應用也會進行整改,整體能力依托于我們運維知識圖譜的建設。

圖片

上圖我們整個京東科技智能運維產品的一個全景圖,主要包含數據層(腦)、學件層(心)、業務層(眼)。

二、運維算法賦能業務可觀測性落地經驗

圖片

1、指標異常檢測

圖片

指標異常檢測主要是為實現集中管理監控指標,并通過運維算法技術自動化地對在線的時序監控指標進行異常診斷。

在日志分析上,我們能夠對線上服務組件這類日志進行實時聚類分析,包括通過日志實時語義匹配轉成指標等監控手段,從日志、指標層面的不足。

在故障定位上,主要分為兩種,一是基于apm調用鏈的關聯分析掃描全局的故障根因,二是將NLP日志模板提取技術,與運維圖譜關系進行融合,集中對整體的故障根因進行掃描分析。

異常檢測最開始引入了統計學習落地試點,后面則引入了時序聚類、時序網絡等異常檢測算法,相比于固定閾值,能否自適應去適配不同場景下的監控數據。除了異常檢測外,我們還做了一套自回歸動態基線的預測算法能力沉淀。在京東內部,主要落地了兩個場景:

一是學習歷史數據7-14天的指標波動規律性,對指標的未來趨勢及動態波動區間做預測,當跌破動態區間時,就會實時發出這類告警;

二是做事前的判斷,比如內存使用率開始從20%增加到30%-40%時,不會引起運維同學的關注,但可能突然間10-15分鐘會達到80%,這時候可能就會反應不歸來,因此,我們會去提前發下這類數據的增長趨勢,在故障真正發生的時候,爭取故障處理的響應時間。

另外,在異常檢測以及動態基線預測模型上,我們在內部多個數據集上的準確率評估有90%以上,目前這套模型也有被IEEE的國際論文所收錄。

2、智能文本分析

圖片

京東科技有一款自研產品能夠支持包括基礎組件、容器、中間件、數據庫等多類型的日志接入,日志接入之后,能夠支持分布式日志檢索并進入智能分析層。因此,故障發生的時候,運維同學除了接收智能告警之外,還能通過平臺快速查詢,去看實時的日志。

圖片

在日志接入智能分析層后,會對運維日志進行模板的提取和預聚類,能及時發現一些線上未知的業務問題。此外,如果出現監控指標沒有采集上來、配置的監控告警并不準確、告警沒有及時發出等問題,我們也可以通過日志分析的手段,結合圖譜關系定位到真正的根因。

智能文本分析主要引入了NLP的技術,對全量運維日志進行聚類分析,訓練生成日志模板,運維、研發同學會在平臺標注關心的問題,再生成模板庫,在線實時匹配已知問題。也就是說,我們會將原始的運維日志,按照預定義好的類別進行語義匹配,并轉成時序的監控指標,當一類問題日志突增時,我們也會及時發出告警。

我們在實踐中也發現,不管是哪一種運維場景,對日志里面的動詞、形容詞、名詞都是較關心的,所以為了提升整個日志分析模型的準確度,我們引入了詞性分析技術,做了一部分特征增強。模型部分我們也是用Bert預訓練模型,并對Bert模型進行微調。

和業界deep log、logclass等比較火的模型相比,我們這套模型的效果都是較優的,目前這套模型有被IEEE論文所收錄。

大家在做運維日志NLP分析的時候,可能會面臨一個問題:到底要標注對少日志,才算完成了模型學習?

針對這個問題,我們采用的是半監督的方式。比如運維、研發同學會定期收到告警通知,里面會詳細記錄新日志產生量、占比量及告知標注需要,他們就會進入智能運維平臺,對所關心的問題進行定義,標注出來的部分則訓練出基于詞性標注的命名實體抽取模型,將其他相似文本中比較關系的實體抽取出來,再輔以運維、研發同學進行日志問題標注。

下面對京東科技內部的智能文本分析案例-k8s場景進行介紹:

圖片

我們通過k8s核心組件日志的實時聚類以及實時語義匹配,發現一些在指標層面發生不了的問題,比如日志占用文件句柄沒釋放、孤兒pod問題等。

上面是去年雙十一大促備戰前的案例,應用程序去調用集群時,我們發現它在往某一個集群緩存的節點頻繁打印日志。自動觸發診斷告警后,PE同學緊急排查,發現這個節點關聯到的是大促比較核心的一個應用,聯系應用研發同學后發現,確實是線上程序開啟了調試模式,導致應用調用集群時,頻繁往這個節點打印日志,調試模式關閉后,也規避了在大促中可能出現的計算瓶頸問題。

在京東內部落地時,除了有按場景的服務組件日志,還有緩存、大數據、MySQL、網絡設備的日志。另外,近兩年做的比較多的k8s的node日志分析,實現了快速發現線上未知故障,發現了之前通過監控發現不了的那些問題。

另外,運維日志分析落地到了不同場景,包括日志聚類、模板訓練提取、語義分析和日志分類等,我們也做了部分的模型蒸餾,這部分的實踐目前IEEE論文收錄了5項。

另外,我們也做了應用告警日志的MySQL、Redis根因分析。

圖片

3、健康度巡檢

圖片

接下來是健康度巡檢,其主要方式是結合運維專家排障制定巡檢的規則及異常檢測的能力,主動對線上核心的應用進行巡檢,去發現一些潛在問題,并分析數據健康度等,并且在大促重保之前,我們會對這些亞健康的應用進行核心整改。

另外,通過這套自動化巡檢能力,我們也能夠提升緩存的命中率,提升閑置服務器資源的使用率,經過歷年運維場景的經驗積累,我們目前有100+的應用業務巡檢規則。

4、全鏈路監控體系

接下來全鏈路故障定位落地實踐,其中包括移動端、前端、服務端等監控。

圖片

服務一旦發生瓶頸,可以綜合分析調用鏈、接口耗時、返回狀態碼、異常日志,網絡日志等,快速診斷問題。

圖片

同時,我們還能通過這套全鏈路監控的追蹤能力,去看每一塊節點的耗時占比情況。

圖片

另外,我們自動化生成了調用鏈拓撲關系,直觀展示服務之間的依賴強弱,實時監控每一個應用的服務質量(TPS、耗時、成功率、可用率)。

圖片

再者,將整個全鏈路的監控數據,統一地收集起來輸入到智能運維監控中心,再做全局的根因定位。

圖片

在京東內部,主機問題定位及排查、操作變更、網絡/數據庫等場景,都覆蓋了這套全鏈路監控,大促等重保期間都會投入使用,出現問題故障時,運維、研發用都較依賴于這套全鏈路監控體系。

圖片

上圖關于日志模板根因定位的一個案例,在2022年618大促期間,我們從緩存服務端的組件層面發現一類日志模板大量突增,是一個AOF盤阻塞問題,恰好該問題直接關聯到業務營銷應用,關聯到的客戶端連接數超過最大連接數限制,造成刷盤阻塞的報警,關聯到的業務成功率也有下跌,當時業務監控告警沒有提前發出,所以重保團隊非常關注,最后我們通過這套能力及時發現了這類問題。

5、多維指標根因定位

圖片

除此之外,我們做了多維指標明細的根因定位,主要是定位web場景的異常,當某個域名的TP耗時/TPS發生異常產生告警后,可按省份、運營商、機房、機柜、主機等各維度的TP耗時/錯誤狀態碼TPS突增等指標進行明細下鉆分析,通過強化學習搜索算法從數萬維度交叉組合數據中快速定位出異常的維度組合。

三、運維算法賦能降本增效落地經驗

1、智能調度

圖片

我們會將master、node等監控數據統一輸入到智能調度器,對應用資源使用情況及未來使用情況進行預測,將在線、離線應用進行合理的混合部署調度,以此提升資源利用率。

京東云在支持京東全線業務正常運行下,超大規模集群的CPU資源利用率提升3倍,單位訂單資源成本下降30%,內存平均使用率提升57%,目前這套模型也有被IEEE論文所收錄。

2、硬件故障預測

圖片

2022年開始,我們把運維算法落地到了硬件故障預測場景,和業界實踐同樣面臨著標簽不充分的問題。

因此,我們引入了半監督學習的方式,去擴充硬盤的故障數據;另我們基于時間窗口計算增強smart特征,輸入給時間注意力分析模型,讓模型得以充分訓練,提升硬盤故障預測準確性。

在支撐京東全線業務正常運行下,硬盤故障預測模型平均準確率達90%以上,平均召回率達80%左右,在業界處在靠前的水平。

3、運維算法

圖片

從2018年開始,我們開始沉淀智能運維算法能力,比如動態基線預測、運維日志預訓練模型、蒙特卡洛樹根因定位、相似度計算、告警共性分析算法、因果推斷算法等。

以告警共性分析算法為例,在內部落地比較核心的就是pingmesh場景(網絡場景)。在源和目的IP相互ping的時候,會有大量的延時以及丟包的指標監控,當延時和丟包大量突增時,中間經過的網絡設備共性的路徑是什么?這個時候,我們就是通過告警共性分析算法去分析解決的。

4、模型工廠

圖片

模型工廠主要用以整個智能運維算法學件的數據集快速增量學習,幫助運維算法迭代更新及再訓練,這其中包含前面介紹的8大組件。

5、運維監控可視化大屏

圖片

除了以上功能,我們整個智能運維平臺也支持可視化。

做可觀測性實踐,一部分要做到快速定位,還要做到分布式的全鏈路追蹤,快速發現并響應,還有一部分是可視化,實現全局數據概覽。


圖片

講師介紹

張靜,京東科技智能運維算法高級經理。碩士畢業于東北大學,持續深耕智能運維領域多年,帶領團隊致力于京東智能運維算法迭代,把智能算法能力落地京東線上橫向業務場景,算法在監控、數據庫、網絡、資源調度等多個縱向場景取得突破,提升了產品和運維的技術競爭力。善于將實踐中沉淀的技術與日常算法工作中積累的技術與創新總結成專利和IEEE論文,申請智能運維發明專利50余項,IEEE國際會議論文收錄9篇。

責任編輯:武曉燕 來源: dbaplus社群
相關推薦

2010-09-26 12:19:28

DHCP故障診斷

2013-05-22 17:18:13

2021-11-25 10:36:04

DNS命令Linux

2010-08-03 13:41:22

路由器命令

2020-03-13 11:18:17

運維架構技術

2009-11-11 17:07:13

路由器故障

2020-09-16 15:52:03

人工智能

2009-05-19 16:40:41

TTL網絡故障科來軟件

2009-11-17 18:44:44

2009-11-24 18:34:23

網絡故障診斷路由器

2020-05-03 12:52:39

VMware Hori虛擬桌面虛擬機

2012-10-09 16:00:35

交換機故障

2011-07-28 11:22:50

2009-11-12 14:07:16

路由器故障

2023-10-30 07:25:37

數據湖數據處理

2025-03-04 08:53:10

2018-09-18 09:36:52

運維數據庫智能

2017-06-26 10:23:42

傳統運維京東金融

2022-06-24 14:42:52

京東搜索

2011-05-07 14:29:26

復合機
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产成人精品免费视频大全最热 | 99久久精品免费看国产四区 | 免费色网址 | 秋霞精品| 国产精品视频在线播放 | 亚洲免费在线观看 | 国产一区二区三区久久久久久久久 | 国产 欧美 日韩 一区 | 精品国产91| 欧美精品欧美精品系列 | 久久久久久蜜桃一区二区 | 国产不卡一区 | 国产精品亚洲一区二区三区在线观看 | 一区二区在线免费观看 | 欧美在线视频网 | 我要看黄色录像一级片 | 国产精品中文在线 | 一区二区三区四区在线视频 | 日本在线看 | 久久久久久国模大尺度人体 | 亚洲一区二区电影网 | 暖暖成人免费视频 | 亚洲第一av| 国产欧美视频一区二区 | 99国产精品一区二区三区 | www国产成人免费观看视频,深夜成人网 | 日本高清不卡视频 | 毛片99 | 日韩色综合 | 日韩av黄色 | 少妇黄色| 国产成人久久精品一区二区三区 | 九色 在线| 中文字幕成人免费视频 | 欧美成人一区二区三区 | 日韩在线视频精品 | 国产精品免费一区二区三区四区 | 丁香久久 | 精品一区二区三区四区视频 | 国产午夜精品一区二区三区四区 | 欧洲国产精品视频 |