成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

網易云音樂數據全鏈路基線治理實踐

大數據
在大數據開發領域,大家都會被一個問題困擾:調度任務延遲,然后被老板、被業務“靈魂拷問”。本文將從問題挑戰、目標衡量、行動方案、成果展示、后續規劃五個方面展開,詳述網易云音樂在全鏈路基線治理的實踐。

一、問題挑戰

基線治理前,我們的基線運維存在較多的問題,有兩個數字很能說明問題:

(1)月平均起夜天數達80%以上。為什么會這么多呢,有很多因素,例如運維范圍不清晰、基線掛載沒有約束、集群資源緊張等等。 

(2)基線產出時間較遲,經常無法在上班前產出,月平均破線時長將近十小時。

要進行全鏈路基線治理,面臨的挑戰也很大,主要來自3方面:

  • 任務多:千億級日志量,萬級任務數,如何收斂在可控的范圍,如何在出錯后,能較快的重跑完?
  • 資源緊:凌晨資源水位95%以上,沒有任何的 buffer 預留,也沒有彈性資源可用;
  • 要求高:顯微鏡下工作,以 MUSE 產品為例,上百 BD,每天上班就看數據,他們的 KPI 考核就以 MUSE 的數據為準。

二、目標衡量

全鏈路基線治理的價值,總結起來主要有4個方面:

  • 服務于管理層,讓管理層第一時間能查看公司的經營數據。
  • 面向 C 端的業務數據,能夠穩定、及時的讓用戶更友好的使用。
  • 能夠建立數據開發團隊的研發口碑和影響力。
  • 提升我們數據開發同學的運維幸福度,進而提升組織的穩定性。

那么我們用什么指標來衡量我們的目標呢?我們提出了兩個數字來牽引:

  • 98%:全年可用天數達到98%以上,即服務不達標天數全年不超過7天。
  • 基線時間:核心 SLA 基線產出時間需滿足業務要求。

三、行動方案

3.1 整體方案

基于上述問題挑戰的剖析,我們對該問題的解題思路拆成3個方面:

  • 平臺基建:俗話說:“根基不牢,地動山搖”,首先要解決的就是平臺基建,例如如何衡量我們的集群資源是否飽和、我們的隊列如何管控、產品功能如何支持等等。
  • 任務運維:全鏈路上,哪些任務是卡點?超長高耗資源任務是什么原因?哪些任務需要高保障?
  • 組織流程:有沒有標準的運維 SOP ?跨團隊的協作機制如何建立?出問題后,如何有效的跟蹤以及避免再次發生?

用3個詞歸納,就是穩基建、優任務、定標準。

圖片

3.2 穩基建

基建這塊,我們梳理了存在的問題:(1)隊列使用不明確:總共拆分了幾十個隊列,沒有明確的使用規范;(2)資源監控靠經驗,無通用指標衡量;(3)集群 Namenode 壓力大,負載高;(4)資源管控弱,遇到突發情況無法保障高優任務優先獲取資源。

針對上述問題,我們實施了如下的解決方案:

  • 集群穩定性建設:聯合杭研,對負載高的 Namenode 集群進行 DB 拆分,遷移上百張表;同時完善集群的監控,例如 nvme 盤夯住自動監控修復,dn/nn/hive 等節點監控優化快速發現問題。
  • 集群資源數字化:實現了一個高可靠的資源使用模型,為集群資源管理員提供具體的數字化指標,以此可以快速判斷當前集群的資源使用情況,解決當前集群資源分配不合理的情況。
  • 產品化:通過產品層面提升資源的使用效率,比如產品功能支持按任務優先級獲取隊列資源,產品層面實現自助分析&補數功能凌晨禁用或有限度使用。
  • 隊列資源使用指導建議:制定隊列的資源使用規范,明確各個隊列的作用,管控隊列使用,規劃高中低級隊列。

3.3 優任務

針對云音樂體量大、業務多、團隊廣的數據任務特點,我們在這塊做的工作主要有:

  • 核心 ETL 引入流式處理,按小時預聚合數據,這樣1小時內完成流量日任務批跑。
  • 任務優化:如 hive、spark2 版本升級至 spark3 ,隊列調整、sql 改造等等。
  • 打通表、任務、基線間的血緣關系,優化任務的調度時間,減少任務依賴錯漏配。
  • 指標的異常監控,我們除了傳統的 dqc 外,還引入機器學習模型,解決云音樂 DAU 這類指標具有周期性、假日因素的監控難點。

其中,spark 升級得到了杭研同學的貼身服務,取得了比較好的成果,hive 升級到 spark3 完成大幾百個任務的改造,節省60%資源。spark2 升級 spark3,完成將近千個任務的改造,整體性能提升52%,文件數量減少69%。

指標的異常監控,引入的機器學習模型,我們主要融合了 Holtwinter、XGBoost 算法,相比 dqc 的監控,我們在 DAU 這個指標上,召回率提升74%,準確率提升40%,正確率提升20%;同時這里還有一個很大的作用是,它能感知業務的動態趨勢性變化,而且部署也很簡單,配置化接入。在產品層面,我們也正在聯合杭研產研同學,將該能力集成到數據質量中心。

圖片

3.4 定標準

在定標準方面,主要從兩方面出發:運維的范圍和運維規范。基于這兩點,我們展開了如下的工作:

  • 以核心產品+核心報表為載體,劃定核心 SLA 運維基線+數倉中間基線,值班運維的范圍從原先的上萬個任務縮減到千級任務數。
  • 明確任務責任人,解決之前事不關己高高掛起的問題,按照業務線劃分,工具+人肉并行的方式將無歸屬的任務歸屬到責任人。
  • 制定基線掛載原則,明確約束條件、各角色職責等。
  • 制定標準的運維 SOP ,嚴格運維軍規和獎懲機制;同時跟杭研建立數據運維交警隊,多舉措保證異常情況的及時處理。
  • 建立官方運維消防群,第一時間通知問題和處理進展,解決信息傳遞不夠高效,業務體感差的問題。
  • 與杭研、安全中臺、前端等達成統一意見,引入 QA 作為公正的第三方,統一牽頭處理問題的復盤和歸因,確保問題的收斂。

四、成果展示

項目成果這塊,主要分為業務成果、技術成果、產品成果三方面。

業務成果,目前我們的核心基線凌晨就能跑完,平均告警天數下降60%,核心基線破線次數0,完成全年可用天數98%以上的目標。

技術成果,我們的《機器學習模型在云音樂指標異動預測的應用實踐》榮獲了網易集團2022年度技術大會-開源引入獎。同時,我們的集群資源數字化,通過計算出合理的彈性資源,確保集群服務或者任務出現相關波動或異常的情況下,不會造成大量任務延遲、核心基線破線等現象;其次根據資源的安全水位,為擴縮容提供量化的數據指標;最后集群、隊列、任務資源透明化后,可以提高整體的資源利用率,降低成本。

圖片

圖片

產品層面,在杭研的鼎力支持下,實現了隊列資源的傾斜、自助取數自動查殺等功能,有效的提升了我們的資源利用率。

五、后續規劃

我們將從產品、系統、業務、機制四個方面繼續全鏈路基線治理的工作。

產品層面,我們將引入 DataOps,增強任務的代碼自動稽核能力,從開發、上線、審批全流程做管控。優化基線預警,通過檢測基線上任務調度時間、依賴設置等,判斷是否有優化空間或者異常,并做提示或告警。

系統層面,優化資源監控,支持基于 Label 級別展示分配的物理 CPU、虛擬  CPU、內存等系統資源總量以及指定時段的實際 CPU、虛擬 CPU、內存使用量。同時在任務級的資源使用上,對配置的資源做合理性評估,進而提供優化建議。

業務層面,提升內容級監控覆蓋率、準確度;打通線上服務的血緣,覆蓋線上服務的任務。

機制完善,聯合分析師、數據產品等團隊,確定報表、數據產品的下線以及對應歷史任務下線流程。

寫在最后,治理是一件久久為功的事情,上述更多的是從方法論的角度在講這件事,但是治理其實更考驗執行,需要不斷修煉內功,把事情做細,把細事做透。

責任編輯:龐桂玉 來源: 網易有數
相關推薦

2023-06-12 07:44:21

大數據數據治理

2023-07-27 07:44:07

云音樂數倉平臺

2023-06-19 07:27:50

網易嚴選全鏈路

2022-08-26 13:12:01

數據治理實踐

2023-02-08 19:37:37

大數據技術

2022-12-21 12:05:40

網易云音樂用戶畫像

2023-03-15 18:34:26

資源治理數據治理業務線

2022-12-12 08:00:00

人工智能網易云音樂算法平臺研發

2013-03-04 10:57:01

網易云音樂

2023-08-07 08:40:24

2023-05-06 07:19:48

數倉架構技術架構

2023-09-13 07:19:46

數據開發平臺治理平臺

2022-12-06 17:52:57

離線數倉治理

2019-01-15 15:00:22

可視化網易云音樂數據

2023-07-20 15:46:24

2014-10-10 16:04:01

網易云音樂Mac版

2017-03-24 18:38:40

互聯網

2013-05-13 11:12:22

云音樂云應用

2017-03-24 17:55:47

互聯網
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久精品无码一区二区三区 | 久久久国产精品 | 欧美亚洲免费 | 亚洲成人精品一区 | 欧美aaaa视频 | 精品久久久久久 | 91久久精品一区二区二区 | 91精品国产色综合久久不卡蜜臀 | www.亚洲视频| 精品久久99| 三级在线免费 | 一道本不卡 | 视频在线一区二区 | 日本在线视频中文字幕 | 亚洲欧美日韩一区二区 | 精品免费国产一区二区三区四区 | 国产成人精品综合 | 不用播放器看的av | 国产成人综合在线 | 精品在线 | 国产aⅴ精品 | 亚洲啊v在线 | 欧美国产日本一区 | 欧美日韩综合 | 一区二区三区欧美在线 | 国产视频二区在线观看 | 久久av网站 | 欧美日韩国产精品一区二区 | 超碰在线97国产 | 一区二区三区视频在线免费观看 | 国产999在线观看 | 免费精品视频 | 国产成人综合在线 | 久久久久国产精品人 | av大全在线观看 | 91久久久精品国产一区二区蜜臀 | 国产福利视频在线观看 | 日本人麻豆 | 凹凸日日摸日日碰夜夜 | 久久综合入口 | 三级黄色大片网站 |