成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺談數據質量管理

大數據
大數據平臺搭建之初,會優先滿足業務的使用需求,數據質量往往是被忽視的一環。但是隨著業務的逐漸穩定,數據質量越來越被人們所重視,千里之堤,潰于蟻穴,糟糕的數據質量往往就會帶來低效的數據開發,不準確的數據分析,最終會導致錯誤的業務決策。

Part 01、  什么是數據質量管理 

數據質量管理,是DAMA數據管理知識體系指南中數據治理領域非常重要的一部分(圖1 所示),主要是指對數據從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發的各類數據質量問題,進行識別、度量、監控、預警等一列管理活動,并通過改善和提高組織的管理水平使得數據質量獲得進一步提高。

圖1

Part 02、 數據質量問題原因及評價標準 

數據在計劃、獲取、存儲、共享、維護等各個環節都有可能引發數據質量問題,主要原因分為幾下幾個方面:

數據不完整:由于企業信息系統的孤立使用,各個業務系統或模塊按照各自的需要錄入系統,沒有統一的錄入工具和數據出口,業務系統不需要的信息就不錄,造成同樣的數據有不同的信息屬性,再或者取數動作不規范,或許某個數據本身就是采集過來的,本來就是不完整的,數據完整性無法得到保障。

數據不合規:沒有統一的數據管理平臺和數據源頭,數據生命周期管理不完整,同時企業各信息系統的數據錄入環節過于簡單且手工參與較多,就數據本身而言,缺少是否重復、合法、對錯等校驗環節,導致各個信息系統的數據不夠準確,格式混亂,各類數據難以集成和統一,沒有質量控制導致海量數據因質量過低而難以被利用。

數據時效性差:大數據項目對數據的時效性要求是非常嚴格的,比如離線項目是每天計算前一天的數據,如果前一天的源數據因為某些原因沒有被及時的傳輸過來,這樣就會嚴重影響后面指標的計算以及報表的生成。

數據冗余:各個信息系統針對數據的標準規范不一、編碼規則不一、校驗標準不一、且部分業務系統針對數據的驗證標準缺失,造成了企業頂層視角的數據出現“一物多碼,一碼多物”等現象。

數據不精確:數據的精確性也是指數據的準確性,是指數據是否與目標值匹配;比如一個訂購金額,如果遠遠大于或低于常規的數值,那么我們就要懷疑這個的數據的精確性不夠。

那么如何判斷數據質量的優劣?從哪些方面可以評估數據質量?在實踐中,我們可以通過數據質量評估維度進行評估。數據質量評估維度是數據質量的特征之一,它們為度量和管理數據的質量提供了一種途徑和標準。在一個具體的數據質量項目中,要選擇最適用于業務需求的數據質量維度進行測量,以評價數據的質量。

在《GB/T36344-信息技術數據質量評價指標》中,國家標準化管理委員會明確了數據質量評價指標框架如圖2所示。

圖2圖2

  • 規范性:數據符合數據標準、數據模型、業務規則、元數據或權威參考數據的程度。
  • 完整性:按照數據規則要求,數據元素被賦予數值的程度。
  • 準確性:數據準確表示其所描述的真實實體(實際對象)真實值的程度。
  • 一致性:數據與其他特定上下文中使用的數據無矛盾的程度。
  • 時效性:數據在時間變化中的正確程度。
  • 可訪問性:數據能被訪問的程度。

Part 03、目前常用的數據質量管理工具 

3.1 Apache Griffin

Griffin是一個開源的大數據質量解決方案, 2016年12月07日進入 Apache 孵化,由eBay開源,它支持批處理和流模式兩種數據質量檢測方式,是一個基于Hadoop和Spark建立的數據質量服務平臺 (DQSP),如圖3所示。它提供了一個全面的框架來處理不同的任務,例如定義數據質量模型、執行數據質量測量、自動化數據分析和驗證,以及跨多個數據系統的統一數據質量可視化。

圖3圖3

Griffin由Define、Measure、Analyze三大模塊組成,各個部分的職責如下:

Define:主要負責定義數據質量統計的維度,比如數據質量統計的時間跨度、統計的目標(源端和目標端的數據數量是否一致,數據源里某一字段的非空的數量、不重復值的數量、最大值、最小值、top5的值數量等)。

Measure:主要負責執行統計任務,生成統計結果。這一塊主要技術棧使用的是Livy+ Spark,Spark作為執行引擎,Apache Livy基于Spark的開源REST服務,它能夠通過REST的方式將代碼片段或是序列化的二進制代碼提交到Spark集群中去執行。

Analyze:主要負責保存與展示統計結果。

-現狀分析:

  • Griffin的社區并不太活躍,現在最新版本還是0.6,網上技術文檔并不算太多, 擔心出了問題比較難找到解決方案。
  • 從技術棧的角度Livy過于小眾,數據存儲方面ES的運維對于一個小團隊來說也比較麻煩。
  • 針對數據檢查任務的調度和數據檢查結果的后續處理方面,Griffin一般還需要和現有的大數據調度平臺打通,也有一定的工作量。

3.2 Apache DolphinScheduler

在2022年4月22日,Apache DolphinScheduler 正式宣布 3.0.0 alpha 版本發布,此版本中用戶期待已久的數據質量校驗應用功能上線,實現了數據質量的原生支持,支持在工作流運行前進行數據質量的校驗,可由用戶自定義數據質量的校驗規則,實現了任務運行過程中對數據質量的嚴格控制和運行結果的監控,如圖4所示。

圖4圖4

-現狀分析

  • DolphinScheduler作為一個任務調度系統,具備了執行任務的基礎,不需要引入新的組件來提交任務;
  • 數據質量檢查可以作為一種任務類型無縫接入到工作流當中;
  • 無需新增其他服務來增加運維的難度;
  • 可以很好地與社區共建開源。

基于以上現狀,DolphinScheduler是一款比較適合與業務相結合進行二次開發的數據質量工具,但是目前僅適用于離線數據驗證。

3.3 Deequ

Deequ是一個來自AWS實驗室的開源工具,可以用來驗證許多大型生產數據集的質量。數據生產者可以通過添加和編輯數據質量約束,使得系統定期計算數據質量指標。當數據質量約束成功時將數據集發布給消費者,錯誤時可停止數據集的發布,并通知生產者采取行動,這樣數據質量問題就不會傳播到消費者的數據管道,從而減少它們的爆炸半徑。主要組件如圖5所示。

圖5圖5

  • 指標計算(Metrics Computation),Deequ 計算數據質量指標,即完整性、最大值或相關性等統計數據。Deequ 使用 Spark 從 Amazon S3 等源中讀取數據,并通過一組優化的聚合查詢計算指標。
  • 約束驗證(Constraint Verification),作為用戶,可以專注于定義一組要驗證的數據質量約束,Deequ負責利用該約束在數據集上進行計算,進而生成數據質量報告,其中包含約束驗證的結果。
  • 約束建議(Constraint Suggestion),可以選擇自定義所需的數據質量約束,或使用自動約束建議方法來分析數據以推斷有用的約束。

-現狀分析:

  • Deequ和spark關聯密切,使用spark技術框架的可以考慮。
  • 社區較為活躍,使用的較多。

3.4 Great Expectations

Great expectations是一個python的工具包,Python近幾年在數據分析領域大放異彩,而Python本身對于數據質量問題的解決一直是一個大問題。而Great expectations正好彌補了這方面的不足。對于一些對Python支持良好的公司,可以優先選擇Great expectations來進行數據質量的解決方案建設。

-現狀分析:

  • 版本更新快,Bug修復也快。
  • 社區非常活躍,值得長期關注。
責任編輯:龐桂玉 來源: 移動Labs
相關推薦

2009-07-22 15:47:05

軟件質量管理

2018-07-11 14:06:04

數據質量數據治理數據清洗

2022-08-29 10:58:50

Kubernetes應用質量管理

2012-01-06 14:10:42

數據質量管理大數據數據管理

2022-09-14 12:26:13

質量管理企業關系管理

2017-12-15 15:38:00

2012-04-20 09:35:53

大數據數據中心數據質量管理

2011-05-03 09:34:50

Sonar

2023-02-06 16:50:46

數據治理工具

2023-12-29 08:00:00

2012-03-15 17:11:51

JavaSonar

2011-01-07 10:43:45

應用軟件質量管理

2021-09-23 17:21:19

網易數據質量大數據平臺

2023-10-29 16:44:39

數據質量管理開源

2011-03-01 10:29:32

互聯網

2023-12-26 08:37:41

2009-10-27 11:31:00

系統集成項目管理師試題答案

2011-07-13 18:44:32

SEO

2013-09-24 15:14:46

普元軟件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 中文字幕精品一区二区三区在线 | 日日拍夜夜 | www.日本三级| 午夜一区二区三区 | 麻豆久久久 | 日韩中文一区二区三区 | 久久亚洲欧美日韩精品专区 | 香蕉视频一区二区 | 99精品欧美一区二区蜜桃免费 | 三级黄视频在线观看 | 欧美成年网站 | 日韩电影中文字幕在线观看 | 日本精a在线观看 | 99久久婷婷国产综合精品首页 | 亚洲 中文 欧美 日韩 在线观看 | 国产精品1区 | 自拍视频网站 | 老头搡老女人毛片视频在线看 | av性色全交蜜桃成熟时 | av天天干 | 久久久久久国产精品免费免费狐狸 | 亚洲精品乱码久久久久久按摩观 | 日韩影院在线 | 国产精品1区2区 | 日韩超碰 | 成人片在线看 | 国产精品激情 | 国产精品国产精品国产专区不卡 | 在线视频国产一区 | 嫩草视频在线免费观看 | 精品免费av| 日韩一区av | 日韩中文一区二区三区 | 欧美一区二区三区国产 | 国产在线精品一区二区 | 天天干天天操天天爽 | 国精产品一品二品国精在线观看 | 九九热精品视频 | 粉嫩国产精品一区二区在线观看 | 久久国产精品久久国产精品 | 国产一区二区三区视频在线观看 |