成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量:技術(shù)解析與典型案例

大數(shù)據(jù)
數(shù)據(jù)質(zhì)量的考量維度有很多分法,最重要的一個就是數(shù)據(jù)的真實性,它必須真實地去表達客觀實體或者真實的業(yè)務(wù)。其次還有準(zhǔn)確性或者叫可靠性,它適用于分析和識別那些不準(zhǔn)確無效數(shù)據(jù)的一些方法。

一、相關(guān)概念和框架

首先來看一下數(shù)據(jù)標(biāo)準(zhǔn)的概念我們可能經(jīng)常聽到這個詞語,卻并不清楚其定義,不知道其中包含了什么。

圖片

在國際數(shù)據(jù)管理協(xié)會的關(guān)于職能域的車輪圖中,并沒有數(shù)據(jù)標(biāo)準(zhǔn)這一項。國內(nèi)的 DCMM 框架中有數(shù)據(jù)標(biāo)準(zhǔn)一項。

圖片

另外, IBM 的數(shù)據(jù)治理框架,以及 CMMI 的框架中也是沒有數(shù)據(jù)標(biāo)準(zhǔn)的。我們可以去分析一下國內(nèi)的權(quán)威機構(gòu)關(guān)于數(shù)據(jù)標(biāo)準(zhǔn)的定義,如下圖所示:

圖片

通過總結(jié)國內(nèi)對數(shù)據(jù)標(biāo)準(zhǔn)的定義,再去看 DAMA 框架就會發(fā)現(xiàn),其數(shù)據(jù)治理中是包含了對數(shù)據(jù)標(biāo)準(zhǔn)的定義的。

圖片

國外的企業(yè)一般不會使用 Data Standards 這個詞,它會具體映射到左邊的,比如 Glossary,就是業(yè)務(wù)術(shù)語,或者說 Data Dictionary、數(shù)據(jù)字典,還有 Data Elements 就是數(shù)據(jù)元或數(shù)據(jù)項。在他們的語境當(dāng)中業(yè)務(wù)術(shù)語是面向公司所有受眾的,需要確保在一個組織中大家都使用正確的術(shù)語。數(shù)據(jù)字典更多的是給技術(shù)員工在管理數(shù)據(jù)的時候用的,它定義描述數(shù)據(jù)集,還有數(shù)據(jù)字段相關(guān)的屬性。

圖片

對于業(yè)務(wù)術(shù)語而言,它的業(yè)務(wù)屬性就是這個詞語代表了業(yè)務(wù)含義,在技術(shù)層面就是數(shù)據(jù)的表現(xiàn)形式、取值范圍等。管理屬性是這個術(shù)語對應(yīng)在組織內(nèi)的一個歸屬。

圖片

下面是業(yè)務(wù)術(shù)語的數(shù)據(jù)標(biāo)準(zhǔn)的舉例,比如企業(yè)法人,我們對它有一個定義和分類,它里面的這個數(shù)據(jù)元會有對應(yīng)的描述,我們對這個描述會有很多的約定。當(dāng)我們?nèi)ナ崂硪粋€企業(yè)內(nèi)部的所有數(shù)據(jù)的時候,從上往下去看會把它分成多個 level,第一個就是企業(yè)所有數(shù)據(jù)主題域的分組,它體現(xiàn)的是從數(shù)據(jù)的視角去看企業(yè)所有數(shù)據(jù),它真正在業(yè)務(wù)層面映射的相關(guān)大領(lǐng)域?qū)?yīng)的主題域是互不重疊的。

圖片

再舉個例子,比如貨品管理,它可以分為訂貨、庫存,這兩個是可以去分析的主題域或者業(yè)務(wù)上關(guān)心的主題域,對應(yīng)的業(yè)務(wù)對象是訂貨,相關(guān)的訂單就是它的業(yè)務(wù)對象。再下層去拆解的話,會有業(yè)務(wù)關(guān)系和邏輯實體,那邏輯實體是真正具有邏輯關(guān)系的一些屬性組合,比如訂單表本身是一個實體,然后表中的對應(yīng)的字段是這個實體所干預(yù)的業(yè)務(wù)中定義的一些屬性。最后的屬性是我們經(jīng)常提到的這個數(shù)據(jù)元或者數(shù)據(jù)項。

圖片

從業(yè)務(wù)角度對這些屬性進行分辨。比如業(yè)務(wù)規(guī)則就是基礎(chǔ)元數(shù)據(jù),包括主數(shù)據(jù)、參考數(shù)據(jù)、計算方法、統(tǒng)計口徑等。從技術(shù)角度來看,字段類別、字段格式長度屬于來源,統(tǒng)計粒度還有統(tǒng)計周期,就是指標(biāo)類樹立標(biāo)準(zhǔn)所必須的。相關(guān)的管理屬性,包括標(biāo)準(zhǔn)本身的版本、標(biāo)準(zhǔn)的創(chuàng)建日期,還有標(biāo)準(zhǔn)的管理部門等。

圖片

下面是主數(shù)據(jù)和參考數(shù)據(jù)的數(shù)據(jù)標(biāo)準(zhǔn)舉例,比如北京、上海、廣州,它所屬的省份的簡稱可以對它進行定義為對應(yīng)的中文名稱的拼音第一個字母,城市的類別把它定義為一線城市、二線城市。這個是對所有的主數(shù)據(jù)當(dāng)中的字段的一個描述,也就是元數(shù)據(jù)。這是指標(biāo)的梳理標(biāo)準(zhǔn)。

圖片

下面有一個具體的例子,比如撥備覆蓋率就是指標(biāo)的名稱,把它歸類為基本屬性,然后對指標(biāo)的業(yè)務(wù)含義進行定義,指的就是貸款損失準(zhǔn)備對不良貸款的一個比率。指標(biāo)的類型屬于比率類。從技術(shù)角度來看,它在底層占有的長度是 8,精度是 4。管理屬性就是它的第一部門是誰,這個指標(biāo)的版本是多少號。對于指標(biāo)的數(shù)據(jù)標(biāo)準(zhǔn),要從下面的 5 個角度去考量它,需要能夠比較準(zhǔn)確地去表達業(yè)務(wù)含義。

圖片

指標(biāo)必須要有非常可信的來源,所以來源也是重要的考量指標(biāo)可信度的維度。

圖片

下面看下數(shù)據(jù)標(biāo)準(zhǔn)的成熟度評估,第一個是數(shù)據(jù)標(biāo)準(zhǔn)有沒有被完全解讀,大家有沒有充分的理解?標(biāo)準(zhǔn)本身夠不夠完整,夠不夠清晰?標(biāo)準(zhǔn)在組織內(nèi)部的發(fā)布還有傳播有沒有到位,有沒有貫徹,標(biāo)準(zhǔn)的管理變更流程夠不夠全面,執(zhí)行是不是夠徹底?我們可以從這幾個角度去看一個企業(yè)內(nèi)部的標(biāo)準(zhǔn)當(dāng)前建設(shè)的成熟度到了什么樣的程度。

圖片

數(shù)據(jù)質(zhì)量指的是在特定的業(yè)務(wù)環(huán)境下,數(shù)據(jù)滿足業(yè)務(wù)運行、管理與決策的程度,是保障數(shù)據(jù)應(yīng)用效果的一個基礎(chǔ)。數(shù)據(jù)質(zhì)量管理指的是運用相關(guān)的技術(shù)來衡量、提高和確保數(shù)據(jù)質(zhì)量的規(guī)劃、實施與控制的一系列活動。所以從這里面可以看出數(shù)據(jù)質(zhì)量也是一個非常龐大的系統(tǒng)工程。數(shù)據(jù)質(zhì)量真正要去落地的時候,有以下幾點需要注意:

(1)真正去落地是需要和具體的企業(yè)當(dāng)中的經(jīng)營管理痛點相結(jié)合,需要企業(yè)內(nèi)部的 IT 數(shù)據(jù)團隊和業(yè)務(wù)團隊一起解決問題。

(2)PDCA 的循環(huán)要做起來,走通一個閉環(huán)之后,后面要持續(xù)去迭代。

(3)不能夠期望僅僅依靠一個工具或者多個工具就能夠解決數(shù)據(jù)質(zhì)量的問題,它只能夠解決一部分的通用問題。

圖片

數(shù)據(jù)質(zhì)量的考量維度有很多分法,最重要的一個就是數(shù)據(jù)的真實性,它必須真實地去表達客觀實體或者真實的業(yè)務(wù)。其次還有準(zhǔn)確性或者叫可靠性,它適用于分析和識別那些不準(zhǔn)確無效數(shù)據(jù)的一些方法。唯一性就需要我們?nèi)プR別,還有度量重復(fù)數(shù)據(jù),去掉冗余的數(shù)據(jù),重復(fù)的數(shù)據(jù)會導(dǎo)致業(yè)務(wù)很難協(xié)同。還有數(shù)據(jù)的完整性,如果說模型設(shè)計不完整,那數(shù)據(jù)會有很多缺失或者很難使用。一致性其實是現(xiàn)在數(shù)據(jù)質(zhì)量建設(shè)的重點,因為內(nèi)部的多源系統(tǒng),它的數(shù)據(jù)模型不統(tǒng)一,那它代表的各種約束也不一致,實體代表的含義也不一致。數(shù)據(jù)的關(guān)聯(lián)性指的是比如有主外間關(guān)系,那兩者的分析結(jié)果也會有對應(yīng)的關(guān)聯(lián),然后及時性也是現(xiàn)在大家比較關(guān)心的數(shù)據(jù)質(zhì)量的問題,實時地能夠去反映我們的業(yè)務(wù)的狀況,然后對應(yīng)的快速決策實現(xiàn)在企業(yè)的一個非常重要的競爭力。

圖片

數(shù)據(jù)質(zhì)量出現(xiàn)問題的原因非常多。從技術(shù)角度來看,有可能會出現(xiàn)數(shù)據(jù)的不完整。數(shù)據(jù)源本身如果沒有做質(zhì)量的控制,數(shù)據(jù)就會比較雜亂。還有采集的過程當(dāng)中,如果對于采集數(shù)據(jù)的定義沒有理清楚,采集的數(shù)據(jù)可能和我們想要的不太一樣,傳輸過程當(dāng)中可能會有網(wǎng)絡(luò)閃斷,或者中間出現(xiàn)傳輸問題,數(shù)據(jù)有可能會丟失。

在業(yè)務(wù)方面最大的問題是業(yè)務(wù)團隊和數(shù)據(jù)團隊交流的時候,對于需求沒有互相對齊,或者需求不太明確,理解不一致。另外需求變更很頻繁也會導(dǎo)致質(zhì)量問題。在管理方面最大的難題是缺少管理的機構(gòu)和目標(biāo)機制。

圖片

下面舉個例子,比較適合于大型集團。制度規(guī)范有數(shù)據(jù)質(zhì)量管理的規(guī)范,管理的辦法有考核辦法,有事中的監(jiān)控管理、事后的處理、事前的防范等相應(yīng)的方法。技術(shù)的規(guī)范和模板包括數(shù)據(jù)質(zhì)量的檢查規(guī)則。

圖片

數(shù)據(jù)質(zhì)量的考量維度可以根據(jù)不同的需求去評估,最重要的是我們能夠去解決具體的經(jīng)營管理的問題,從這個導(dǎo)向來出發(fā),把它轉(zhuǎn)變成對于數(shù)據(jù)的需求,從解決具體的某一個小問題出發(fā)去形成一個閉環(huán)。如果數(shù)據(jù)質(zhì)量的管控想要真正落地的話,KPI 績效是一個非常重要的點。

下面舉一個例子是如何去評估數(shù)據(jù)質(zhì)量管理的牽頭團隊,可以把它分成兩個方向。質(zhì)量問題本身可以有如下的這個角度,第一個是問題的個數(shù)、影響的范圍和嚴(yán)重的程度,考核對象可以是問題的個數(shù),考核對象就是數(shù)據(jù)管理團隊的這個負(fù)責(zé)人。

圖片

質(zhì)量問題的處理可以根據(jù)問題的及時性來進行評估,可以從事后治理、事中監(jiān)控還有事前防范三個方面進行管理。

圖片

歷史數(shù)據(jù)是大多數(shù)企業(yè)進行數(shù)據(jù)質(zhì)量項目的第一步,數(shù)據(jù)質(zhì)量的事后治理可以從這個問題的發(fā)起,發(fā)現(xiàn)問題提交給相關(guān)方,然后制定解決問題的規(guī)則,去思考問題出現(xiàn)的基本原因和相關(guān)的影響范圍,最后制定出相關(guān)的方案進行實施。

圖片

事中監(jiān)控最好是通過工具來執(zhí)行,它的輸入是根據(jù)過往經(jīng)驗得到的梳理標(biāo)準(zhǔn)和業(yè)務(wù)的需求,把它轉(zhuǎn)變成 PDCA 自動化的流程,對應(yīng)的標(biāo)準(zhǔn)轉(zhuǎn)變成數(shù)據(jù)質(zhì)量的監(jiān)控規(guī)則,在工具中進行配置落地,并進行實時的執(zhí)行,最終輸出數(shù)據(jù)質(zhì)量報告。

圖片

事前防范是最難的一項,它是為了總結(jié)業(yè)務(wù)需求,編成經(jīng)過思考的一些模板。

圖片

對于數(shù)據(jù)質(zhì)量解決效果的評估可以從四個方面進行評估,第一個是管理流程是不是夠完善,相應(yīng)的組織夠不夠健全。第二個是質(zhì)量規(guī)則的落地和識別。 

圖片

當(dāng)我們?nèi)ス芾頂?shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量時,對應(yīng)的組織保障把它分成了 3 個類別,分別適用于不同的機構(gòu)。

第一種是集中式的,它的特點是數(shù)據(jù)管理的負(fù)責(zé)人和數(shù)據(jù)管理團隊是專職的、永久的,他們對所有數(shù)據(jù)的產(chǎn)生、演變、維護進行集中式的管控。這一種管控方式的優(yōu)勢是它有一個強有力的數(shù)據(jù)管理的專業(yè)組織,負(fù)責(zé)企業(yè)級的數(shù)據(jù)管理,職責(zé)明確,目標(biāo)清晰。組織是固定的,組織內(nèi)可以做專業(yè)化的分工,整個匯報條線清晰,自上而下的執(zhí)行具有驅(qū)動力。他的問題是對于數(shù)據(jù)管理人員的能力要求非常高,整個組織比較龐大,成本也比較高,其他部門可能沒有數(shù)據(jù)管理的能力,所以需要跨部門的溝通,成本比較高,對協(xié)作的要求也比較高。因為比較集中,所以容易僵化,會影響工作效率,所以這個集中式的方式非常適合于集團企業(yè),比如大型的央企、大型的集團。

圖片

第二種是聯(lián)邦方式,它的特點是在總部設(shè)立一個數(shù)據(jù)管理的負(fù)責(zé)人,對數(shù)據(jù)管理整體的活動進行協(xié)調(diào)管控,在各個業(yè)務(wù)單元設(shè)立專門的組織或者角色,他負(fù)責(zé)業(yè)務(wù)領(lǐng)域的數(shù)據(jù)管理工作。整個組織的成員可以是專人專崗,也可以是兼職。它的優(yōu)勢是數(shù)據(jù)管理和業(yè)務(wù)管理可以更好地融合,可以根據(jù)職責(zé)的需要設(shè)置崗位,執(zhí)行效率比較高,同時它能夠比較好地實現(xiàn)橫向的協(xié)調(diào)和拉通。另外就是專業(yè)化的分工也具備,所以有助于團隊對應(yīng)的能力的提升。它的挑戰(zhàn)是縱向需要加強組織影響力,還有協(xié)調(diào)能力,驅(qū)動企業(yè)數(shù)據(jù)管理的工作。還有一個挑戰(zhàn)是數(shù)據(jù)管控的力度相對于集中式會弱一些,所以需要通過其他手段,比如評價進行監(jiān)督。

第三種是分散式的,它的特點是不存在一個企業(yè)級的數(shù)據(jù)管理負(fù)責(zé)人,數(shù)據(jù)相關(guān)的活動分散在各個部門,它的成員也是以監(jiān)管為主,它的優(yōu)勢是每個業(yè)務(wù)單元能夠比較好地去理解自己的業(yè)務(wù),每個業(yè)務(wù)單元容易在單個的業(yè)務(wù)領(lǐng)域上和系統(tǒng)上實現(xiàn)數(shù)據(jù)管理的工作。另外在應(yīng)用需求的基礎(chǔ)上樹立的問題可以在單部門中快速被解決,所以一般服務(wù)滿意度會相對比較高。挑戰(zhàn)是缺乏一個企業(yè)級的管理視角,跨業(yè)務(wù)部門的協(xié)作會比較困難。所以對于聯(lián)邦式比較適合于大部分的中小企業(yè)。

圖片

這個是對于集中式管理的組織保障的拆解,首先應(yīng)該有個決策組織,這決策組織可以是數(shù)據(jù)治理的委員會,然后在下面去做管理的應(yīng)該有一個數(shù)據(jù)治理的辦公室。對于每一個職能域都有對應(yīng)的負(fù)責(zé)人,在每個業(yè)務(wù)單元有對應(yīng)的數(shù)據(jù)的責(zé)任人,在 IT 層面也有對應(yīng)的比較明細的分工,去解決我們梳理當(dāng)中出現(xiàn)的問題。

二、工具和技術(shù)

接下來分享第二部分是數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量相關(guān)的工具。

圖片

首先去采集數(shù)據(jù)標(biāo)準(zhǔn)內(nèi)部的信息模型,還有標(biāo)準(zhǔn)相關(guān)的文檔,把它轉(zhuǎn)變成標(biāo)準(zhǔn)管理系統(tǒng)中的一些內(nèi)容。然后標(biāo)準(zhǔn)當(dāng)中有些內(nèi)容可以轉(zhuǎn)變成質(zhì)量中的檢查規(guī)則,有些業(yè)務(wù)需求也可以變成數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則。他們會不斷調(diào)用統(tǒng)一的元數(shù)據(jù)管理內(nèi)容去進行檢查。

圖片

這是系統(tǒng)管理數(shù)據(jù)元的演示。對于數(shù)據(jù)元可以去約束它的名稱、狀態(tài)、類型、數(shù)據(jù)格式、來源、關(guān)系等,這個標(biāo)準(zhǔn)可以映射到具體的表中字段進行審核處理。

圖片

對于結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn)比較好理解,那非結(jié)化數(shù)據(jù)標(biāo)準(zhǔn)有哪些方法進行管理?

第一種方法是在業(yè)務(wù)場景中進行治理,海量的非結(jié)構(gòu)化數(shù)據(jù)治理的成本非常高,所以必須在業(yè)務(wù)流程當(dāng)中識別出其中業(yè)務(wù)價值比較大的數(shù)據(jù)進行治理,獲取最大的投資回報。在業(yè)務(wù)場景當(dāng)中提煉出關(guān)鍵數(shù)據(jù)和客戶現(xiàn)在系統(tǒng)中的數(shù)據(jù)進行融合,通過數(shù)據(jù)服務(wù)的方式供業(yè)務(wù)去調(diào)用。

第二種它是把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變成結(jié)構(gòu)化數(shù)據(jù),用結(jié)構(gòu)化的數(shù)據(jù)進行管理。

第三種是映射結(jié)構(gòu)化的元數(shù)據(jù),簡化元數(shù)據(jù)模型。第四種方法是構(gòu)建一個非結(jié)構(gòu)化數(shù)據(jù)資產(chǎn)體系,把數(shù)據(jù)融合到數(shù)據(jù)資產(chǎn)管理當(dāng)中,通過對廢棄化數(shù)據(jù)資產(chǎn)進行智能化的標(biāo)簽識別管理。

圖片

數(shù)據(jù)標(biāo)準(zhǔn)的映射在承接數(shù)據(jù)標(biāo)準(zhǔn)之后,很容易把它映射到具體的數(shù)據(jù)項當(dāng)中。

圖片

在過往的很多數(shù)據(jù)類的項目當(dāng)中,很多企業(yè)都進行過數(shù)據(jù)質(zhì)量的相關(guān)管控,其中的重點是能夠把 PDCA 的整個閉環(huán)做好,從需求開始到最終形成規(guī)則去檢查,然后自動化地去調(diào)度執(zhí)行,形成對應(yīng)的知識庫。

圖片

另外管理標(biāo)準(zhǔn)和質(zhì)量現(xiàn)在比較火的一個方向是主動的數(shù)據(jù)治理,首先在數(shù)據(jù)進入的時候,可以自動把數(shù)據(jù)標(biāo)準(zhǔn)和具體的數(shù)據(jù)做關(guān)聯(lián),這個標(biāo)準(zhǔn)可以和建立數(shù)據(jù)模型的對應(yīng)的數(shù)據(jù)項關(guān)聯(lián)起來,之后在數(shù)據(jù)開發(fā)過程當(dāng)中可以去執(zhí)行,執(zhí)行完之后在生產(chǎn)調(diào)度過程當(dāng)中產(chǎn)生的新的數(shù)據(jù),對應(yīng)的標(biāo)準(zhǔn)規(guī)則會自動執(zhí)行對它進行評估。

圖片

另外一個能夠提升標(biāo)準(zhǔn)和質(zhì)量的比較新的一個方式是提供企業(yè)級的數(shù)據(jù)目錄,通過數(shù)據(jù)目錄形成數(shù)據(jù)資產(chǎn)的整個的詳細清單,清單的底層依賴元數(shù)據(jù)去管理數(shù)據(jù),它可以幫助分析師、科學(xué)家還有工程師快速找到他需要的數(shù)據(jù)。

三、典型案例

第三部分是典型案例。客戶本身期望能夠做到數(shù)據(jù)資產(chǎn)化,數(shù)據(jù)能夠大集中,能夠統(tǒng)一的存儲和計算,能夠有一套先進的數(shù)據(jù)架構(gòu),能夠有統(tǒng)一的規(guī)范打通各個業(yè)務(wù)單元,使用的時候能夠進行數(shù)據(jù)化的運營,能夠快速地讓數(shù)據(jù)為業(yè)務(wù)所用。整個項目分成幾個階段。

圖片

首先是滿足業(yè)務(wù)用戶的需要,對應(yīng)的是需要數(shù)據(jù)模型自助地讓業(yè)務(wù)去使用,同時有數(shù)據(jù)標(biāo)準(zhǔn)能夠去規(guī)范數(shù)據(jù)本身。主數(shù)據(jù)對應(yīng)的內(nèi)容能夠讓業(yè)務(wù)人員快速使用,并且業(yè)務(wù)之間、業(yè)務(wù)系統(tǒng)之間主數(shù)據(jù)能夠打通,形成統(tǒng)一的標(biāo)準(zhǔn)。

圖片

在這個項目當(dāng)中我們?yōu)榭蛻糇龅氖虑槭菢?gòu)建了數(shù)據(jù)治理體系。 

圖片

第二個典型案例是數(shù)據(jù)質(zhì)量的提升項目。客戶要求是希望能夠讓數(shù)據(jù)可知、可管、可視,希望能夠提升數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則覆蓋的業(yè)務(wù)領(lǐng)域,實現(xiàn)覆蓋各類營銷等業(yè)務(wù)系統(tǒng),讓集團知道數(shù)據(jù)質(zhì)量的情況,有系統(tǒng)進行自動化的檢查,數(shù)據(jù)質(zhì)量對應(yīng)的指標(biāo)能夠可以及時感知,數(shù)據(jù)指標(biāo)本身能夠洞察業(yè)務(wù)驅(qū)動數(shù)據(jù)價值的變現(xiàn)。

我們細分之后會發(fā)現(xiàn)可以分成這么幾類,第一個是對于單表質(zhì)量的檢測,這是針對 Hive code、 Oracle 等數(shù)據(jù)源類型的數(shù)據(jù)質(zhì)量的監(jiān)控。第二個是對流式數(shù)據(jù)質(zhì)量的檢測,針對 Kafka 類型的數(shù)據(jù)進行檢查。第三個希望能夠進行多表的數(shù)據(jù)比對分析,能夠設(shè)定各種規(guī)則。第四個能夠進行數(shù)據(jù)指標(biāo)的分析。第五個是質(zhì)量的規(guī)則能夠關(guān)聯(lián)內(nèi)置的客戶已有模板,能夠自定義 SQL 的規(guī)則。最后是能夠進行質(zhì)量規(guī)則的合規(guī)校驗,可以通過固定的閾值周期性統(tǒng)計波動的方式來判定目標(biāo)是不是合規(guī)。

圖片

我們提供的數(shù)據(jù)質(zhì)量的監(jiān)控工具,可以提供多表的對比,所以可以針對這個源表和目標(biāo)表的記錄條數(shù),還有具體的數(shù)據(jù)進行比對,可以及時告警發(fā)現(xiàn)問題。第二個具體的問題是數(shù)據(jù)質(zhì)量問題的紅綠燈機制,它的場景是每天都會進行任務(wù)的加工過程,當(dāng)中可能會出現(xiàn)數(shù)據(jù)異常,比如異常如果影響業(yè)務(wù)的話,希望能夠阻斷并告知相關(guān)的責(zé)任人。

圖片

同時這個問題的處理希望能夠指派給不同等級的工單,給不同崗位的人去處理,面對這樣的需求,首先我們的工具里面可以設(shè)置強弱規(guī)則,工單系統(tǒng)可以設(shè)定不同的規(guī)則,給不同的人進行處理。

四、問答環(huán)節(jié)

Q1:數(shù)據(jù)質(zhì)量評估的標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量的規(guī)則是什么?

A1:我覺得有好幾個層面,第一個是純粹技術(shù)層面的評估,技術(shù)層面的評估可以去看,比如在這個工具上有了數(shù)據(jù)質(zhì)量的一些要求,這個要求在我們檢查實現(xiàn)的時候,實現(xiàn)的程度是不是滿足了業(yè)務(wù)的需要?第二個是現(xiàn)在圖中展示的,就是當(dāng)一個企業(yè)從組織層面想看一下數(shù)據(jù)質(zhì)量的整個執(zhí)行怎么樣?那它不僅僅是包括技術(shù)內(nèi)容本身,它還包含數(shù)據(jù)質(zhì)量的整個管理有沒有執(zhí)行到位。

Q2:數(shù)據(jù)模型是否屬于數(shù)據(jù)標(biāo)準(zhǔn)的范疇?

A2:是屬于的,我們可以看一下前面的數(shù)據(jù)治理的理論框架,就是數(shù)據(jù)標(biāo)準(zhǔn),它是一個典型的大詞,和建模相關(guān)、和架構(gòu)相關(guān)、和質(zhì)量相關(guān)。當(dāng)我們?nèi)タ磸V義的數(shù)據(jù)標(biāo)準(zhǔn)的時候,它有一些和數(shù)據(jù)治理相似的地方,比如它會要求組織保障上有對應(yīng)的人員,然后還有制度流程有沒有對應(yīng)的規(guī)范。那數(shù)據(jù)模型其實當(dāng)我們把它拆解開來的時候,會發(fā)現(xiàn)這個模型里面,比如主數(shù)據(jù)的,還有因為模型這個概念比較大,主數(shù)據(jù)本身是數(shù)據(jù)標(biāo)準(zhǔn)管理的一個范疇,那主數(shù)據(jù)管理我們對它還會有標(biāo)準(zhǔn)的要求。

Q3:現(xiàn)在有哪些數(shù)據(jù)標(biāo)準(zhǔn)?

A3:數(shù)據(jù)標(biāo)準(zhǔn)這邊有一個分類,如果是一個廣義的數(shù)據(jù)標(biāo)準(zhǔn)的話,會包含很多方面。但是我們看到我們?nèi)ビ懻摷毝⒌氖虑榈臅r候,數(shù)據(jù)標(biāo)準(zhǔn)可以看里面的分類包含我們要對業(yè)務(wù)數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn)的管理,對主數(shù)據(jù)、參考數(shù)據(jù)還有指標(biāo)進行數(shù)據(jù)標(biāo)準(zhǔn)的管理。

Q4:如何對歷史留存的建模或者指標(biāo)進行統(tǒng)一的梳理標(biāo)準(zhǔn)?

A4:剛才我們?nèi)ブv數(shù)據(jù)質(zhì)量的時候,有一個事后管控,就是對存量數(shù)據(jù)進行數(shù)據(jù)標(biāo)準(zhǔn)的管理,最佳的實踐根據(jù)我們過往的經(jīng)驗,其實是我們先選擇。首先我們應(yīng)該有一個對應(yīng)的經(jīng)營管理當(dāng)中的痛點,以這個痛點為抓手,然后我們?nèi)ふ疫@個數(shù)據(jù)所屬的那個主題域,我們可以拿一個小小的主題域作為其中的一個試點,那這樣一種方式是相對而言比較容易落地的方式。

Q5:在啟動數(shù)據(jù)治理項目后如何解決甲方信息部門無法協(xié)調(diào)各業(yè)務(wù)部門,導(dǎo)致各類組織架構(gòu)流程無法落地,只能停留在紙面上的問題?對乙方來說,如果要陪甲方無限度的持續(xù)治理,那項目的周期和成本如何處理?

A5:這個問題是作為乙方經(jīng)常遇到的很常見的問題,我個人的建議最好的解決方式還是甲方自己需要有一個組織的保障。我前面有一部分就是講我們的對于數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量,如果要落地的話,組織保障相應(yīng)的一些類別,我覺得可以參考這里面的內(nèi)容。

首先組織保障是第一位的,是最重要的,那有了這個組織保障我們要選擇,如果說是那種特別大的企業(yè)的話,其實需要有個強有力的數(shù)據(jù)治理的部門,他們需要有非常高的權(quán)威去推動這件事情執(zhí)行落地。然后如果是相對中小型的話,可以選擇聯(lián)邦的這種方式。對于乙方如果要陪甲方無限度地持續(xù)治理項目的周期和成本如何處理?這個問題比較難以回答,我覺得最關(guān)鍵的其實是把我們的數(shù)據(jù)治理的范圍確定好,甲方是做無限期的持續(xù)數(shù)據(jù)治理的時候,如果出現(xiàn)這樣的問題,那是不是我們在做這個項目的前期沒有把這個邊界梳理得足夠清楚?然后它應(yīng)該是分階段的,然后數(shù)據(jù)治理應(yīng)該伴隨著一個企業(yè)的整個生命周期,所以每個階段只能做每個階段的事情,我覺得最關(guān)鍵應(yīng)該是把我們的整個的每個項目的這個邊界理清楚。

Q6:后續(xù)如果因為業(yè)務(wù)的變更,數(shù)據(jù)的口徑需要更改,是否可以低代碼完成維護操作?

A6:像這類問題的話其實是可以解決,有一類工具它可以做到數(shù)據(jù)指標(biāo)的可視化的管理。然后在這個數(shù)據(jù)指標(biāo)的定義過程當(dāng)中去設(shè)定口徑的時候,如果說需要更改,那可以在這類工具上進行更改,更改之后他會把所有歷史數(shù)據(jù)進行一個重算,通過這種方式就可以實現(xiàn)低代碼的方式完成工作。

Q7:從整個數(shù)據(jù)治理的理論,所謂治理的工作無法界定工作邊界,比如一個系統(tǒng)有 1000 張表,對其中關(guān)鍵表做數(shù)據(jù)質(zhì)量的治理,或者對所有表進行治理,其工作量是完全不同的。而一個項目的預(yù)算是有邊界的,如何去界定數(shù)據(jù)的項目在界定數(shù)據(jù)治理范圍后,如何在項目結(jié)束時給需求方展示數(shù)據(jù)治理的實際價值?

A7:您問的這個問題非常好,治理一張表和千張表確實工作量是完全不一樣的,所以我們真正去落地數(shù)據(jù)治理項目的時候,需要在確定邊界的時候,最好的一個邊界的點就是如何給需求方展示數(shù)據(jù)治理的這個價值。所以我們?nèi)右粋€數(shù)據(jù)治理的項目,第一個就是要找到這個經(jīng)營管理當(dāng)中的痛點,可以尋找其中的一個主題域,甚至說找到一個主題域當(dāng)中的一部分的關(guān)心的業(yè)務(wù)問題,先解決這一部分?jǐn)?shù)據(jù)的這個問題。所以這個是一個關(guān)鍵,就是我們從主題域的角度出發(fā)這個數(shù)據(jù)這個項目,還有要解決這個具體的經(jīng)營管理當(dāng)中的一些痛點問題。

Q8:數(shù)據(jù)質(zhì)量管理的效果如何評估?

A8:管理的效果的話,這邊有一個給大家的一個示例可以看一下,比如我們?nèi)ピu估這個數(shù)據(jù)質(zhì)量的管理效果的話,這四個維度偏向于管理維度,那我們可以增加一個維度,就是數(shù)據(jù)質(zhì)量真正解決了問題業(yè)務(wù)問題的不是業(yè)務(wù)痛點的個數(shù),所以這些結(jié)合起來的話就可以去評估管理的效果。

Q9:數(shù)值標(biāo)準(zhǔn)和質(zhì)量有什么技術(shù)壁壘嗎?

A9:我覺得數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量最關(guān)鍵的點可能不是技術(shù)壁壘,最關(guān)鍵點應(yīng)該是我們經(jīng)營管理當(dāng)中對于標(biāo)準(zhǔn)和質(zhì)量的一個要求,找到這個突破點。然后另外的關(guān)鍵就是對應(yīng)的執(zhí)行過程當(dāng)中要把它形成一個閉環(huán),那這個閉環(huán)其中對標(biāo)準(zhǔn)和質(zhì)量的這個工具會有大量的這個定制化的一個要求。那這個定制化的要求怎么實現(xiàn)?我覺得可能是一個甲方企業(yè)需要去考慮的問題,因為它牽扯到供應(yīng)商提供的一定是一個標(biāo)準(zhǔn)化的工具,所以我們這個甲方企業(yè)如何去把這一些我們的個性化的一些規(guī)則變成通用工具,在上面可以運轉(zhuǎn)的這個規(guī)則盡量覆蓋質(zhì)量的問題。我覺得是我們這數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)量這兩個主題最關(guān)鍵需要解決的問題。

Q10:元數(shù)據(jù)能否自動抽取和管理?

A10:其實這個是可以的,就是所有的數(shù)據(jù)的集成工具要能夠從源端去抽取數(shù)據(jù),首先要識別它的源數(shù)據(jù),所以元數(shù)據(jù)本身也是可以使用同類的工具去識別、抽取和管理的。

責(zé)任編輯:姜華 來源: DataFunTalk
相關(guān)推薦

2023-09-15 10:33:41

算法數(shù)據(jù)結(jié)構(gòu)

2024-09-23 20:11:47

2016-12-16 11:56:56

大數(shù)據(jù)數(shù)據(jù)科學(xué)

2009-03-19 09:53:00

IPTV多媒體網(wǎng)絡(luò)

2020-08-24 17:08:40

華為云

2023-11-03 13:41:16

數(shù)據(jù)技術(shù)

2018-08-07 15:31:32

2021-01-13 08:00:00

數(shù)據(jù)清理存儲技術(shù)

2023-10-13 10:19:13

2024-09-29 18:54:31

數(shù)據(jù)飛輪社交行業(yè)應(yīng)用

2018-05-29 09:38:40

大數(shù)據(jù)金融行業(yè)銀行業(yè)

2024-02-20 11:44:41

人工智能AI數(shù)據(jù)質(zhì)量

2025-02-10 10:06:18

2024-09-24 10:25:45

2017-10-25 13:04:10

數(shù)據(jù)可視化信息可視化數(shù)據(jù)圖表

2024-01-24 15:48:35

2021-08-30 19:01:49

數(shù)據(jù)開發(fā)模式

2025-01-22 08:19:34

2017-06-10 11:13:39

數(shù)據(jù)庫架構(gòu)數(shù)據(jù)庫集群

2021-03-22 15:23:53

人工智能機器學(xué)習(xí)數(shù)據(jù)挖掘
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 羞羞在线观看视频 | 欧美精品久久久久 | 亚洲资源在线 | 亚洲一区二区三区久久久 | 1204国产成人精品视频 | 久久精品视频在线观看 | 日韩亚洲一区二区 | 北条麻妃一区二区三区在线视频 | 91在线精品秘密一区二区 | 玖玖综合在线 | 国产精品一区二区免费看 | 国产精品精品视频一区二区三区 | 极品粉嫩国产48尤物在线播放 | 羞羞视频免费在线 | 中文字幕日韩一区 | 国产成人高清视频 | 欧美精品在线播放 | 伊人婷婷 | 亚洲欧美一区二区三区国产精品 | 天天综合国产 | 成年人在线观看视频 | 亚洲成人精品 | 日韩欧美一区二区三区免费看 | 久久av一区二区三区 | 精品精品 | 一区二区三区视频在线 | 免费在线观看一区二区 | 成人三级电影 | 久久亚洲一区二区 | 午夜小视频在线播放 | 国产成人小视频 | 国产精品中文字幕在线播放 | 国产精品99久久久久久久久久久久 | 欧美极品在线观看 | 成人久久久 | 麻豆一区二区三区 | 最近中文字幕第一页 | 麻豆一区一区三区四区 | 久久久久黄色 | 亚洲成人久久久 | 操操操日日日 |