聯(lián)通數(shù)科基于一體化數(shù)據(jù)平臺(tái)的元數(shù)據(jù)管理實(shí)踐
一、背景和挑戰(zhàn)
1. 數(shù)據(jù)要素發(fā)展背景下的數(shù)據(jù)平臺(tái)工具現(xiàn)狀
近年來,我國(guó)對(duì)“數(shù)據(jù)”的戰(zhàn)略地位日益提升,從將其定位為“國(guó)家基礎(chǔ)性戰(zhàn)略資源”、“關(guān)鍵生產(chǎn)要素”,到國(guó)家數(shù)據(jù)局成立后發(fā)布的“數(shù)據(jù)要素三年行動(dòng)計(jì)劃”,都顯示了對(duì)數(shù)據(jù)重視程度的不斷增強(qiáng)。這不僅更準(zhǔn)確地體現(xiàn)了數(shù)據(jù)的業(yè)務(wù)和經(jīng)濟(jì)價(jià)值,也提高了對(duì)市場(chǎng)主體在數(shù)據(jù)管理方面的要求。目標(biāo)是在龐大的市場(chǎng)規(guī)模、海量數(shù)據(jù)資源和多樣化應(yīng)用場(chǎng)景中,充分發(fā)揮數(shù)據(jù)的乘數(shù)效應(yīng),推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展。在不斷地探索和實(shí)踐中,數(shù)據(jù)的標(biāo)準(zhǔn)定義也日益明確。
廣義上,數(shù)據(jù)是任何形式記錄的信息,包括電子或其他方式。它經(jīng)過采集、治理、整合等治理分析過程,轉(zhuǎn)化為“數(shù)據(jù)資源”。那些能夠帶來經(jīng)濟(jì)利益或其成本能夠可靠計(jì)量的數(shù)據(jù)資源,被定義為“數(shù)據(jù)資產(chǎn)”,未來可進(jìn)行會(huì)計(jì)入表或交易。目前,市場(chǎng)正處于數(shù)據(jù)資源管理的階段,必須夯實(shí)基礎(chǔ),為數(shù)據(jù)資產(chǎn)的入表和交易等后續(xù)工作打下堅(jiān)實(shí)基礎(chǔ)。
2. 聯(lián)通數(shù)科一體化數(shù)據(jù)平臺(tái)所獲認(rèn)可與榮譽(yù)
聯(lián)通數(shù)科一體化數(shù)據(jù)資產(chǎn)管理平臺(tái)獲得了非常多的認(rèn)可與榮譽(yù),包括工信部、環(huán)保部、DAMA 等頒發(fā)的獎(jiǎng)項(xiàng)。2023 年數(shù)字資產(chǎn)管理大會(huì)的《數(shù)據(jù)治理產(chǎn)業(yè)圖 2.0》中,我們有 12 項(xiàng)能力入選圖譜。在 2023 年的信通院組織的元數(shù)據(jù)管理平臺(tái)專項(xiàng)評(píng)測(cè)里,我們的一體化數(shù)據(jù)資產(chǎn)管理平臺(tái)下的元數(shù)據(jù)管理模塊也是首家首批通過專項(xiàng)評(píng)測(cè)的平臺(tái)工具。
3. 元數(shù)據(jù)管理的挑戰(zhàn)與解法
針對(duì)于元數(shù)據(jù)管理,我們面臨以下挑戰(zhàn):
(1)操作層面
元數(shù)據(jù)實(shí)施或者運(yùn)維的過程中,實(shí)施人員面臨“找不到、讀不懂、操作難”的問題。“找不到、讀不懂”是元數(shù)據(jù)本身要解決的最核心問題,“操作難”是因?yàn)閭鹘y(tǒng)的元數(shù)據(jù)管理工具過多地依賴于人工操作。為了減少人力成本投入、提高元數(shù)據(jù)的準(zhǔn)確性,需要將這部分能力進(jìn)行自動(dòng)化,減少分人工操作的復(fù)雜性。
(2)管理層面
從整個(gè)數(shù)據(jù)治理管理過程角度,元數(shù)據(jù)面臨著“對(duì)接難,存儲(chǔ)難,見效難”的問題。“對(duì)接難”指如何對(duì)多源資源進(jìn)行統(tǒng)一接入及管理;“存儲(chǔ)難”指的是大量數(shù)據(jù)占據(jù)大量的存儲(chǔ)計(jì)算資源,資源的耗費(fèi)如何通過元數(shù)據(jù)管理進(jìn)行生命周期的控制,降低資源的浪費(fèi);“見效難”指的是元數(shù)據(jù)如何去產(chǎn)生價(jià)值,能夠體現(xiàn)出效用。
針對(duì)上述問題,我們采取了自動(dòng)化、鏈接+、智能化三個(gè)解法。
(1)自動(dòng)化
減少人工的操作,目前元數(shù)據(jù)管理平臺(tái)部署之后,只需要很少的人工操作,就能夠?qū)⒄麄€(gè)平臺(tái)跑起來,并且后續(xù)也不需要進(jìn)行定期的維護(hù),只需要在發(fā)生問題的時(shí)候進(jìn)行核驗(yàn)和排查。
(2)鏈接+
基于一體化平臺(tái)內(nèi)的多個(gè)模塊,與元數(shù)據(jù)平臺(tái)進(jìn)行連接,共同對(duì)平臺(tái)數(shù)據(jù)管理過程進(jìn)行賦能。同時(shí)支持對(duì)接其它外部管理模塊與平臺(tái)進(jìn)行鏈接,提供標(biāo)準(zhǔn)的對(duì)接方式。
(3)智能化
基于大模型、數(shù)據(jù)虛擬化等技術(shù)進(jìn)行探索,將平臺(tái)變得更智能、更好用。
二、探索與實(shí)踐
接下來介紹我們基于上述三個(gè)解法開展的具體的探索與實(shí)踐。
1. 聯(lián)通數(shù)科數(shù)據(jù)資源管理現(xiàn)狀
一體化平臺(tái)基于聯(lián)通數(shù)科內(nèi)部的需求進(jìn)行研發(fā),主要在公司內(nèi)部進(jìn)行使用。內(nèi)部500 + 數(shù)據(jù)庫(kù)、2.3 萬 + 張表、200 萬 + 字段、2000 + 數(shù)據(jù)節(jié)點(diǎn),都是通過一體化平臺(tái)進(jìn)行管理的,日均數(shù)據(jù)量達(dá)到 500 TB 級(jí)別。
此外我們對(duì)于平臺(tái)進(jìn)行了一系列產(chǎn)品化的工作,并拓展了一些外部項(xiàng)目。平臺(tái)內(nèi)的數(shù)據(jù)服務(wù)了 1000 + 家政企客戶,并且基于一體化平臺(tái),交付了 50 多個(gè)外部項(xiàng)目,其中包括 20 + 省部級(jí)以上的項(xiàng)目,所以我們對(duì)于元數(shù)據(jù)管理具備較強(qiáng)的實(shí)施及使用經(jīng)驗(yàn)。
2. 一體化元數(shù)據(jù)管理整體流程
在元數(shù)據(jù)管理流程中,我們主要關(guān)注三類元數(shù)據(jù):業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和管理元數(shù)據(jù)。流程的起點(diǎn)是建立數(shù)據(jù)標(biāo)準(zhǔn),以此為基礎(chǔ)構(gòu)建邏輯模型,這些活動(dòng)都屬于業(yè)務(wù)元數(shù)據(jù)的構(gòu)建階段。在構(gòu)建邏輯模型的同時(shí),我們補(bǔ)充和整理業(yè)務(wù)元數(shù)據(jù),為后續(xù)的采集和展示做準(zhǔn)備。
隨著邏輯模型的物化,我們進(jìn)入技術(shù)元數(shù)據(jù)的處理階段,創(chuàng)建物理模型。數(shù)據(jù)通過采集、加工計(jì)算等步驟進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),這是在線事務(wù)處理(OLTP)的過程。在這個(gè)過程中,物理模型、數(shù)據(jù)采集任務(wù)、數(shù)據(jù)加工任務(wù)等信息作為技術(shù)元數(shù)據(jù)被納入元數(shù)據(jù)管理平臺(tái)。
在數(shù)據(jù)倉(cāng)庫(kù)建設(shè)過程中,我們對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)質(zhì)量稽核,并將稽核結(jié)果作為技術(shù)元數(shù)據(jù)存儲(chǔ)。此外,在線分析處理(OLAP)過程中的數(shù)據(jù)指標(biāo)構(gòu)建、標(biāo)簽構(gòu)建、BI 看板構(gòu)建等信息也屬于技術(shù)元數(shù)據(jù)的采集范圍。數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)還可被轉(zhuǎn)換為 API,這些 API 同樣作為技術(shù)元數(shù)據(jù)進(jìn)行統(tǒng)一管理。
元數(shù)據(jù)管理平臺(tái)最終對(duì)數(shù)據(jù)表、數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽、BI 看板、API、數(shù)據(jù)目錄等六大類資源進(jìn)行統(tǒng)一元數(shù)據(jù)采集,覆蓋從數(shù)據(jù)采集到應(yīng)用的全流程過程。
為了進(jìn)一步完善元數(shù)據(jù)管理,我們還與一體化平臺(tái)中的其他模塊對(duì)接,管理元數(shù)據(jù)中的相關(guān)內(nèi)容。例如,我們對(duì)接數(shù)據(jù)表的生命周期管理模塊,將生命周期信息作為管理元數(shù)據(jù)進(jìn)行管理。同時(shí),我們還對(duì)接數(shù)據(jù)表操作日志記錄和數(shù)據(jù)安全分類分級(jí)的產(chǎn)品模塊。
通過這些步驟,我們構(gòu)建了一個(gè)全面的元數(shù)據(jù)管理流程,確保數(shù)據(jù)的準(zhǔn)確性、完整性和可用性。
3. 元數(shù)據(jù)自動(dòng)化管理
元數(shù)據(jù)自動(dòng)化管理的核心目的是減少人工的干預(yù),提升管理效率,并提升元數(shù)據(jù)的準(zhǔn)確性,管理覆蓋元數(shù)據(jù)的采集、管理、質(zhì)量、統(tǒng)計(jì)分析的全過程。
(1)采集
元數(shù)據(jù)采集任務(wù)只需配置相應(yīng)的數(shù)據(jù)表、數(shù)據(jù)庫(kù)等元數(shù)據(jù)信息,設(shè)置采集時(shí)間周期、過濾字段后,系統(tǒng)可以按照設(shè)置的周期自動(dòng)執(zhí)行采集任務(wù)。支持在采集實(shí)例模塊查看每次采集的狀態(tài)(成功或失敗),同時(shí)對(duì)于采集失敗的任務(wù),可以使用日志分析模塊協(xié)助排查問題。
系統(tǒng)支持采集任務(wù)的自動(dòng)啟停,可以一鍵式地對(duì)采集任務(wù)進(jìn)行開關(guān),方便在不需要采集的時(shí)候,隨時(shí)停止采集任務(wù)。
(2)管理
采集好的元數(shù)據(jù)會(huì)自動(dòng)發(fā)布,形成元數(shù)據(jù)目錄。如果元數(shù)據(jù)發(fā)生變化,則可以通過自動(dòng)定版的方式自動(dòng)生成版本號(hào),也可以采用手動(dòng)定版的方式對(duì)版本號(hào)進(jìn)行變更。此外,系統(tǒng)基于每個(gè)用戶的權(quán)限、機(jī)構(gòu)等信息,對(duì)元數(shù)據(jù)的維護(hù)權(quán)限進(jìn)行自動(dòng)控制。
(3)質(zhì)量
對(duì)元數(shù)據(jù)的質(zhì)量校驗(yàn)包括三種校驗(yàn)方式:一致性稽核、完整性稽核和標(biāo)準(zhǔn)覆蓋稽核。一致性稽核指校驗(yàn)不同元數(shù)據(jù)在不同分層或環(huán)境中的變化,并形成分析報(bào)告;完整性稽核指分析元數(shù)據(jù)采集上來之后是否完整;標(biāo)準(zhǔn)覆蓋稽核指元數(shù)據(jù)每個(gè)字段是否關(guān)聯(lián)了數(shù)據(jù)標(biāo)準(zhǔn)。
(4)統(tǒng)計(jì)分析
在質(zhì)量統(tǒng)計(jì)模塊展示質(zhì)量統(tǒng)計(jì)報(bào)告及數(shù)據(jù)分析,用以監(jiān)控元數(shù)據(jù)的質(zhì)量問題,方便對(duì)元數(shù)據(jù)進(jìn)行改善和調(diào)優(yōu)。同時(shí),基于六大類數(shù)據(jù)資源形成分層分域、安全等級(jí)等統(tǒng)計(jì),幫助用戶隨時(shí)明晰平臺(tái)內(nèi)數(shù)據(jù)資源的整體概況。
4. 元數(shù)據(jù)平臺(tái)鏈接+
傳統(tǒng)的元數(shù)據(jù)管理只是對(duì)表進(jìn)行管理,而聯(lián)通數(shù)科內(nèi)部還會(huì)有其它一些內(nèi)容鏈接到元數(shù)據(jù)管理平臺(tái)。鏈接內(nèi)容及方式主要包括:
(1)數(shù)據(jù)資源類
包括表、分析、API、目錄等四類數(shù)據(jù)資源。表類資源包括數(shù)據(jù)模型、集群存儲(chǔ)、邏輯入湖;分析資源包括數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽、BI 看板;API 包括表轉(zhuǎn)服務(wù) API,以及第三方注冊(cè)的API;目錄包括對(duì)外共享、對(duì)外開放的數(shù)據(jù)目錄,也包括數(shù)據(jù)交易、數(shù)據(jù)流通場(chǎng)景中的數(shù)據(jù)目錄等。
(2)任務(wù)調(diào)度類
主要包括通過平臺(tái)執(zhí)行的數(shù)據(jù)采集、數(shù)據(jù)加工、數(shù)據(jù)分析等任務(wù)。對(duì)任務(wù)的 SQL 進(jìn)行解析,提取鏈路信息,獲取任務(wù)執(zhí)行成功或者失敗的情況、執(zhí)行時(shí)間、消耗資源等信息,并接入元數(shù)據(jù)平臺(tái)。
(3)外部系統(tǒng)類
除了一體化平臺(tái)內(nèi)部的信息外,我們?cè)陧?xiàng)目上也探索將外部的系統(tǒng)集成到平臺(tái),比如通過數(shù)據(jù)推送(接口或 Kafka)把對(duì)方的數(shù)據(jù)推過來,或者采取數(shù)據(jù)拉取(JDBC 或?qū)樱┑姆绞剑严到y(tǒng)里面的數(shù)據(jù)統(tǒng)一納入到元數(shù)據(jù)管理平臺(tái)。
鏈接的內(nèi)容接到平臺(tái)里后,首先由元模型管理模塊定義各類數(shù)據(jù)資源應(yīng)該采集的數(shù)據(jù),數(shù)據(jù)采集后落到元模型里面,并產(chǎn)出元數(shù)據(jù)目錄。元數(shù)據(jù)目錄與一體化平臺(tái)內(nèi)部的分類分級(jí)等模塊聯(lián)動(dòng)補(bǔ)齊管理數(shù)據(jù),形成全鏈血緣分析,最終應(yīng)用在資產(chǎn)梳理、流向分析、比對(duì)驗(yàn)證等場(chǎng)景。
5. 全鏈血緣管理
基于“鏈接+”的能力,實(shí)現(xiàn)了全鏈血緣的管理。數(shù)據(jù)從采集到最終應(yīng)用經(jīng)歷多個(gè)步驟,主節(jié)點(diǎn)的上下級(jí)血緣鏈接可能超過 10 層甚至 20 層,如何精確定位數(shù)據(jù)上下游血緣,對(duì)于元數(shù)據(jù)管理非常重要。通過全鏈血緣可以方便清晰地定位問題,避免低效的人工手動(dòng)排查,數(shù)據(jù)治理和開發(fā)過程中的每一步都可以清晰呈現(xiàn)。
全鏈血緣主要包括以下幾個(gè)應(yīng)用場(chǎng)景。
- 應(yīng)用問題定位:這是交付項(xiàng)目中的常見場(chǎng)景,即對(duì)于數(shù)據(jù)應(yīng)用中產(chǎn)生的問題,進(jìn)行字段級(jí)別的回溯定位。過去表級(jí)的回溯只能大概推測(cè)問題發(fā)生在哪兒,而現(xiàn)在引入字段級(jí)回溯,可以精準(zhǔn)定位到具體某一個(gè)字段發(fā)生的問題。
- 影響分析:數(shù)據(jù)變更時(shí)進(jìn)行下游影響查詢,分析下游都有哪些鏈路,進(jìn)行統(tǒng)一查詢,提前對(duì)下游鏈路中可能會(huì)產(chǎn)生的影響進(jìn)行提前的郵件或短信告知。另一方面,如果元數(shù)據(jù)平臺(tái)檢測(cè)到上游表不一致,則可以對(duì)下游的影響表進(jìn)行自動(dòng)預(yù)警。
- 使用度分析:使用度是基于主節(jié)點(diǎn)的下游層級(jí)進(jìn)行判斷,層級(jí)越多則使用度越高;而復(fù)雜度則是找到表的上游的層級(jí),層級(jí)越多則復(fù)雜度越高。通過使用度、復(fù)雜度的排名分析,找到數(shù)據(jù)治理全鏈關(guān)鍵節(jié)點(diǎn)。比如使用度或復(fù)雜度排名前 10% 的表可能是關(guān)鍵節(jié)點(diǎn),需要更多的關(guān)注。
- 孤島定位:應(yīng)用數(shù)據(jù)表加工關(guān)系對(duì)其進(jìn)行疑似數(shù)據(jù)孤島判定,如為孤島數(shù)據(jù)或長(zhǎng)時(shí)間不使用的數(shù)據(jù),則進(jìn)行刪除或冷熱存儲(chǔ)介質(zhì)轉(zhuǎn)換,釋放資源來給其它更為重要的數(shù)據(jù)資源。
6. 數(shù)據(jù)認(rèn)責(zé)及生命周期管理
(1)數(shù)據(jù)認(rèn)責(zé)
傳統(tǒng)的數(shù)據(jù)治理的過程,真正出現(xiàn)問題的時(shí)候,在大組織里邊很難定位到具體應(yīng)該由哪個(gè)人對(duì)問題負(fù)責(zé)。我們基于元數(shù)據(jù)平臺(tái)向上下游進(jìn)行拓展,把所有數(shù)據(jù)資產(chǎn)信息推送到認(rèn)責(zé)系統(tǒng),認(rèn)責(zé)系統(tǒng)對(duì)數(shù)倉(cāng)、數(shù)據(jù)表、數(shù)據(jù)質(zhì)量等信息定義責(zé)任人,包括總負(fù)責(zé)人數(shù)據(jù) owner、技術(shù)負(fù)責(zé)人和業(yè)務(wù)負(fù)責(zé)人,未來如再出現(xiàn)問題,就可以定位到 owner,由 owner 協(xié)調(diào)相應(yīng)的技術(shù)負(fù)責(zé)人和業(yè)務(wù)負(fù)責(zé)人對(duì)數(shù)據(jù)問題進(jìn)行處理,數(shù)據(jù)資源的調(diào)整、變更、更新的權(quán)限由任責(zé)人進(jìn)行推進(jìn)負(fù)責(zé)。
(2)數(shù)據(jù)生命周期
主要是對(duì)數(shù)據(jù)進(jìn)行了冷熱溫分層,基于元數(shù)據(jù)系統(tǒng)結(jié)合相應(yīng)的邏輯規(guī)則,對(duì)數(shù)據(jù)不同分區(qū)進(jìn)行定位。如長(zhǎng)時(shí)間不使用則存入溫?cái)?shù)據(jù)區(qū),如果再長(zhǎng)時(shí)間不使用則轉(zhuǎn)到冷據(jù)區(qū)。冷數(shù)據(jù)區(qū)對(duì)數(shù)據(jù)模型有時(shí)限控制,超出時(shí)限則進(jìn)行刪除,及時(shí)釋放數(shù)據(jù)資源。
三、總結(jié)和展望
1. 元數(shù)據(jù)智能化探索
(1)元數(shù)據(jù)智能分類
基于業(yè)務(wù)元數(shù)據(jù)、管理元數(shù)據(jù)、樣例數(shù)據(jù)等信息及數(shù)據(jù)血緣信息智能判斷元數(shù)據(jù)分層、分域信息,對(duì)元數(shù)據(jù)進(jìn)行智能分類打標(biāo)。
(2)元數(shù)據(jù)智能補(bǔ)齊
通常元數(shù)據(jù)采集會(huì)因?yàn)楦鞣N原因?qū)е略獢?shù)據(jù)不完整,如果采用人工的方式進(jìn)行補(bǔ)齊,則消耗資源比較多,并且人工填寫的準(zhǔn)確性存疑。而通過基于 AIGC 技術(shù)的元數(shù)據(jù)智能補(bǔ)齊能力,將元數(shù)據(jù)補(bǔ)齊工作嵌入元數(shù)據(jù)采集流程,實(shí)現(xiàn)采集過程中的自動(dòng)元數(shù)據(jù)補(bǔ)齊,業(yè)務(wù)人員僅需采集流程結(jié)束后進(jìn)行基本的核對(duì),即可快速、完整地獲取元數(shù)據(jù)信息。
(3)元數(shù)據(jù)智能推薦
基于使用者用戶信息及平臺(tái)中的操作行為,在用戶進(jìn)行元數(shù)據(jù)搜索時(shí),智能推薦用戶感興趣、可能需要查詢的元數(shù)據(jù)信息;在數(shù)據(jù)認(rèn)責(zé)過程中,基于分層分域等信息,智能推薦數(shù)據(jù) owner、技術(shù)負(fù)責(zé)人、業(yè)務(wù)負(fù)責(zé)人。
2. 元數(shù)據(jù)管理助力數(shù)據(jù)資產(chǎn)入表探索
數(shù)據(jù)資產(chǎn)入表、數(shù)據(jù)資產(chǎn)估值和數(shù)據(jù)管理看似是兩個(gè)方向,數(shù)據(jù)管理更偏向技術(shù),數(shù)據(jù)資產(chǎn)入表更偏向于財(cái)務(wù),但實(shí)際上二者也有相輔相成的部分,比如數(shù)據(jù)估值包括成本法、收益法、市場(chǎng)法,在成本法、收益法中,平臺(tái)可以對(duì)數(shù)據(jù)資產(chǎn)入表提供幫助。目前數(shù)據(jù)資產(chǎn)入表多采用咨詢的方式,缺少工具能力助力細(xì)化成本,而元數(shù)據(jù)平臺(tái)可以對(duì)此場(chǎng)景提供幫助。
(1)全量數(shù)據(jù)資產(chǎn)盤點(diǎn)
因?yàn)樵獢?shù)據(jù)管理平臺(tái)本身會(huì)采集全量的資產(chǎn)進(jìn)行管理,所以可以為企業(yè)梳理所有資產(chǎn)提供幫助。
(2)對(duì)成本進(jìn)行可計(jì)量的探索
包括存儲(chǔ)成本、計(jì)算成本、人工成本。計(jì)算成本通過數(shù)據(jù)計(jì)算加工任務(wù)所消耗的 CPU 或者內(nèi)存進(jìn)行核算;人工成本則通過數(shù)據(jù)計(jì)算加工過程中,數(shù)據(jù)治理人員在平臺(tái)進(jìn)行開發(fā)的時(shí)間等信息進(jìn)行核算。
(3)對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估
基于不同數(shù)據(jù)質(zhì)量的情況,作為估值依據(jù)。
(4)數(shù)據(jù)應(yīng)用
包括 API 的調(diào)用情況、數(shù)據(jù)目錄共享的情況,量化數(shù)據(jù)產(chǎn)生價(jià)值,助力數(shù)據(jù)資產(chǎn)評(píng)估。
以上就是本次分享的內(nèi)容,謝謝大家。
四、Q&A
Q1:To B 業(yè)務(wù)如何打通數(shù)據(jù)孤島?由于監(jiān)管要求,很多數(shù)據(jù)是不能明文互通,一體化的元數(shù)據(jù)如何實(shí)現(xiàn)數(shù)據(jù)的隱私的計(jì)算和互聯(lián)互通?
A1:建議采用可信數(shù)據(jù)資源空間的模式,解決的不能明文互通的監(jiān)管要求的,主要是通過多方的隱私計(jì)算或數(shù)據(jù)沙箱方式進(jìn)行數(shù)據(jù)的開發(fā)及利用。
Q2:對(duì)于有自己平臺(tái)的客戶,如何管理元數(shù)據(jù)?
A2:在項(xiàng)目拓展過程中,不可能是要求所有的客戶摒棄以往的平臺(tái),我們需要考慮如何把對(duì)方的平臺(tái)引入進(jìn)來,盡量把拓展的能力做標(biāo)準(zhǔn)化,比如定義好標(biāo)準(zhǔn)化接口,做一些元模型的定義,在盡可能減少開發(fā)資源的情況下,把這部分元數(shù)據(jù)進(jìn)行統(tǒng)一管理。但是這個(gè)過程中需要去看對(duì)方的配合意愿以及程度。
Q3:元數(shù)據(jù)的全鏈血緣囊括的范圍是多大?出倉(cāng)后的數(shù)據(jù)血緣如何推動(dòng)全鏈路的血緣管理?
A3:從數(shù)據(jù)治理整個(gè)流程的角度,只要數(shù)據(jù)進(jìn)入到一體化平臺(tái)內(nèi),即意味著已經(jīng)進(jìn)入全鏈路血緣監(jiān)控的范圍了。全鏈路血緣包括多類資產(chǎn)管理,如表類資產(chǎn)、數(shù)據(jù)指標(biāo)、數(shù)據(jù)標(biāo)簽等,所有的資產(chǎn)都應(yīng)納入管理。數(shù)據(jù)出倉(cāng)后,對(duì)其來源需要納入權(quán)限管理,包括最終的應(yīng)用方。這需要元數(shù)據(jù)管理平臺(tái)提前做好標(biāo)準(zhǔn)化,方便和上下游的廠商或組織機(jī)構(gòu)進(jìn)行打通,將對(duì)方的數(shù)據(jù)或者信息推送給我們進(jìn)行統(tǒng)一管理。