企業面臨哪些數據湖管理挑戰?
成功的數據治理方案涉及部署策略、標準和流程,以在整個企業中有效正確地利用高質量數據。如果你的企業具有數據湖環境,并希望從中獲得高質量的分析結果,則你需要部署正確數據湖治理,作為整體治理計劃的一部分。
但數據湖給企業數據管理的方方面面都帶來挑戰,包括數據治理。在開始討論治理挑戰前,我們有必要定義什么是數據湖:一種可容納大量原始數據的數據平臺,這些數據通常以其本機格式保留,直到需要用于分析。
傳統的數據倉庫將數據存儲在關系表中,而數據湖則使用平面結構。每個數據元素被分配唯一標識符,并用一組元數據標簽進行標記。這就是說,數據湖沒有數據倉庫那么結構化。在訪問數據進行分析時,數據會被分類和整理,而不是在將數據加載到數據湖中時。
有效的數據治理使企業能夠提高數據質量和一致性,并很大程度地利用數據進行業務決策,從而可以改善業務規劃和財務績效。數據治理的配套數據管理學科包括數據質量、元數據管理和數據安全性,所有這些因素都影響到數據湖治理。
現在,讓我們看看下面5個數據湖部署中的數據治理挑戰。
1.識別和維護正確的數據源
在很多數據湖部署中,源元數據沒有被獲取或根本不可用,這使得數據湖內容的有效性令人質疑。例如,可能未列出記錄系統或數據集的業務所有者,或者顯然冗余數據可能會給數據分析人員造成問題。至少應記錄數據湖中所有數據的源元數據,并使用戶可以使用它來了解其出處。
2.元數據管理問題
元數據為數據集內容提供背景信息,并且是使數據在應用程序中易于理解和可使用的重要組件。但是很多數據湖部署忽略了對收集的數據應用正確數據定義的需求。而且,由于原始數據通常被加載到數據湖中,很多企業沒有采取步驟來驗證數據或對其應用企業數據標準。缺少適當的元數據管理使得數據湖中的數據對分析的用處不大。
3.在數據治理和數據質量方面缺乏協調性
不協調的數據湖治理和數據質量工作會導致劣質數據進入數據湖。當這些數據用于分析并驅動業務決策時,這可能導致結果不準確,從而導致喪失對數據湖的信心以及整個企業對數據普遍不信任。有效的數據湖部署需要數據質量分析師和工程師與數據治理團隊及數據管理員密切合作,以部署數據質量策略、分析數據并采取必要的措施來提高其質量。
4.在數據治理和數據安全方面缺乏協調性
在這種情況下,如果數據安全標準和策略未被正確納入治理流程中,可能會導致無法訪問受隱私法規和其他類型的敏感數據保護的個人數據。盡管數據湖旨在成為相當開放的數據源,但仍需要安全性和訪問控制措施,并且,數據治理和數據安全團隊應攜手完成數據湖設計和加載過程,以及持續的數據治理工作。
5.使用相同數據湖的業務部門之間的沖突
不同部門對于相似數據可能具有不同的業務規則,這可能導致無法協調數據差異以進行準確的分析。完善的數據治理方案應具有對數據策略、標準、流程和定義的企業視角,包括企業業務詞匯表,這可減少多個業務部門使用同一數據湖時出現的問題。如果企業有多個數據湖,則每個數據湖都應包含在數據湖治理流程中,并為其分配業務數據管理員。 總之,通過在數據湖的設計、加載和維護過程中加入強大的數據治理、元數據管理、數據質量和數據安全流程,并由所有這些領域的經驗豐富的專業人員積極參與,可顯著提高數據湖的價值。否則,你的數據湖可能會變成數據沼澤。