在數據治理方面,我們仍處于狂野的“西部世界”
GDPR和CCPA等數據隱私法本應遏制大數據繁榮時期的過度行為,并引導我們進入數據文明的新時代。然而數據集成提供商StreamSets表示,情況并非如此,該公司表示,在數據治理方面,我們仍然生活在“狂野的西部”。
盡管GDPR和CCPA(后來被CPRA取代)已經分別阻止了歐盟和加利福尼亞州一些最公然的侵犯數據隱私和安全的行為,但這些法律(以及其他國家的其他類似法律)并沒有影響到世界各地數萬家正在收集、,存儲和處理數據的機構組織。
StreamSets的一份題為《從混亂中創造秩序:數據狂野西部的治理》的報告稱,盡管有新的法律,但許多因素導致了建立堅實的數據治理文化和實踐的困難。
一年多前被Software AG收購的StreamSets調查了來自美國、英國、德國、法國、西班牙、意大利和澳大利亞大型企業的約650名數據決策者和從業者,以收集有關該領域數據治理情況的數據。這一結果將數據治理歸咎于一些常見的“罪魁禍首”,但也揭示了成功的新障礙。
例如,54%的受訪者表示,跨本地和多個云環境的去中心化數據環境促成了“數據狂野的西部”。另有一小部分(57%)表示,數據供應鏈的碎片化“使他們的組織更難理解、管理和管理數據”。
StreamSets發現企業聲稱擁有的數據治理功能類型與他們在系統中實現的實際功能之間的差距。例如,調查顯示,71%的受訪者表示“他們有信心對自己的數據進行完全的可見性控制。”
然而,調查發現,StreamSets在其報告中表示,“44%的組織無法維護治理和自動化數據的策略控制,42%的組織無法執行一致的安全措施,這是一個明顯的漏洞。”
該公司表示,缺乏對數據管道的可見性會增加其他數據安全問題的風險。“研究表明,48%的企業無法看到數據何時在多個系統中使用,40%的企業無法確保數據是從最佳來源提取的。”報告說,“此外,54%的人不能將管道與數據目錄集成,57%的人不能把管道集成到數據結構中。”
誰負責清理數據混亂?這是另一個有點模糊的區域。大約一半(47%)的StreamSets調查受訪者表示,集中的IT團隊負責管理數據。然而,18%的人表示,業務線承擔主要責任,而在35%的情況下,業務線由業務和IT部門分擔。
StreamSets第二項調查突顯了在現代企業中運行數據管道的困難。許多公司有數千條數據管道在使用,很難按照業務要求的速度構建、管理和維護這些管道。
StreamSets在《揭開隱藏的數據集成問題的蓋子》一書中表示:“對數據的需求高于大多數技術團隊提供數據的能力。”該書基于上述相同的調查。“超過一半(59%)的受訪者表示,數字化轉型優先事項的加速給數據供應鏈帶來了重大挑戰。”
盡管在ETL/ELT、數據轉換和數據管道構建方面取得了進展,但格式不一致的數據倉庫的快速擴展意味著,通常需要訓練有素的數據工程師的專業知識來構建一次性(定制)數據管道。這些數據工程師根本無法滿足需求。
因此,68%的數據領導者表示數據摩擦“阻礙了他們以業務要求的速度交付數據”,或者65%的人表示“數據復雜性和摩擦可能會對數字化轉型產生嚴重影響”,這并不奇怪。盡管已經制定了法律,防止消費者遭受一些最嚴重的數據隱私和安全濫用,但事實仍然是,許多企業內部的數據管理仍然很差。15年前引發大數據現象的因素——數據量爆炸、數據速度上升和準確性存疑——自那以后,其規模只會越來越大。
這些年來,數據管理工具已經稍微好了一些。數據網格(data mesh)和數據經緯(data fabric)等體系結構有所幫助,數據目錄、ETL/ELT、數據轉換和數據可觀察性的增量增強在許多情況下幫助我們跟上了變化的步伐。但很明顯,還有很多工作要做,離實現大數據完全治理還有一段路要走。