成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

七個流行的開源數據治理工具

開源 大數據
數據治理是一種管理框架,通過定義和實施組織范圍內的數據管理政策、標準和流程,確保數據的準確性、一致性、安全性和合規性。

數字化時代,數據是已經成為最寶貴的資產之一。數據支撐著我們的政府、企業以及各類組織的所有流程,并為決策以及智能化服務提供支撐。大數據有大用途,但是也可能隱藏著巨大的風險,特別是如果我們對數據的情況不是很了解的時候,我們便不能夠掌握到底存儲了什么信息以及如何使用它,在一堆數據中是否存在垃圾數據或者可能被遺忘的高質量數據,甚至是否存在數據安全問題。

因此,我們需要有效地治理數據。

什么是數據治理?

數據治理是一種管理框架,通過定義和實施組織范圍內的數據管理政策、標準和流程,確保數據的準確性、一致性、安全性和合規性。它涉及數據的創建、存儲、使用和銷毀的整個生命周期,旨在最大化數據的價值,降低數據風險,并支持業務決策和運營的有效性。

數據治理相關的概念

在介紹數據治理平臺之前,我們對一些數據治理相關的概念有所了解。

數據治理相關的概念名詞涵蓋了多個領域,從數據管理、數據質量到數據隱私和安全等。以下是一些常見的概念名詞:

  • 數據湖 (Data Lake):一種存儲海量原始數據的系統或存儲庫,數據通常以原生格式存儲,供以后進行分析。數據湖支持結構化、半結構化和非結構化數據的存儲和處理。
  • 數據倉庫 (Data Warehouse):用于整合來自多個來源的數據,通常經過清洗和轉化,存儲在一個中心位置,支持企業的分析和報告需求。數據倉庫更注重結構化數據的長期存儲和優化查詢性能。
  • 數據發現 (Data Discovery):數據發現是識別、瀏覽和分析數據的過程,通常涉及從不同來源收集數據并將其組織和展示給用戶,使其能夠發現有用的模式、趨勢或見解。數據發現工具通常具備強大的可視化功能,以幫助用戶更直觀地理解數據。
  • 元數據管理 (Metadata Management):管理描述數據的數據,即元數據,包括數據的來源、使用方式、格式等信息。
  • 數據目錄 (Data Catalog):數據目錄是一個集中的存儲庫,用于組織和管理數據資產的元數據。它提供了數據資產的描述性信息,使用戶能夠輕松查找和理解他們需要的數據。數據目錄通常包括數據的來源、位置、格式、使用說明、數據質量信息等,并支持數據的分類、標記和搜索功能。數據目錄的目的是提高數據可發現性和可用性,幫助組織更高效地管理和利用數據資源。
  • 數據質量 (Data Quality):確保數據準確性、一致性、完整性和及時性的過程。
  • 數據血緣 (Data Lineage):描述數據在其生命周期中從源頭到最終目的地的流動和變更的跟蹤。數據血緣圖幫助理解數據的來源、傳遞路徑、變換過程,以及這些過程中的責任歸屬。
  • 數據清洗 (Data Cleansing or Data Cleaning):識別并修復或刪除數據集中的錯誤、重復、不完整或不一致數據的過程。數據清洗是確保數據質量的關鍵步驟。
  • 數據治理框架 (Data Governance Framework):數據治理框架是用于定義和實施數據治理的結構性模型,通常包括政策、流程、角色和職責、技術工具等,以確保組織內的數據管理實踐一致、可控和有效。
  • 數據治理策略 (Data Governance Strategy):數據治理策略是組織為實現其數據治理目標而制定的總體計劃,包含具體的目標、方法和實施步驟。
  • 數據安全分類 (Data Security Classification):根據數據的敏感度和價值,將數據劃分為不同的安全級別,以確定適當的保護措施。例如,數據可以分為公開、內部使用、保密和高度機密等類別。
  • 數據訪問管理 (Data Access Management):管理誰可以訪問哪些數據以及他們可以對數據執行的操作。數據訪問管理通過權限控制和角色管理,確保數據的安全和合規。
  • 數據治理工具集 (Data Governance Toolkit):包括一組用于支持數據治理活動的工具和技術,例如元數據管理工具、數據質量管理工具、數據血緣工具、數據目錄工具等。
  • 數據隱私影響評估 (Data Privacy Impact Assessment, DPIA):在處理個人數據之前進行的一種評估,目的是識別和減輕數據處理活動對數據隱私的潛在風險。DPIA通常在合規要求下進行,特別是涉及GDPR等法規。
  • 數據主權管理 (Data Sovereignty Management):管理與數據主權相關的法規和政策,確保數據處理和存儲符合所在國家或地區的法律要求。
  • 主數據管理 (Master Data Management, MDM):集中管理核心業務實體(如客戶、產品、供應商等)的主數據,確保數據一致性和準確性。
  • 數據架構 (Data Architecture):數據在組織中結構化和組織方式的設計與實施。
  • 數據生命周期管理 (Data Lifecycle Management, DLM):管理數據從創建、存儲、使用、到銷毀的整個生命周期的流程和策略。
  • 數據隱私 (Data Privacy):保護個人數據不被未經授權的訪問和處理的實踐與法律要求。
  • 數據安全 (Data Security):保護數據免受未經授權的訪問、泄露、修改或銷毀的措施和技術。
  • 數據主權 (Data Sovereignty):數據受其所在國家或地區的法律和政策的約束。
  • 數據治理委員會 (Data Governance Committee):負責監督和指導組織內數據治理工作的跨職能團隊。
  • 數據治理政策 (Data Governance Policy):為組織內數據治理提供指導方針和框架的正式文檔。
  • 數據分類 (Data Classification):根據數據的敏感性、重要性等因素對數據進行分類,以便制定適當的管理和保護措施。
  • 數據所有權 (Data Ownership):明確哪些部門或個人對特定數據資產負責。
  • 數據標準 (Data Standards):確保數據一致性和互操作性的規則和指南。
  • 數據治理工具 (Data Governance Tools):支持數據治理實施和管理的軟件工具和平臺,如Informatica、Collibra等。

數據治理的組成有哪些?

從系統的角度看,數據治理有10個重要組成,用于滿足組織在每個知識領域的數據管理需求。

圖片

(1) 人

數據治理專業人員、數據管理員和其他關鍵業務和IT人員是數據治理計劃的骨干。他們建立和開發工作流程,以確保滿足企業數據治理要求。

(2) 數據戰略

數據治理團隊在組織的企業數據戰略的開發和實施路線圖中起著至關重要的作用。數據戰略是一個執行文檔,它提供了企業對數據的高層次需求,并確保這些需求得到滿足。建立企業數據戰略是組織數據管理之旅的重要一步。

(3) 數據流程

數據治理計劃需要建立數據管理的關鍵數據流程。這些包括數據問題跟蹤或解決、數據質量監控、數據共享、數據沿襲跟蹤、影響分析、數據質量測試等。

(4) 數據政策

數據策略是一個或多個聲明的高級集合,這些聲明陳述了對數據的期望和預期結果,這些數據會影響和指導企業級別的數據習慣。數據治理計劃為數據管理建立數據治理策略。政策包括出站數據共享、遵守法規等。

(5) 標準和規則

數據標準提供了一個框架和方法,以確保遵守數據策略。數據規則指導或約束行為,以確保遵守數據標準,從而提供數據策略的合規性。

(6) 數據安全

數據安全涉及保護數字數據(如數據庫中的數據)免受授權和未授權用戶的破壞性力量和不必要的操作。這些不受歡迎的用戶活動指的是間諜活動、網絡攻擊或數據泄露。

(7) 溝通

數據治理溝通包括與需要了解數據治理團隊活動的協會受眾進行的所有書面、口頭和電子交互。溝通計劃包括所有溝通的目的、目標和工具,從一開始就應該是治理計劃的一部分。該計劃確定了如何向各利益攸關方和組織的其他人員介紹治理和管理方面的挑戰和成功經驗。溝通計劃突出正確的業務案例并展示其結果。

(8) 社會化

數據治理的社會化是任何治理計劃中的重要活動。數據治理社會化計劃是一個幫助將數據治理活動集成到組織的策略、內部文化、層次結構和流程中的計劃。該計劃是該組織所獨有的,因為它是根據其組織文化和行為標準量身定制的。

(9) 業務指標和KPI指標

建立業務指標和關鍵性能指標(KPI)來監控和衡量數據治理計劃的總體業務影響,這對于計劃的成功至關重要。指標和KPI必須是可測量的,可以隨時間跟蹤,并且每年都以相同的方式進行測量。

(10) 技術支撐

執行數據治理計劃需要各種技術支撐,包括框架、工具等,用于使流程自動化。

數據治理的關鍵要素

從關鍵技術功能的角度看,數據治理的關鍵要素包括:

  • 數據目錄:集中存儲組織內的元數據,幫助用戶快速發現和理解所需數據,提升數據管理效率,減少冗余,確保適當的訪問控制。
  • 數據質量:確保數據準確性、完整性和新鮮度,支持可靠的數據驅動決策,是數據治理的核心要素。
  • 數據分類:根據數據的敏感性和價值進行分類,便于應用合適的安全措施,降低風險,確保數據質量和保護。
  • 數據安全:通過訪問控制保護敏感數據,防止未經授權的訪問,確保數據安全和法規遵從,增強客戶信任。
  • 審計數據權利和訪問:通過有效的數據訪問審計,識別并防范未授權訪問,減少數據濫用風險,確保合規性。
  • 數據血緣:追蹤數據的來源和流動,確保數據質量,支持合規性和可信度,減少審計和調試工作量。
  • 數據發現:幫助團隊快速定位和利用數據資產,促進協作和創新,避免數據重復,提升數據利用效率。
  • 數據共享和協作:安全地在內部和外部團隊之間交換數據,控制敏感信息的使用,支持數據驅動的創新和合規性。

開源數據治理工具

在開源領域有哪些比較出名的數據治理工具呢?

1.OpenMetadata

https://github.com/open-metadata/OpenMetadata

開發語言:TypeScript、Java、Python

OpenMetadata是一個統一的元數據平臺,用于數據發現、數據可觀察和數據治理,由中央元數據存儲庫、深入的列級沿襲和無縫的團隊協作提供支持。OpenMetadata基于開放元數據標準和API,支持連接到各種數據服務的連接器,支持端到端元數據管理,讓您可以自由釋放數據資產的價值。

OpenMetadata主要由四個組件組成:

  • 元數據模式:基于公共抽象和類型的元數據的核心定義和詞匯表。還支持自定義擴展和屬性,以適應不同的用例和域。
  • 元數據存儲區:用于存儲和管理元數據圖的中央存儲庫,它以統一的方式連接數據資產、用戶和工具生成的元數據。
  • 元數據API:用于生成和使用元數據的接口,構建在元數據模式之上。它們支持用戶界面和工具、系統和服務與元數據存儲的無縫集成。
  • 攝取框架:這是一個可插入的框架,用于將元數據從各種源和工具攝取到元數據存儲。它支持大約75個連接器,用于數據倉庫、數據庫、儀表板服務、消息傳遞服務、管道服務等。

總體架構如下圖所示:

OpenMetadata的主要特點包括:

  • 數據發現:使用各種策略(如關鍵字搜索、數據關聯和高級查詢)在單個位置查找和探索所有數據資產。您可以跨表、主題、儀表板、管道和服務進行搜索。
  • 數據協作:與其他用戶和團隊就數據資產進行溝通、匡威和協作。您可以獲取事件通知、發送警報、添加通知、創建任務以及使用會話線程。
  • 數據質量和分析器:測量和監控質量,無需代碼,以建立對數據的信任。您可以定義和運行數據質量測試,將它們分組到測試套件中,并在交互式儀表板中查看結果。借助強大的協作,讓數據質量成為您組織的共同責任。
  • 數據治理:在整個組織中實施數據策略和標準。您可以定義數據域和數據產品,分配所有者和利益相關者,并使用標記和術語對數據資產進行分類。使用強大的自動化功能對數據進行自動分類。
  •  數據洞察和KPI:使用報告和平臺分析來了解組織的數據運行情況。Data Insights提供了所有關鍵指標的單一窗格視圖,以最佳地反映數據的狀態。定義關鍵性能指標(KPI)并在OpenMetadata中設定目標,以實現更好的文檔、所有權和分層。可以針對要在指定計劃中接收的KPI設置警報。
  • 數據血緣跟蹤:端到端跟蹤和可視化數據資產的來源和轉換。您可以使用無代碼編輯器手動查看列級沿襲、過濾查詢和編輯沿襲。
  • 數據文檔:使用富文本、圖像和鏈接記錄數據資產和元數據實體。您還可以添加注釋和批注,并生成數據字典和數據目錄。
  • 數據可觀察性:監控數據資產和管道的運行狀況和性能。您可以查看數據新鮮度、數據量、數據質量和數據延遲等指標。您還可以為任何異常或故障設置警報和通知。
  • 數據安全:使用各種身份驗證和授權機制保護數據和元數據。您可以與不同的身份提供者集成以實現單點登錄,并定義訪問控制的角色和策略。Webhooks:使用Webhooks與外部應用程序和服務集成。您可以注冊URL以接收元數據事件通知,并與Slack、Microsoft Teams和Google Chat集成。
  • 連接器:使用連接器從各種源和工具獲取元數據。OpenMetadata支持大約75個以上的連接器,用于數據倉庫、數據庫、儀表板服務、消息服務、管道服務等。

2.Apache Atlas

https://github.com/apache/atlas

開發語言:Java、javaScript

Apache Atlas是一個數據治理開源框架,用于支持數據管理團隊能夠在整個組織中協作管理大數據資產和元數據。它為復雜的企業數據,提供了可擴展的數據模型和高度集成的管理解決方案。

他的優點包括:

  • 高度可擴展、可定制的數據治理解決方案:團隊可以使用API請求、發布-訂閱模型和基于Kafka的消息傳遞輕松地與現有數據源集成。
  • 提供了靈活的自定義數據模型:在數據分類、元數據屬性、數據沿襲跟蹤等方面具有巨大的靈活性。
  • 易于與數據資產交互:可以使用標準的SQL語法存儲和重用命令,并利用直觀的原生UI,具有跨實體類型、分類、元數據或自由文本的復雜搜索功能。

當然缺點也有一些,例如:

  • Apache Atlas需要比較專業的知識。
  • Apache Atlas是一個開源數據治理框架,而不是一個現成的解決方案。

3.Amundsen

https://github.com/amundsen-io/amundsen

開發語言:Python、TypeScript

Amundsen是Lyft開發的數據發現和元數據引擎,它通過索引數據資源(表、儀表板、流等)來提高數據分析師,數據科學家和數據工程師在與數據打交道時的生產力。它還可以基于使用模式(例如,高度查詢的表比較少查詢的表更早出現)來驅動頁面排名風格的搜索。有點類似谷歌搜索。

4.Datahub

https://github.com/datahub-project/datahub/

開發語言:Java、Python、TypeScript

DataHub是一個開源元數據管理平臺,它最初由LinkedIn構建,以滿足其現代數據堆棧不斷變化的元數據需求。

DataHub支持第三代數據目錄、數據發現、協作、治理和為現代數據棧構建的端到端可觀察性。DataHub采用模型優先的理念,專注于提升不同工具系統之間的互操作性。

下圖是DataHub的架構:

DataHub的主要亮點有:

  • 模式優先的元數據建模方法:DataHub的元數據模型使用序列化不可知語言進行描述。支持REST和GraphQL API。此外,DataHub支持 AVRO-based API ,通過Kafka來傳達元數據更改并訂閱它們。我們的路線圖包括一個里程碑,即將支持無代碼元數據模型編輯,這將允許更易于使用,同時保留類型化API的所有優點。在元數據建模中閱讀元數據建模。
  • 基于流的實時元數據管理:DataHub的元數據基礎設施是面向流的,它允許在幾秒鐘內在平臺內傳達和反映元數據的變化。還可以訂閱DataHub元數據中發生的變更,使用戶能夠構建實時元數據驅動的系統。例如,可以構建一個訪問控制系統,該系統可以觀察歷史數據集,添加一個包含PII的新模式字段,并鎖定該數據集以進行訪問控制審查。
  • 聯邦元數據服務:DataHub附帶了一個元數據服務(gms)作為開源存儲庫的一部分。然而,它還支持聯合元數據服務,這些服務可以由不同的團隊擁有和運營。聯邦服務使用Kafka與中央搜索索引和圖進行通信,以支持全局搜索和數據發現,同時仍然支持元數據的解耦所有權。這種架構非常適合正在實施數據網格的公司。

5.Magda

https://github.com/magda-io/magda

開發語言:Java、TypeScript

Magda是一個面向大型組織的開源聯合數據目錄平臺。其目標是通過提供一個用于記錄、跟蹤、增強和利用從CSV文件到大型數據庫的資產的單一平臺。

因此,對于那些需要處理大量較小的數據集的團隊來說,這是一個特別合適的產品。

Magda的優點包括:

  • 容易啟動和運行是Magda的一個優勢。它提供了一鍵部署到云、本地基礎設施或使用Kubernetes和Helm的本地機器。
  • Magda搜索功能也特別強大,能夠根據同義詞、用戶行為、地理空間數據和數據質量反饋數據資產信息。
  • Madga的另一個優勢是連接數據源相對容易。我們可以使用CSV文件、庫存工具、RDBMS、現有的元數據API和RESTful API添加一系列數據集。

Magda的缺點有:

  • Magda缺乏一些高級的可視化功能。
  • 雖然提供了基于角色的訪問控制,但它在創建更細粒度的訪問策略方面效果較差。
  • Magda的目標通常是讓用戶能夠輕松處理各種數據源,但處理非結構化或快速變化的數據可能會帶來更多困難。

技術架構:

在技術架構方面,Magda是基于微服務體系構建的,這些微服務作為Docker容器分發。這樣做是為了提供簡單的可擴展性。Magda可以通過使用任何技術作為Docker鏡像來添加定制服務,并通過穩定的HTTP API將它們與系統的其余部分集成。使用Helm和Kubernetes進行編排意味著定制的Magda實例的配置可以以純文本形式存儲和跟蹤,并且可以快速輕松地復制具有相同配置的實例。架構圖如下:

6.Egeria

https://github.com/odpi/egeria

開發語言:Java

Egeria是一個以企業為中心的工具,專注于跨組織的元數據管理。

因此,它對于需要高度自動化的集成解決方案的團隊來說可能是一個很好的選擇,例如跨平臺元數據交換。

優點:

  • Egeria的核心是使團隊能夠使用專業服務器自動化元數據捕獲,搜索和管理,該服務器在不同的連接平臺上同步信息。
  • 它還提供了極高級別的連接和集成,包括API、元數據存儲庫、JDBC、文件連接器、加密存儲等。目標是使內部使用不同平臺的團隊能夠無縫地共享信息。

缺點:

  • Egeria的用戶界面功能相對有限。只提供一個通用的管理GUI,包括一個可搜索的目錄,這有一點局限。如果我們想創建更高級的或特定場景的UI,我們需要自己開發這些UI。

7.TrueDat

https://github.com/Bluetab

TrueDat是一個非常成熟的開源數據治理工具,可以幫助客戶成為數據驅動型的公司。TrueDat是由BlueTab(現在是IBM的一家公司)在了解了市場作為數據解決方案提供商的需求并找到了數據治理領域的空白之后創建的。

其優點包括:

  • TrueDat為配置數據目錄和EDM提供了一個相對現代化、精簡的界面,特別是與本綜述中的其他一些平臺相比。例如,我們可以使用實體模板來快速管理屬性、元數據、權限和策略。
  • 還有用于自動發現和編目連接的數據源,降低使用門檻,使其成為業務用戶更可行的選擇。我們甚至可以使用自己的LLM在企業環境中生成元數據。

除此之外,TrueDat在報告方面特別強大。它具有與Metadata的原生集成,為用戶提供了極大的靈活性,可以圍繞其數據質量和使用情況提取和可視化見解。

但是TrueDat也有許多缺點,例如:

盡管是一個開源項目,但TrueDat明顯缺乏開源配套信息。特別是文檔有點少,而且也沒有生產部署相關的信息。

總結下面用一張矩陣表總結了這幾個開源數據治理工具的主要功能。矩陣用Yes和No表示是否有提供相關功能,但是,實際上這些工具在這些功能的實現程度并不一樣。

產品

數據血緣

業務術語表

標簽/分類

標簽/分類傳播

基于角色的訪問控制(RBAC)

基于屬性的訪問控制(ABAC)

數據共享

Amundsen

Yes

No

Yes

Yes

No

No

No

DataHub

Yes

Yes

Yes

Yes^

Yes^

No

No

Atlas

Yes

Yes

Yes

Yes

Yes

No

No

Magda

No

No

Yes

Yes

Yes

Yes

Yes

OpenMetadata

Yes

No

Yes

No

Yes^

No

No

TrueDat

Yes

Yes

Yes

Yes

Yes

No

Yes

Egeria

Yes

Yes

Yes

Yes

Yes

No

Yes

責任編輯:趙寧寧 來源: andflow
相關推薦

2021-11-22 14:57:35

數據治理CIO數字化轉型

2023-11-20 22:40:30

2021-11-30 13:59:22

數據治理大數據數據分析

2022-03-10 09:28:24

Kubernete云原生

2022-12-25 16:44:40

開源工具Github

2017-12-11 10:24:08

ERP治理軟件

2021-12-07 10:31:33

CIOIT董事會

2022-01-19 11:48:21

安全開源工具

2022-07-13 08:53:12

開源元宇宙

2022-01-11 10:50:35

數據治理CIOIT領導

2023-10-10 18:20:22

開源API

2019-06-27 08:49:47

基礎架構開源

2023-11-08 14:06:50

2021-12-07 22:07:26

數據治理元管理

2023-01-31 08:00:00

開源開發軟件

2022-06-27 14:03:06

IT治理首席信息官

2021-11-09 10:02:37

Linux工具開源繪圖

2023-11-17 12:09:54

2023-11-09 15:06:13

微服務開發工具

2023-12-01 15:10:56

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天综合久久 | 国产精品爱久久久久久久 | 日本不卡一区 | 理论片免费在线观看 | 狠狠操电影 | 午夜精品久久久久久久久久久久 | 欧美日韩在线综合 | 欧美黄色一区 | 日韩三级| 欧美综合久久 | 欧美激情第一区 | www.蜜桃av| 超碰免费在 | 午夜精品福利视频 | 日韩欧美电影在线 | 国产精品不卡 | 国产乱码精品1区2区3区 | 久久影院一区 | 在线观看毛片网站 | 日韩高清三区 | 精彩视频一区二区三区 | 亚洲风情在线观看 | 久久亚洲视频 | 在线一区视频 | 成人av网站在线观看 | 三级成人在线 | 伊人一二三 | 一级片在线观看 | 在线一区视频 | 国产精品视频久久 | 夜夜草天天草 | 淫片一级国产 | 97久久精品午夜一区二区 | 亚洲一区二区三区在线视频 | 天天操天天操 | 中文字幕乱码一区二区三区 | 国产欧美精品 | 一级毛片大全免费播放 | 免费一区二区 | 一区二区三区高清 | 欧美精品欧美精品系列 |