我們需要什么數據架構?
在大數據和數據科學的新時代,對于企業而言,具有與業務流程一致的集中式數據體系結構至關重要,該體系結構隨業務增長而擴展,并隨技術進步而發展。 成功的數據架構可以使數據的各個方面清晰明了,從而使數據科學家能夠高效地處理可信賴的數據并解決復雜的業務問題。 它還使組織做好準備,以利用新興技術迅速利用新的商機,并通過管理整個企業中的復雜數據和信息交付來提高運營效率。
與信息體系結構,系統體系結構和軟件體系結構相比,數據體系結構相對較新。 數據架構師的角色也是模糊的,已經落在了高級業務分析師,ETL開發人員和數據科學家的肩膀上。 盡管如此,我將使用Data Architect來指代那些為組織設計數據架構的數據管理專業人員。
在談論建筑時,我們經常會想到與建筑的類比。 傳統的建筑設計師計劃,設計和審查建筑物的建造。 設計過程包括與客戶合作以充分收集需求,了解場所的法律和環境限制,并與工程師,測量師和其他專家合作以確保設計是現實的并且在預算之內。 這項工作的復雜性確實與數據架構師的角色非常相似。 但是,兩個架構師角色之間存在一些基本差異:
- 建筑架構是自上而下設計的,而數據架構通常是可能已經存在的組件或系統的集成過程。
- 建筑設計師在建造建筑物之前必須了解全部要求并定義整個范圍。 數據體系結構的范圍可以廣泛并且容易更改。 因此,成功的數據架構應設計為靈活的,并可以預見未來的變化。
- 一名建筑架構師具有嚴格的教育和專業要求,并且應在商業,藝術,結構物理和建筑材料方面擁有深入的知識。 另一方面,大多數數據架構師都來自IT背景,在一些公司或行業中具有專業經驗,并且對業務的了解有限。 因此,他們應該意識到自己的設計可能有偏差,并且需要根據組織中業務和技術專長的反饋來調整設計。
考慮到所有這些差異,數據架構師仍然可以向建筑架構師學習,尤其是采用自上而下的方法來改進數據架構設計。 在許多組織中,缺乏系統的,集中的,端到端的數據體系結構設計。 以下列出了一些主要原因:
- 數據架構師的作用是僅專注于有限的技術領域,并且對數據擁有有限的業務知識。
由于這些不足,我們經常看到一家數據系統脫節且團隊和部門之間存在缺口的公司。 差異導致系統性能低下,需要進行大量交接,如果生產數據出現問題,則需要很長時間進行故障排除,缺乏在整個系統上找到正確解決方案的責任感,并且缺乏評估產品影響的能力。 改變。 最后,脫節的系統在遷移或重新設計到下一代平臺時可能會花費大量精力進行分析和研究。
1.基于業務流程和運營的概念級數據架構設計
在現代IT中,業務流程由數據實體,數據流和應用于數據的業務規則支持和驅動。 因此,數據架構師需要具有深入的業務知識,包括財務,市場營銷,產品以及業務流程(例如健康,保險,制造商和零售商)的特定于行業的專業知識。 然后,他或她可以通過設計代表每個業務域的數據實體和分類法以及業務流程下的數據流,來在企業級別正確構建數據藍圖。 在此概念階段尤其需要考慮和計劃以下領域:
- 核心數據實體和數據元素,例如有關客戶,產品,銷售的數據。
- 客戶和客戶所需的輸出數據。
- 要收集,轉換或參考以生成輸出數據的源數據。
- 每個數據實體的所有權以及如何根據業務用例使用和分配它。
- 要應用于每個數據實體的安全策略。
- 數據實體之間的關系,例如參考完整性,業務規則,執行順序。
- 標準數據分類和分類法。
- 數據質量,操作和服務水平協議(SLA)的標準。
2.邏輯級數據架構設計
通過考慮使用哪種數據庫或數據格式,這種設計級別有時稱為數據建模。 它將業務需求連接到基礎技術平臺和系統。 但是,鑒于數據建模者的角色,大多數組織僅在特定數據庫或系統中設計了數據建模。 通過考慮適用于每個數據庫或系統的標準以及這些數據系統之間的數據流,應采用集成方法開發成功的數據體系結構。 特別是,以下五個領域需要以協同方式進行設計:
命名約定和數據完整性
數據實體和元素的命名約定應一致地應用于每個數據庫。 同樣,如果相同的數據必須駐留在多個數據庫中,則應強制執行數據源及其引用之間的完整性。 最終,這些數據元素應屬于數據體系結構中概念設計中的數據實體,然后可以根據業務需求協同準確地對其進行更新或修改。
數據歸檔/保留策略
直到生產的每個后期,才經常考慮或建立數據歸檔和保留策略,這會導致資源浪費,不同數據庫之間的數據狀態不一致以及數據查詢和更新的性能不佳。 為了加強數據完整性,數據架構師應基于操作標準在數據體系結構中定義數據歸檔和保留策略。
隱私和安全信息
隱私和安全性成為邏輯數據庫設計的重要方面。 盡管概念設計已定義了哪個數據組件是敏感信息,但邏輯設計應該具有受限訪問權限,受限數據復制,特定數據類型和安全數據流的數據庫中保護機密信息,以保護信息。
資料復制
數據復制是要考慮三個目標的關鍵方面:1)高可用性; 2)避免通過網絡傳輸數據的性能; 3)去耦以最小化下游影響。 但是,過多的數據復制會導致混亂,數據質量差和性能差。 任何數據復制都應由數據架構師檢查,并應用原則和紀律。
數據流和管道
在此級別上,應明確定義數據在不同數據庫系統和應用程序之間的流動方式。 同樣,此流程與業務流程和數據架構師概念級別中說明的流程一致。 此外,應在邏輯設計的集成視圖中考慮數據攝取的頻率,流水線中的數據轉換以及針對輸出數據的數據訪問模式。 例如,如果上游數據源是實時的,而下游系統主要用于具有重索引的聚合信息的數據訪問(例如,對于頻繁的更新和插入來說很昂貴),則需要在兩者之間設計數據管道。 優化性能。
3.數據治理是數據架構持續成功的關鍵。
由于數據體系結構反映并支持業務流程和流程,因此只要業務流程發生更改,數據架構就可能發生更改。 隨著基礎數據庫系統的更改,數據體系結構也需要進行調整。 因此,數據體系結構不是靜態的,而是需要進行連續的管理,增強和審計。 因此,應該采用數據治理來確保在啟動每個新項目時正確設計和實現企業數據體系結構。
結論
在成功的數據體系結構中,基于業務流程的概念設計是最關鍵的組成部分,其次是強調所有數據庫和數據管道之間的一致性,完整性和效率的邏輯設計。建立數據體系結構后,組織可以查看哪些數據駐留在何處,并確保數據得到保護,有效存儲和正確處理。同樣,當一個數據庫或一個組件發生更改時,數據體系結構可以使組織快速評估影響并指導所有相關團隊進行設計和實現。最后,數據體系結構是企業系統的實時文檔,可以保證它是最新的,并提供清晰的端到端圖片。總之,反映端到端業務流程和運營的整體數據架構對于公司在經歷重大變化(例如收購,數字轉換或遷移到下一代平臺)的同時快速有效地發展至關重要。