DataOps關鍵技術能力模型實踐
隨著數字化轉型的普及和深入,大數據技術在各類行業中普遍落地使用,企業生產、營銷、運營等各環節中的 數據將普遍被采集,數據應用開發需求增長與數據用戶角色的復雜致使企業數據開發、數據運維工作量以及數據應 用交付協調難度大大增加。海量數據的爆發式增長給數據價值挖掘帶來了一系列的挑戰:數據孤島阻礙數據的共享 與統一,數據在各部門間協作困難,單點自動化難以支撐整體效能提升。DataOps作為一種新興的數據處理與管理 方法,強調數據驅動自動化,既能為數據工作者提供敏捷的數據開發支持,同時也簡化了數據交付的周期,提升數 據生產者與數據消費者的協同效率,成為企業數字化轉型快速釋放數據生產力的最佳方案。
1.什么是DataOps
DataOps 是一種數據管理實踐,它通過自動化和協作來提高數據的質量和分析能力。它借鑒了 DevOps 的原則,將文化、自動化、測量和分享的理念應用于數據管理和分析流程,以實現數據的快速交付和高質量管理。DataOps 強調跨部門的協作,通過整合數據生產者和數據消費者,打破數據孤島,促進團隊之間的協作,從而提高數據的可用性和分析的準確性。
DataOps 的關鍵能力包括數據集成、數據開發、任務運維等全鏈路數據處理能力,以及數據地圖、數據質量、數據安全等數據治理和運營能力。它通過自動化技術簡化數據管理功能,如數據傳輸、流程自動化等,以提高數據的可用性和準確性。DataOps 還鼓勵持續測試和監控數據管道,確保它們的正常運行和正確治理。
在實際應用中,DataOps 可以幫助企業實現數據一體化編輯、數據集成、數據管控等功能,提高數據研發效率。例如,金融行業可以通過 DataOps 實現反洗錢、實時盈虧計算、監管報送等核心應用的自動化和實時性,提升業務流程的效率和準確性。
DataOps 的趨勢表明,數據可觀察性將成為強制性要求,AI 將推動數據可觀察性的發展,并且數據基礎設施的現代化將受到 AI 的推動。數據工程師的角色將不會因 AI 的發展而消失,反而會變得更加重要,他們需要了解如何將生成性人工智能與數據管道結合,以自動獲取價值。
開源項目如 Apache SeaTunnel 和 Apache DolphinScheduler 在 DataOps 領域取得了顯著成就,它們提供了實時多源數據集成工具和大數據工作流調度平臺,已經在多個行業中得到應用。
2.DataOps 關鍵技術
數據采集與集成:大數據系統需要解決各類場景下的采集與數據集成問題,如不同數據部署方式(本地部署、云部署、跨云部署 等)、多種數據形式(結構化、半結構化、非結構化)、各類型數據(批量式、增量式/流式數據)。
數據存儲:隨著結構化數據和非結構化數據數量的不斷增長,以及分析數據來源的多樣化,之前的存儲系統設計已經無 法滿足大數據應用的需求,存在很多挑戰,如容量問題、延遲問題、安全問題、成本問題、高可用訴求、靈活性訴 求。為了應對大數據對存儲系統的挑戰,數據存儲領域內在不懈努力提升數據存儲系統的能力,主要提升有3個方 面:提升系統的存儲容量、提升系統的吞吐量、系統的容錯性。
批流計算:批計算處理的是“固定的”、有界的數據集。數據的導入與計算通常是嚴格地分成兩個階段,即先將數據導 入,再對數據進行計算與處理,一般需要關注高吞吐量。流計算處理的是“不固定的”、無界的數據流。在一些場 景下,數據會不停地產生,當數據產生之后要立刻對其進行分析與處理。在這種情況下,數據的導入與計算往往是 同時發生的,數據進入計算系統后就要立刻對其進行響應,一般關注的是低延時。業內的一個熱點方向就是批流一 體,包括計算的批流一體和存儲的批流一體,這樣可以降低系統維護成本、保障數據質量和一致性,進一步混合調 度提高資源使用率。
湖倉一體:湖倉一體是一種將數據湖的靈活性和數倉的易用性、規范性、高性能結合起來的新型融合架構,類似于在湖邊 搭建了很多小倉庫,有的負責數據分析,有的運轉機器學習,有的用來檢索音視頻等,數據源流都可以從數據湖里輕松獲取。這樣就打通了數據倉庫和數據湖,將數據倉庫的高性能及管理能力與數據湖的靈活性融合了起來,底層 支持多種數據類型并存,能實現數據間的相互共享,上層可以通過統一封裝的接口進行訪問,可同時支持實時查詢 和分析,為企業進行數據治理帶來了更多的便利性。
多維分析:多維數據中的維是指人們觀察事物的角度,同樣的數據從不同的維度進行觀察可能會得到不同的結果,同時也 使人們更加全面和清楚地認識事物的本質。多維分析可以對多維形式組成的數據進行切片、切塊、上卷、下鉆、旋 轉等分析操作,使分析者、決策者能夠從多個角度、多個側面去觀察數據、對比數據,從而深入了解包含在數據中 的信息和內涵。
數據可視化:數據可視化主要旨在借助于圖形化手段,清晰有效的傳達與溝通信息。但是,這并不意味著數據可視化就一定 因為要實現其功能用途而令人感到枯燥乏味,或者是為了看上去絢麗多彩而顯得極端復雜。為了有效的傳達思想概 念,美學形式與功能需要齊頭并進,通過直觀的傳達關鍵的方面與特征,從而實現對于相當稀疏而又復雜的數據集 的深入洞察。數據可視化技術的基本思想,是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成 數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入 的觀察和分析。
數據血緣:數據血緣是指數據的全生命周期中,數據從產生、處理、加工、融合、流轉到最終消亡,數據之間自然形成一 種關系。其記錄了數據產生的鏈路關系,這些關系與人類的血緣關系比較相似,所以被成為數據血緣關系。數據血 緣分析是元數據管理的重要應用之一,其梳理系統、表、視圖、存儲過程、ETL、程序代碼、字段等之間的關系, 并采用圖數據庫進行可視化展示。
3.DataOps能力模型
DataOps能力模型圍繞數據開發流水線,從業務需求出發,以創造業務價值為目標,形成“4+3”的能力框架,即 4 個核心環節和 3 項實踐保障。DataOps能力模型框架的提出,旨在幫助企業建立對DataOps工作的宏觀視圖,了解DataOps能力建設的核心主線與保障體系,為企業的能力建設提供參考。
為了不斷提高數據產品交付效率與質量,實現高質量數字化發展的目標,DataOps的數據流水線以數據工程化能力為核心,構建出數據研發管理、數據交付管理、數據運維和價值運營四個環節。
(1). 數據研發管理
數據研發管理是指以研發治理一體化為目標,構建標準化的數據開發流程。企業在數據開發階段,構建數據研發治理一體化流程,將數據治理工作前置,把數據治理工作與數據開發工作有機結合,能夠加強數據治理與開發工作的協同配合,同時降低數據治理后置所產生的風險。此外,在數據研發階段加強對數據需求的約束,并利用自助分析能力來提前探查或解決部分數據需求,大幅提升了數據需求的溝通效率,減少了部分研發工作壓力。數據研發管理包括需求管理、設計管理、數據開發和自助分析四部分內容。
(2). 數據交付管理
數據交付管理是指以提升交付效率和質量為目標,建設持續測試和交付能力。企業在數據的交付與部署階段,通過構建自動化的測試和交付流水線,加強數據版本與代碼質量的管理,幫助企業提升數據產品交付的自動化水平,加快交付速度,提高交付質量。數據交付管理包括配置管理、測試管理、部署與發布管理三部分內容。
(3). 數據運維
數據運維是指以全面立體的持續監控、發現、處理數據問題為目標,構建全鏈路可觀測能力。企業通過構建全鏈路數據可觀測能力,通過對數據研發運營管理全生命周期的效能、資源、質量、成本等方面進行系統性的監測與度量,幫助企業全面掌握數據研發運營的各環節情況,及時發現問題、反饋問題、處理問題,進而不斷優化數據開發全流程。數據運維包括監控管理、資源管理、變更管理、異常管理、持續優化五部分內容。
(4). 價值運營
價值運營是指以精益運營數據為目標,打造量化驅動變革的能力。企業基于量化指標對數據開發工作的成本進行精細化管理,并驅動企業對經營管理、開發流程和系統工具持續優化,形成“以數治數,持續革新”的閉環運營。價值運營包括成本管理、持續變革、量化驅動三部分內容。
4.DataOps開發實踐
為了保證DataOps研發流水線能夠持續高效運轉和迭代完善,企業需要有力的保障措施。這些要求的目標是引導企業以全局最優為目標,保障數據研發流水線的平滑運作。
(1). 系統工具
系統工具是指以企業“業務用數,研發供數”的實際流程為基礎,構建一體化的技術平臺。系統工具是企業實踐DataOps理念的抓手,通過搭建完整且成熟的DataOps工具鏈,能夠為企業的一體化數據研發治理能力提供強有力的技術支撐。DataOps系統工具應具備強大的工具鏈集成能力,能夠整合企業現有的數據治理工具(如數據質量管理工具、數據安全管控工具、元數據管理工具等)和數據開發工具(如ETL工具、數據倉庫、數據科學平臺等)。通過高度集成這些工具,企業內部可以形成一條完整、流暢的數據流水線,支持通過統一數據門戶集中展現和管理,并為不同角色的用戶提供便捷訪問、使用、共享數據資源的能力,從而實現數據服務的自助化和標準化。
(2). 組織管理
組織管理是指以打造敏捷、協同的數據驅動型組織為目標,優化組織架構、明晰崗位職能。通過重構組織架構、崗位角色及協同機制配合DataOps流水線運行。組織管理包括組織架構、崗位角色、協作協同三部分。
(3). 安全管控
安全管控是指以保證個人隱私、數據安全為目標,將安全管控嵌入到數據流水線中,構建數據研發全生命周期的安全管理能力。
數據的指數級增長以及業務需求的日益發展正不斷擴大網絡威脅攻擊面,并帶來新的挑戰。數據安全問題由此升級為戰略性的業務問題。企業通過健全數據研發全生命周期的安全意識,以敏捷、全面的方式在數據研發的過程中嵌入安全屬性,從而幫助企業減少安全事故。安全管控包括安全風險策略、風險管理、安全測試三部分內容。
4.DataOps總結
從業界DataOps Pipeline廠商的實踐來看,百花齊放,各有側重,但都向自動化、可編排、可重復、可持續方向 不斷演進。在數據工程能力上不同廠商專注于不同領域構建能力,各有所長,有的專注于編排、測試、CI/CD和監控 等;有的專注于建模和治理;有的專注于數據分析等。DataOps實踐和發展需要分階段逐步成熟的演進過程,一方面依賴于對業務場景匹配構建DataOps Pipeline等能 力的成熟度,一方面也與企業的數據治理水平直接相關。