數據測試:數據質量中缺少的組成部分
如果沒有適當的數據測試,生產中的數據質量就是不完整的。在本文中,您將學習數據測試的基礎知識以及如何開始。
數據質量對于數據倉庫、主數據管理(MDM)、客戶關系管理(CRM)和其他以數據為中心的項目至關重要。然而,在開發過程中,往往忽視了數據質量,直到系統完全在生產環境中運行才開始重視。這導致了數據質量方面的巨大差距,因為在項目的開發階段幾乎沒有或沒有進行測試。
數據就像是一個產品,而數據系統就像是生產這個產品的工廠。在工廠中,質量分為兩個組成部分:質量保證和質量控制。讓我們深入了解這些概念以及它們如何應用于數據質量。
質量保證(QA)與質量控制(QC)質量保證:通過質量保證過程驗證原材料和加工方法的質量,以確保最終產品的缺陷最小化。
在數據領域,質量保證(QA)和質量控制(QC)的概念可以應用于數據質量的管理。傳統的數據質量方法存在一些缺點,其中數據測試經常被忽視。
傳統數據質量方法的局限性包括:
- ETL測試:數據質量工具設計用于測試數據,而不是進行ETL測試。
- 太少、太遲:數據質量流程僅在最終數據交付生產環境時應用。到那時,有缺陷的數據系統已經投入使用。
- 垃圾輸入,垃圾輸出:開發過程中使用的原始數據從未經過測試。因此,開發人員對數據的各種排列組合可能性并不清楚。
- 錯誤的數據處理導致糟糕的數據質量:數據處理過程本身可能是錯誤的,從而導致低質量的數據。
- 數據處理的錯誤編排:通常,數據處理是按特定順序和時間執行各種數據處理過程,以將來自多個源的數據集成為一個統一的視圖。
- 錯誤的數據模式:如果數據模型存在問題,如錯誤的數據類型、錯誤的數據類型長度、精度或缺少約束,則生產數據中可能會出現許多數據問題。
這些問題只能在項目的開發階段通過實施適當的QA或數據測試來解決。
數據測試是在將代碼部署到生產環境之前測試和確認數據及其處理過程的方法。它包括原始數據測試、ETL測試和流程編排的測試。
數據測試包括以下活動:
- 測試原始數據,確保數據符合預期。
- 測試ETL過程,確保按照要求正確編碼和轉換數據。
- 對ETL過程生成的數據輸出進行業務驗證。
開始進行數據測試的主要步驟包括:
- 確定需要進行測試的過程。
- 查找數據過程使用的源表和目標表。
- 連接數據庫,包括源數據庫和目標數據庫。
- 創建和執行數據測試規則,通過檢查數據轉換過程中的問題來驗證數據質量。
- 審查數據測試的輸出,檢查數據轉換過程中的缺陷。
綜上所述,數據質量管理不僅僅是一個生產環境中的概念,同樣重要的是在開發階段進行數據測試。
開發階段的數據測試和生產環境中的數據監控相結合,可以在數據質量方面提供最佳效果,并且非常有效。