五種加速云數據倉庫遷移的方法
行業專家已經進行了研究,評估了各種云數據倉庫(CDW)選項,在整個組織中獲得了正確的買進和批準,并準備在Snowflake、Redshift、DeltaLake或其他云數據倉庫(CDW)上繼續前進。新的商業智能(BI)、分析和機器學習機會現在清晰可見。云數據倉庫(CDW)與它們的內部部署前輩相比,在速度、效率和成本方面具有優勢。但前方仍有艱苦的工作要做,你們現在所做的選擇可能意味著數日、數月或數年之后你們將取得成功。
盡管提取、轉換和加載(ETL)的世界已經從其內部部署的根源發展起來,但構建和管理將向數據消費者交付分析就緒數據的數據管道仍然是非常資源密集型的。以下是減少這些資源需求并縮短成功發行云數據倉庫(CDW)的時間的五種方法。
1.為任何數據源查找連接器
您可能有一個深厚而強大的數據工程師團隊,他們過去曾為源代碼集成編寫過代碼。他們甚至可能喜歡這項工作,盡管大多數人都很樂意離開這項乏味的工作。無論如何,這是加速數據倉庫遷移的最大機會之一。在您之前,許多團隊都需要數據庫、文件、應用程序或事件流的連接器。有各種可用的預構建連接器工具,涵蓋了大多數組織的大部分數據源。當然,也可能有一些您的行業甚至企業所獨有的數據源。但是,就像使用預構建的連接器一樣,將受益于具有框架的供應商的經驗以及處理自定義源的特定經驗。
2.自動化基礎設施
通過遷移到云,您已經離開了在數據中心管理物理服務器的世界,但如果不小心,您仍然可能會讓基礎設施工作壓倒您的團隊。管理數據的重復移動和準備需要調度任務及其依賴關系、配置計算集群、優化成本和性能等等。有不同的選項可以減輕您的團隊的工程時間,從開源編排器和無服務器選項到完全管理的管道工具。
3.民主化數據生產
通常認為數據民主化主要是一個成功的云數據倉庫(CDW)項目的結果。為更多的數據消費者提供儀表板和數據集當然是數據素養組織的關鍵。讓數據的生產者——那些最熟悉數據的含義和歷史的人——能夠獲得數據也很重要。如果沒有這一點,就需要一個中央團隊負責選擇數據,并將具有意義和價值的數據交付給數據消費者。他們要么花費無數小時研究每個域和數據源,要么最終生成用戶無法理解和不信任的云數據倉庫(CDW)。更好的方法是為領域專家提供無代碼工具,直接構建管道并為分析準備數據。
4.不要忽略排除故障的時間
當您計劃遷移到云數據倉庫(CDW)時,很容易將所有注意力集中在啟動云數據倉庫(CDW)所需的數據工程工作上。然而,企業的數據工程師可能經常花費和其他事情一樣多的時間進行故障排除。有用于監視的工具,您可以編寫用于錯誤警報的代碼。更有效的是完全管理的管道產品,它提供開箱即用的這些功能,并可以在問題到達您的團隊之前解決問題。所有這五個技巧將增加您的云數據倉庫(CDW)的正常運行時間,這是您的數據工程師的最終時間緩解。這也是實現價值的關鍵,這取決于你的數據消費者的信任和采用。
5.期待意外
在這一點上,可能會認為自動化已經解決了所有問題,工具的生態系統已經涵蓋了所有可以想象到的情況。現實是沒有一個簡單的按鈕,您應該警惕黑盒解決方案,建議管道可以100%自動化。數據源和目標將會改變。您可能決定集成業務目錄或數據質量工作流等功能。確保您已經投資了具有靈活性的工具或服務,以處理您獨特且不斷變化的環境。通過嚴格的自動化,可以節省數百個小時,但是當他們需要解決邊緣情況時,可以節省這些時間。