使用數據倉庫BI的六種策略
數據倉庫可以作為數據存儲的輔助工具,幫助數據的集成、匯總和轉換,以便更容易地為業務智能進行分析。團隊可以通過采用云架構的新策略,最大限度地使用數據倉庫。
隨著云計算和用于數據集成、存儲和管理的新型數據基礎設施的興起,數據倉庫的性質和用途都發生了巨大的轉變。即使一些企業醞釀使用數據湖來存儲一切,數據湖仍然在為常規分析提供更快的訪問和更一致的結構方面提供了很大的價值。
此外,用于流分析、數據準備和主數據管理的新工具可以幫助企業采用更好的數據倉庫策略。這里有六種策略,可以幫助企業充分使用新的云數據倉庫。
1. 識別過程中的瓶頸
數據分析咨詢公司Bartlett System的首席執行官和創始人Adam Nathan,他參與實施BI系統已經超過15年了。雖然在這期間,他發現了漸進式的進展,但他表示,“云服務的進步可能會從根本上改變BI專業人員挖掘數據倉庫的方式,從而使BI受益。”
Nathan指出,“獲取數據、清理數據、準備數據,并將其與不同的數據源進行集成,一直是IT團隊中數據工程師遇到的難題。”使這一挑戰變得更加嚴重的是,數據的所有者,那些真正了解信息語義價值的人,與數據本身是隔絕的。
他認為,“那些幾乎沒有時間幫忙,而且只了解數據的人,恰恰無法快速得到我需要的東西。”
2. 賦予數據工程師權力
團隊現在可以在SQL中進行更多的數據準備活動,包括大數據和半結構化數據。根據Nathan的說法,隨著SQL技能變得無處不在,數據工程已經變得大眾化了。
由于這些工具變得更容易使用,并且需要更少的分散技能,因此不太需要熟悉多種語言和技術的集中式專家。Nathan認為,“這導致了數據工程師的崛起,反映了應用開發、分析和其他領域的類似趨勢。”
數據共享也越來越容易。例如,Snowflake用戶可以將數據集以離散的、精心策劃的集合,公開給數據消費者,包括:合作伙伴、客戶、供應商和其他人。
Nathan解釋說,“如果我是一名在人力資源方面擁有良好SQL技能的分析師,我就可以在不需要外部支持的情況下管理和分享我的團隊的數據。”
這一點很重要,因為它消除了IT在數據準備過程中的瓶頸。IT團隊有更多的時間專注于準備原始數據。
3. 建立分布式管理
接下來,團隊需要簡化正確的數據進入數據倉庫的方式。隨著IT部門的退出,團隊可以開始考慮將其數據作為企業中每個小組的個人、策劃、掌握和認證數據集的集合。
想要人力資源數據的人可以去找人力資源部門共享的數據集。人力資源部門的專家了解如何收集數據,為什么要收集數據,保持這些數據的更新,管理工作,并可以為其他部門的用戶提供適當的背景,希望使用這些數據進行不同的分析。Nathan認為:“實際上,每個部門都在提供數據價值。”
其他人可以請求訪問權限,但無法更改。這種框架還可以更容易地集成來自給定部門的數據,或者與企業內可用的其他數據集,甚至外部數據集集成。
策劃管理策略將數據質量監督從一個中央部門轉移到單獨的團隊,可以提供更大的監督效果。因此,我們可以相信,最好的人力資源數據來自于人力資源共享站點。“這是一個很小的問題,也更易于管理。”Nathan說道。
4. 制定數據合同
分布式管理也帶來了一個全新的挑戰,即數據集需要保持一致,并以極其謹慎和安全的方式進行更改。“如果對數據的治理實施得不好,就會成為一種自由競爭,這可能是最大的風險。”Nathan說。
數據管理團隊需要與每個部門合作,幫助制定數據合同,為他們提供的數據建立服務級別協議。合同有助于確定每個人對可靠性和及時性的期望。Nathan表示,“這可能會使IT部門感到痛苦,因為治理問題和角色的減少。”
5. 考慮不同的觀點
Capgemini公司全球洞察力和數據副總裁Avneet Dugal說,“數據倉庫有一個令人質疑的名字,那就是它是大型的、難以操作的數據存儲庫,因此不適合實時分析和決策。”
她看到的挑戰是,團隊正在試圖將所有數據移入數據倉庫。將大量的數據轉移到另一個平臺,并重建經驗上可信的數據是一項復雜的工作。例如,企業可以通過根據業務重點(供應鏈、財務或營銷)來組織數據,使其更容易查看和使用。
Dugal還發現將“增量”更新構建為核心處理能力的一部分是有幫助的,這使得數據變化更容易出現在各種分析用例中,并減少了對所有數據的更改,以包括最后一天的更新需求。
6. 簡化數據工作流程
ScienceSoft的數據分析部門負責人Alex Bekker表示,“考慮戰略和戰術層面的管理之間的差距也很重要。”其中一個方面是建立一個精心設計的數據治理框架,以確保數據倉庫攝入高質量的數據,這些數據被安全地處理和存儲,并且只能根據用戶角色來訪問。
選擇具有大量集成功能的數據倉庫軟件也是很有幫助的,比如預建的數據源連接器和開放式API,以確保數據倉庫的可擴展性。這有助于添加新的數據源以解決不斷變化的業務需求。
另一個方面是圍繞集成、質量、安全和備份,實現數據倉庫維護和管理活動的自動化。這降低了數據倉庫的運營成本,并確保高性能和可用性。
Fivetran公司首席分析技術產品經理Veronica Zhai也建議,將關鍵業務邏輯集中到一個地方。例如,關鍵的業務邏輯,如 “什么是凈收入?”應該在代碼中定義一次,放在一個有版本控制的地方,所有分析師和業務用戶都可以重復使用這段代碼。這也節省了時間,并確保報告的一致性。