破財不免“災”:摧毀數據驅動戰略的5個錯誤
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
數據化是大勢所趨,各種規模的公司都開始利用數據來進行決策。但根據高盛2019年的一份報告,企業實際上很難通過數據來建立可持續的競爭優勢。
我們團隊曾與各行各業的公司合作并為其提供服務,見識過數據策略優點和缺陷。我曾見到有團隊成功建立了數據生命周期、儀表板、機器學習模型和指標,但最后不得不解開、刪除、遷移和升級整個數據系統。
在這些項目中,我們看到了幾個反復出現的問題:數據治理不足;不良數據;復雜的Excel文檔;數據團隊與業務之間缺乏協調;以及過多的儀表板,導致決策混亂。隨著發展,這些數據問題都會逐漸復雜化,并逐漸削弱團隊或公司對數據的信任和使用能力。
在本文中,我們將討論其中的一些問題以及可以實施的解決方案,以改進整體數據生命周期。
1. 數據和事實來源不一致
對于各種業務不同的工作流程,我們不可避免地要在多個地方輸入相同的數據。一個團隊可能對一個業務流程使用Salesforce,而另一個團隊可能使用Workday。這會導致在每個步驟輸入不一致的數據。其原因可能是時機錯誤或者人為錯誤。一旦這些不一致數據進入公司的各個數據庫,就會對報告造成嚴重的破壞。
只要問問那些向主管提交報告的BI工程師或分析師,他們就會發現幾份報告間的數據略有不同。無論公司規模如何、數據成熟度如何,他們都將遭受這一困擾。我們的團隊曾在多家公司工作過,也為各個行業提供咨詢,他們都面臨著這個問題。
解決方案1:制定數據治理策略
這通常可以通過數據治理策略來解決。數據治理涉及管理數據的有效性、可用性、完整性和安全性。
如何部署該數據治理策略取決于你是希望擁有一個緊密的、集中的數據流程,還是想要一個分散的、獨立的流程,流程偶有重合,以避免核心數據模型重疊。
數據治理不是一個性感的名詞。它不是數據科學或機器學習,但它是數據科學和機器學習部門的基礎。如果不能把握核心事實的來源,會導致許多相互矛盾的策略。
解決方案2:組建中央數據團隊以快速做出決策
另一種策略——培養一個核心數據團隊——對于想要快速發展的大公司來說不太推薦。該策略僅關注開發和管理數據集。當公司規模較小時,數據團隊本身也會很小,這個策略就能發揮作用。
當需要對事實來源和數據完整性做出決定時,這種策略能讓我們很快得出結果。沒有必要管理多個團隊或每個月召開一次集中會議。
2. 用Excel管理復雜的商務決策
圖源:unsplash
Excel和電子表格持續推動著全球公司總值數十億美元的決策。即使是最聰明的公司,對Excel的依賴也會導致數百萬甚至數十億美元的錯誤。
例如,2008年,巴克萊銀行同意收購雷曼兄弟,但Excel的錯誤導致他們在并不打算購買的合同上吃了虧。
雷曼資產的詳細電子表格包含大約1000行,需要轉換為PDF格式。但在最初的Excel版本中,隱藏了179條巴克萊不想要的條目。他們備注的不購買的條目沒有被轉移到PDF文件中,但隱藏的行被轉移到了PDF文件中。結果,他們不得不購買179份自己不想要的合同。
無獨有偶,2012年,由于Excel錯誤,摩根大通損失了近60億美元。
Excel文檔是一種非常通用的數據工具,可以幫助團隊管理很多工作流程。但是,由于復雜的設計、人為錯誤以及Excel的常規操作方式,這些文檔也很容易出錯。
解決方案1:像工程師對待代碼一樣對待Excel
如果你使用Excel來做重大決策,則應像工程師對待代碼一樣對待它。也就是說,應該有Excel檢查和測試用例。這看起來可能有點矯枉過正,但Excel非常像代碼。事實上,有些人甚至認為它是第四代編碼語言。這意味著它很容易因邏輯、過程和輸入而產生錯誤。反過來,它也應該被這樣對待。
不要只相信分析師,不管他們有多聰明,能做出多完美的Excel表。優秀的程序員可能會制造bug,聰明的分析師也是如此。
因此,應該進行邏輯審查、測試用例和健全檢查,以減少這類錯誤。這一切看起來似乎沒有必要,除非你的公司因為不良信息而損失了大筆資金。
解決方案2:使用Python和SQL實現Excel自動化
為業務流程自動化開發干凈的數據工作流,這些業務流程定義明確且可以轉換為SQL和代碼。許多報告都需要從報告或數據庫表中復制和粘貼數據。除了復制和粘貼外,你還可以使用一些其它方法來開發可自動提供數據輸出的解決方案。
可以使用SQL、代碼和Excel相結合的方式來進行有限的操作。盡管代碼依然容易出錯,但它通常可以通過限制錯誤和輸入數量的方式來編寫。Excel并非如此,Excel的靈活性是它易于出錯的原因。最佳解決方案取決于流程的復雜性、重復性以及根據數據解決方案做出的決策量。
3. 商業智能儀表盤過多,目的性不足
商業智能儀表盤是非常強大的工具,可以幫助提取信息并提供見解和指導。然而,由于其易開發性和普及的便捷性,導致公司經常被儀表盤淹沒。這些儀表盤并不總是與公司的優先事項保持一致,它們本身可能不夠簡潔,無法做出決策,有時只是一些浮于表面的指標。
儀表盤易于制造,但這并不意味著團隊應該快速推出它們。每個儀表盤都應該具有實用意義。儀表板應該驅動某種動作并發出通知。
解決方案1:問自己到底為什么要建立儀表板
為了避免開發過多的儀表盤,團隊應該制定一個流程,弄清楚為什么要建立儀表盤。我們經常發現儀表只是在經理或主管的要求下建成,并沒有經過深思熟慮。這些儀表板最終會被扔進儀表盤“墓地”。它們僅被使用一次,或者可能幾個月。然后突然被遺忘。在這種情況下,Excel報告可能會更好。
4. 試圖分析大量數據而沒有足夠的行動
我們注意到的一種較常見的模式是,大多數公司在達到一定規模和復雜度后,數據會多到不知如何處理。
這可能導致幾個問題。一些公司嘗試在大型數據倉庫項目中一次性從每個數據源中提取所有數據。這成本昂貴,耗費時間并且結果可能令人沮喪。公司最終會花費數十萬至數百萬美元來開發數據倉庫,卻發現這將花費兩年時間,并且耗費的資金是他們預算的兩倍。
解決方案1:進行小規模、快速的數據戰役
不要試圖一次獲取所有數據,而是找出公司想了解更多信息的幾個關鍵領域。團隊應該制定一個計劃,以解決這些問題。它是儀表板,報告還是類似的東西?然后,這將推動許多數據倉庫的第一個版本。
公司應該花費大量的時間來規劃數據倉庫的設計、主要實體、數據治理等等。但是,如果花了太多的時間來規劃,卻只是建立框架,那么最終企業所有者會感到焦躁不安。因此,在前進的道路上取得一些小的成功可以保持人們的積極性。
圖源:unsplash
5. 使用低質量和不完整的數據
胡亂輸入,胡亂輸出。如果你在數據行業工作過一段時間,就會習慣聽到這句話。更啰嗦的說法是:根據錯誤的數據做出正確的決定,實際上還是錯誤的決定。將不良數據放入儀表板,報告和模型中只會提供無效的結果。
我們已經看到,公司花費數月甚至數年的時間使用數據,大家都認為這些數據是正確的且無人質疑。但只要稍加挖掘,他們就會發現數據不完整、不準確、不可信。每個公司都有不良數據。唯一的問題是:他們是否會使用這些數據來做出價值數百萬美元的決策?
解決方案1:創建自動質量檢查系統
數據通常由人輸入,因此很容易出錯。團隊需要開發某種形式的自動數據質量檢查系統來管理這些錯誤。
在大多數系統中,數據量過大而無法手動檢查,這種情況下,有一個解決方案。用戶所做的大部分數據質量檢查都可以記下來,并放入自動質量檢查系統中。這樣可以為整個公司節省數百至數千小時,并提高準確性。
這些檢查可以是直接的數據檢查,即要確保輸入的所有國家都是真實的,也可以更多的動態檢查,例如進行測試以確保每個月的總支出保持在特定范圍內。總體而言,進行這些初始的列級檢查和匯總檢查會非常有幫助。
解決方案2:始終使用集成測試
建立儀表盤時,尤其是具有計算字段、混合數據集和過濾器的儀表盤時,團隊應創建集成測試,以確保儀表盤工具內的邏輯不會更改初始數據。
個人認為應該將盡可能地將邏輯限制在一個地方,例如查詢本身。由于通常不會發生這種情況,因此團隊應確保他們在儀表盤上看到的數據與他們輸入的數據匹配。
有許多簡單的集成測試可供使用。例如,也許你知道數據集應包含1000個人。那么,建立一個基本的集成儀表盤,統計數據集中有多少人。這一點在使用Tableau中的混合功能時尤為重要。如果不仔細考慮最終數據,可能會導致很多問題。為避免這些問題,最好考慮一些基本的集成測試。
圖源:unsplash
利用數據做出更好的決策可以為企業提供競爭優勢。但是,數據質量和數據流程的穩健性確實會影響數據策略的成功與否。
僅創建儀表盤、數據倉庫和機器學習模型并不足以做出以數據為依據的決策。團隊需要考慮其數據生命周期以及用于管理每個步驟的流程。這意味著創建測試用例、明確的目標和流程,以幫助改善團隊的績效和策略。
沒有人愿意被繁瑣的流程和官僚主義所困擾,但如果沒有團隊數據生命周期的計劃或策略,就會讓陷入失敗,請提前避免這個問題。