企業(yè)在2021年將面臨的5大數(shù)據(jù)分析挑戰(zhàn)
借助實(shí)際解決方案
事實(shí)證明,將數(shù)據(jù)集成到戰(zhàn)略中是各種規(guī)模企業(yè)的差異化因素。俗稱“數(shù)據(jù)驅(qū)動”不僅僅指價(jià)值十億美元的科技公司。
DiscoverOrg和MVF等公司正在使用數(shù)據(jù)來幫助制定決策和創(chuàng)建更好的產(chǎn)品。
借助數(shù)據(jù),甚至更小的公司也在左右尋找節(jié)省和新收入的機(jī)會。
但是,這說起來容易做起來難。
僅從您所有不同數(shù)據(jù)源中提取數(shù)據(jù)并不總是足夠的。開發(fā)數(shù)據(jù)策略和產(chǎn)品可能會遇到很多問題。
在本文中,我將概述您可能會在使用數(shù)據(jù)時(shí)遇到的一些問題,包括增加數(shù)據(jù)大小,具有一致的數(shù)據(jù)和定義以及減少將數(shù)據(jù)從第三方系統(tǒng)獲取到數(shù)據(jù)倉庫所需的時(shí)間。
我還將提供一些解決方案。
太多數(shù)據(jù)導(dǎo)致性能不佳

大數(shù)據(jù)。它解決了您所有糟糕的算法問題,對嗎?好吧,有點(diǎn)。
實(shí)際上,大數(shù)據(jù)可能會導(dǎo)致許多新問題。特別是具有性能。
大數(shù)據(jù)意味著如果您沒有可以處理這些數(shù)據(jù)的系統(tǒng),那么您很快就會遇到問題。
甚至最大的公司都遇到了這個(gè)問題。數(shù)據(jù)不斷增長,反過來又減慢了儀表盤,模型和報(bào)告的速度。等待兩分鐘以使用Tableau儀表板是不可行的。沒有高管,董事或經(jīng)理想要等待那么長時(shí)間。
因此,盡管大數(shù)據(jù)可以提供盡可能多的見識,但它很快就會成為負(fù)擔(dān)(而且我甚至沒有提到修剪不必要的數(shù)據(jù)的問題)。
那么,我們?nèi)绾胃纳拼髷?shù)據(jù)系統(tǒng)的性能呢?
解決方案1:支付更多計(jì)算費(fèi)用
解決問題的一種方法就是花更多的錢-在集群上購買更多的計(jì)算機(jī)或購買更大的計(jì)算機(jī)。但是總會有一個(gè)限制。
我與許多客戶合作,他們迅速計(jì)算出,通過更多的計(jì)算途徑來提高性能會花費(fèi)太多。這看起來似乎很容易,但是可以說這并不是最好的解決方案。
有時(shí),與計(jì)算無關(guān),而與設(shè)計(jì)以及底層系統(tǒng)有關(guān)。
解決方案2:遷移到專為速度而設(shè)計(jì)的云數(shù)據(jù)倉庫
通過技術(shù)債務(wù)和時(shí)間的結(jié)合,系統(tǒng)開始變慢。有幾種改善方法,而不僅僅是購買更大的機(jī)器。
例如,如果您的團(tuán)隊(duì)為數(shù)據(jù)倉庫使用Postgres或標(biāo)準(zhǔn)SQL Server之類的數(shù)據(jù)庫,那么可能是時(shí)候遷移到專為分析查詢設(shè)計(jì)的云數(shù)據(jù)倉庫了。
您可以研究諸如Azure Synapse,Redshift或BigQuery之類的云數(shù)據(jù)倉庫。這些可以幫助提高性能,具體取決于您設(shè)計(jì)數(shù)據(jù)倉庫的方式。
解決方案3:改進(jìn)數(shù)據(jù)倉庫設(shè)計(jì)
如果您已經(jīng)在云數(shù)據(jù)倉庫中,則可以研究其他可能的解決方案,例如更好的設(shè)計(jì),匯總表或索引。
這些都是需要查看您的設(shè)計(jì),查看瓶頸并評估最佳解決方案的解決方案。
改善整體設(shè)計(jì)是一個(gè)更加困難的話題。我很樂意通過免費(fèi)咨詢電話或在我每周開放的辦公時(shí)間內(nèi)討論此問題。
您還可以查看其中一些有關(guān)擴(kuò)展的文章,因?yàn)橛泻芏喾椒梢越鉀Q該問題。
- 如何在應(yīng)用變慢之前提高其性能
- 改善數(shù)據(jù)倉庫性能
在Excel中管理復(fù)雜的業(yè)務(wù)決策

Excel和電子表格繼續(xù)在全球公司中推動數(shù)十億美元的決策。對Excel的依賴也導(dǎo)致了即使是最聰明的公司也犯了數(shù)百萬甚至數(shù)十億美元的錯誤。
例如,2008年,巴克萊銀行同意購買雷曼兄弟,但由于電子表格的錯誤,他們蒙受了他們不打算購買的合同的損失。雷曼兄弟資產(chǎn)的詳細(xì)電子表格包含大約1,000行,需要轉(zhuǎn)換為PDF。但是,原始的Excel版本具有巴克萊不想要的包含179個(gè)項(xiàng)目的隱藏行。他們不希望這些合同的注釋沒有轉(zhuǎn)移到PDF,但是隱藏的行卻轉(zhuǎn)移了。結(jié)果,他們不得不購買179份他們不想要的合同。
而在2012年,JP Morgan損失了近60億美元,這主要?dú)w因于Excel錯誤。
Excel是一種非常通用的數(shù)據(jù)工具,可以幫助團(tuán)隊(duì)管理很多工作流程。但是,由于設(shè)計(jì)復(fù)雜,人為錯誤以及Excel通常的操作方式,它們也很容易出錯。
為了避免這些錯誤,您的團(tuán)隊(duì)可以采取一些策略。
解決方案1:像對待工程師一樣對待Excel
如果使用Excel來做出較大的決定,則應(yīng)像對待工程師一樣對待它。
這意味著應(yīng)該有Excel復(fù)審和測試用例。可能看起來有些矯枉過正,但是Excel非常類似于代碼。甚至有人認(rèn)為它是第四代編碼語言。這意味著它很容易因邏輯,流程和提供的輸入而引起錯誤。
因此,Excel應(yīng)該被視為代碼。
不要僅僅相信分析師,無論他們多么聰明,都可以制作出完美的Excel工作表。出色的程序員和出色的分析師也會犯錯誤。
應(yīng)當(dāng)進(jìn)行邏輯審查,測試用例和健全性檢查,以減少這些錯誤。在貴公司由于不良信息而損失大量資金之前,這一切似乎都是不必要的。
解決方案2:使用Python和SQL自動化Excel
為定義明確的業(yè)務(wù)流程自動化并開發(fā)干凈的數(shù)據(jù)工作流,這些業(yè)務(wù)流程可以轉(zhuǎn)換為SQL和代碼。
許多報(bào)告需要從報(bào)告或數(shù)據(jù)庫表中復(fù)制粘貼數(shù)據(jù)。除了復(fù)制粘貼外,還有一些方法可以自動提供數(shù)據(jù)輸出。
可以通過有限的操作將SQL,代碼和電子表格結(jié)合使用。代碼仍然容易出錯,但是,通常可以通過限制錯誤和輸入數(shù)量的方式來編寫代碼。Excel并非如此。Excel的靈活性使它易于出錯。
哪種解決方案最佳取決于流程的復(fù)雜性,其重復(fù)性以及基于數(shù)據(jù)解決方案做出的決策有多大。
將數(shù)據(jù)快速放入數(shù)據(jù)倉庫
我現(xiàn)在已經(jīng)與美國多家公司的數(shù)據(jù)科學(xué)家和分析師進(jìn)行了交談,他們都有一個(gè)主要的抱怨:他們無法足夠快地獲取數(shù)據(jù)。
這通常是因?yàn)闆]有足夠的數(shù)據(jù)工程師空閑時(shí)間來提取每個(gè)新數(shù)據(jù)集。這極大地減慢了數(shù)據(jù)科學(xué)家和分析師回答問題的能力,這些問題可能為企業(yè)節(jié)省成千上萬(甚至數(shù)百萬美元)的費(fèi)用。
在創(chuàng)建管理完善的數(shù)據(jù)系統(tǒng)與快速提供數(shù)據(jù)之間可以找到一個(gè)恒定的平衡,以便業(yè)務(wù)主管可以做出決定。
但是到添加數(shù)據(jù)時(shí),可能為時(shí)已晚。
解決方案1:使用ELT代替ETL進(jìn)行臨時(shí)工作
事實(shí)是,在某種程度上,考慮到現(xiàn)代公司需要快速發(fā)展,有時(shí)使用足夠好的數(shù)據(jù)比等待使用完美的數(shù)據(jù)要好。
需要澄清的是-我確實(shí)相信進(jìn)入中央數(shù)據(jù)倉庫的數(shù)據(jù)應(yīng)盡可能準(zhǔn)確和可靠。但是,由于有了備用的中央數(shù)據(jù)存儲系統(tǒng),數(shù)據(jù)科學(xué)家和分析人員可以開始更快地訪問新數(shù)據(jù)集,而不必等待數(shù)據(jù)被100%設(shè)置-告誡您數(shù)據(jù)可能很時(shí)髦。
這是ELT出現(xiàn)的地方。
對于那些不熟悉ELT和ETL的人。這些是提取,轉(zhuǎn)換數(shù)據(jù)并將數(shù)據(jù)加載到數(shù)據(jù)倉庫的方法。請注意,該過程的首字母組成ETL。
過去,我已經(jīng)討論過ETL。問題在于,由于轉(zhuǎn)換通常會占用大量代碼,因此ETL的開發(fā)速度很慢。這樣做有優(yōu)點(diǎn)也有缺點(diǎn),但我現(xiàn)在不再討論。
ELT將轉(zhuǎn)換移到過程的最后,這使數(shù)據(jù)分析人員和科學(xué)家可以在數(shù)據(jù)完全處理之前開始處理數(shù)據(jù)。就數(shù)據(jù)治理而言,這確實(shí)帶來了一些風(fēng)險(xiǎn)。
但是,我認(rèn)為ELT在臨時(shí)分析以及試圖找出要為核心數(shù)據(jù)層建模的數(shù)據(jù)集方面發(fā)揮了作用。
ELT有很多解決方案和工具-其中一些是:
- Airbyte
- Fivetran
- Talend
解決方案2:僅導(dǎo)入您需要的數(shù)據(jù)
人們遇到的主要問題之一是要提取太多的數(shù)據(jù)源。
您的團(tuán)隊(duì)?wèi)?yīng)該專注于僅提取符合業(yè)務(wù)目標(biāo)的數(shù)據(jù),而不是提取所有數(shù)據(jù)。
例如,Salesforce和Workday可以具有數(shù)百個(gè)表,具體取決于團(tuán)隊(duì)流程的自定義方式。因此,不要為每個(gè)可能的表創(chuàng)建管道,而只能提取所需的數(shù)據(jù)。
這有助于分配資源并確保您快速獲取數(shù)據(jù)。
一致的數(shù)據(jù)值和定義

各個(gè)團(tuán)隊(duì)的數(shù)據(jù)定義和值不一致可能會導(dǎo)致重大問題。
在許多方面,此問題與我上面提供的解決方案相沖突。但是我僅將重點(diǎn)更多地放在業(yè)務(wù)的核心數(shù)據(jù)模型上,因此我相信這個(gè)問題會稍有不同。
對于那些不熟悉此問題的人,讓我提供一個(gè)簡單的示例。
假設(shè)您要創(chuàng)建一個(gè)衡量多日活動與單日活動的指標(biāo)。
什么定義了多日活動?它是持續(xù)超過24小時(shí)的事件,還是跨越2天或更長時(shí)間的事件?
定義企業(yè)日常使用的關(guān)鍵概念很重要-每個(gè)業(yè)務(wù)團(tuán)隊(duì)都有可能使用該術(shù)語,KPI和定義。如果各個(gè)團(tuán)隊(duì)之間的定義不一致,那么您可能會看到不一致的報(bào)告:一個(gè)團(tuán)隊(duì)會說有100天的多日游,而另一個(gè)團(tuán)隊(duì)會說有90天的多日游。
我已經(jīng)在會議上看到這引起混亂。突然,而不是專注于某種形式的戰(zhàn)略變革的實(shí)際背景和影響。經(jīng)理和董事正試圖找出造成十次差價(jià)的原因。完全破壞會議的任何形式的實(shí)際戰(zhàn)略目的,并將其浪費(fèi)在時(shí)間上,因?yàn)檫壿嫼腿藗冊噲D匹配數(shù)字。
同樣,發(fā)生的另一個(gè)問題是所有各種集成系統(tǒng),例如Workday和Salesforce。各個(gè)字段可能變得不同步。例如,公司的Salesforce實(shí)例可能每周從Workday為員工拉出職位。這是為了減少人工干預(yù),但存在報(bào)告和獲取準(zhǔn)確信息的風(fēng)險(xiǎn)。如果數(shù)據(jù)分析師從Salesforce撤出并認(rèn)為數(shù)據(jù)始終是最新的,則可能是錯誤的。
缺乏明確的定義和明確的真理來源有很多風(fēng)險(xiǎn)。
解決方案1:實(shí)施數(shù)據(jù)治理策略
一個(gè)很好的解決方案是建立數(shù)據(jù)治理流程。
數(shù)據(jù)治理是基于內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)和策略(還控制數(shù)據(jù)使用)來管理企業(yè)系統(tǒng)中數(shù)據(jù)的可用性,可用性,完整性和安全性的過程。
數(shù)據(jù)治理并非絕無僅有:它不是數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)。但是有效的數(shù)據(jù)治理可確保數(shù)據(jù)一致且可信賴,并且不會被濫用。
讓我們特別看一下最后一部分-確保數(shù)據(jù)一致且可信賴。
顧名思義,數(shù)據(jù)治理不可避免地會為數(shù)據(jù)移動增加更多的流程和官僚作風(fēng)。公司設(shè)立了數(shù)據(jù)治理委員會,以確保存在和報(bào)告的數(shù)據(jù)是一致的。
現(xiàn)代公司中的數(shù)據(jù)通常高度集成,并自動填充各種第三方資源。我在上面給出了Workday和Salesforce集成的示例。
數(shù)據(jù)治理有助于定義哪些字段應(yīng)來自哪些來源,因此您不會從不同的來源提取相同的數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)不匹配的風(fēng)險(xiǎn)。
換句話說,數(shù)據(jù)治理是一個(gè)人為的過程。
解決方案2:選擇數(shù)據(jù)沿襲工具
其他更自動化的流程可以幫助您的團(tuán)隊(duì)跟蹤數(shù)據(jù)源以及數(shù)據(jù)如何從點(diǎn)a到達(dá)點(diǎn)b。
例如,TreeSchema,Octopai和Kylo之類的工具會自動抓取您團(tuán)隊(duì)的數(shù)據(jù)源以幫助跟蹤元數(shù)據(jù)-元數(shù)據(jù)的所有者,表,數(shù)據(jù)的模式以及數(shù)據(jù)的來源。
這些工具不僅有助于跟蹤數(shù)據(jù)的來源,還有助于跟蹤數(shù)據(jù)的更改和不良的數(shù)據(jù)做法。
例如,TreeSchema提供了一些功能,例如添加新數(shù)據(jù)源或字段時(shí)發(fā)出警報(bào)。在普通公司中,將創(chuàng)建一個(gè)新的數(shù)據(jù)對象,但是可能沒有任何文檔可以告訴用戶該數(shù)據(jù)是什么。如果它具有文檔,則可能在某些共享文件夾或SharePoint網(wǎng)站中。相反,使用TreeSchema,您可以集中化數(shù)據(jù)文檔并在其中有漏洞時(shí)獲取更新。
擁有一種跟蹤所有元數(shù)據(jù)的方法可以簡化事情并消除對數(shù)據(jù)的混淆。它還創(chuàng)建了更可靠的核心數(shù)據(jù)層。
缺乏清晰的數(shù)據(jù)策略
大多數(shù)公司面臨的最大挑戰(zhàn)之一是缺乏明確的方向。要使用,分析,構(gòu)建和集成數(shù)據(jù)產(chǎn)品的數(shù)據(jù)太多,因此很難知道從哪里開始。
建立清晰的數(shù)據(jù)策略通常是第一步。
這意味著要查看您的總體業(yè)務(wù)目標(biāo),然后查看可以將其與數(shù)據(jù)目標(biāo)保持一致的方法,而不是相反。
我曾與旨在將AI集成到其服務(wù)中的客戶合作,但他們并沒有真正想到AI在其整體業(yè)務(wù)戰(zhàn)略中將扮演的角色。
解決方案1:首先確定您的業(yè)務(wù)目標(biāo)
在您花數(shù)千美元(如果不是數(shù)十萬美元)購買某種新的機(jī)器學(xué)習(xí)模型或數(shù)據(jù)倉庫之前,請確保對您的業(yè)務(wù)有所幫助。需要對齊。
首先,計(jì)劃您的業(yè)務(wù)目標(biāo),然后查看您擁有哪些可以幫助實(shí)現(xiàn)這些業(yè)務(wù)目標(biāo)的數(shù)據(jù)。
第一步是通過基本數(shù)據(jù)分析策略清單。
您今天將如何改善數(shù)據(jù)分析流程?
利用數(shù)據(jù)做出更好的決策可以為公司帶來競爭優(yōu)勢。但是,這取決于數(shù)據(jù)的質(zhì)量和設(shè)置的數(shù)據(jù)過程的健壯性。
僅創(chuàng)建儀表板,數(shù)據(jù)倉庫和機(jī)器學(xué)習(xí)模型不足以做出由數(shù)據(jù)驅(qū)動的決策。在開發(fā)未來的數(shù)據(jù)產(chǎn)品時(shí),有很多障礙可以吸引您的團(tuán)隊(duì)。
希望這份包含五個(gè)挑戰(zhàn)和解決方案的清單可以幫助您的團(tuán)隊(duì)就如何改善數(shù)據(jù)分析策略做出明智的決定。