大數據已死:智能數據永生
十多年來,大數據一直在穩步增長。新興的數據驅動公司已經崛起,并成為價值數十億美元的巨頭,而成熟的市場領導者則早日意識到了數據的力量,并進行了相應的投資。但是就像許多事情一樣,2020年是對數據戰略的一次警鐘,尤其是許多沒有立即產生價值的戰略。
我認為現在是時候接受大數據的局限性并接受對智能數據的需求了。向智能數據的轉變已經持續了至少十年。我自己的公司背后的核心思想是為企業提供他們需要的智能數據,以改善需求預測。
盡管準確的外部數據是可以為您的計劃帶來確定性的少數因素之一,但許多數據科學家報告稱,他們卻花費了大約80%的時間來清理、驗證和準備數據。
在智能數據的新時代,已被清理、驗證、特征化并且能夠插入模型并開始快速交付價值的數據,可能性很大。通過配置智能數據,模型可以更快地查找和使用最有影響力的數據,從而了解世界的運作方式并做出更好的決策。充分利用智能數據的企業可能是那些擺脫了大數據思維方式的公司。
我們如何陷入大數據淹沒?
數十年來,企業一直在向數據源投入資金,并將更多的信息注入其數據湖。但是,新數據并不總是等同于新的智能(對于機器學習模型,尤其是對核心業務戰略),慢慢地,所有這些數據的權重就逐漸建立起來。
由于大多數數據源都需要清理和標準化,因此聘請一個擁有多個研究生學位的昂貴員工,其通常也會在一周的大部分時間里花時間整理基礎數據。當將近90%的數據科學項目從未投入生產時,再加上產生有用的機器學習模型的復雜性,就意味著大量的數據科學投資并沒有取得重大收益。
2020年進入大流行時代。當財務團隊對所有事務運行精細化管理時,必須做好任何準備。正確的數據項目決定成功與否,但是任何不能用于改善核心功能的東西(例如需求預測、定價或提高競爭優勢)都是沒有道理的。數據更好的時代已經過去,現在是進入智能數據新時代的時候了。
大規模聚合和使用數據僅僅是開始
最重要的部分是獲取價值。您現在如何讓數據達到目標?最近10年的分析癱瘓狀態已經結束。
大數據策略一直試圖使數據海洋沸騰已久。這些極簡主義方法行不通,因為它們太難了。他們從來沒有做過,當您的團隊成員較少,利潤更緊且您的需求預測依賴于過去的數據時,他們肯定不會這樣做。從我所看到的情況來看,現在最好的企業正在將注意力集中在數據湖的深度和廣度上,而更多地從中獲得最大的價值。
現在是時候將我們的數據策略從癱瘓狀態轉變為啟用狀態了,以獲取資產并將其轉化為可以從中獲取價值的東西?,F在,讓您的數據科學家自由地完成他們夢寐以求的工作:不收集、匯總和清理數據,而是構建模型以利用大數據來進行諸如勞動力優化和價格預測之類的核心流程。
麥肯錫的首席數據官和該公司的一位合作伙伴在2月的一篇文章中很好地指出:“許多公司在收集和利用其自身活動中的數據方面取得了長足的進步。盡管如此,到目前為止,很少有人意識到鏈接的全部潛力內部數據以及由第三方、供應商或公共數據源提供的數據。忽略此類外部數據是錯失的機會。... COVID-19危機提供了一個示例,說明在短短幾個月內外部數據的相關性、消費者的購買習慣、活動和數字行為發生了巨大的變化,使先前存在的消費者研究,預測和預測模型過時了;此外,隨著組織爭先恐后地了解這些不斷變化的模式,他們發現內部數據很少使用。外部數據可以而且仍然可以幫助組織進行細粒度的計劃和響應。”
展望未來,您可以使用數據為動態決策提供依據,并使模型更準確,從而在大流行混亂中提供確定性。您可以使用數據來做出關于效率和機會的明智決策,而這些決策卻可以立即發現,而無需五個人組成的五個月的研究團隊在三個月后進行。這就是智能數據的力量。
什么定義了智能數據?
隨著企業學會借力,自動化和機器學習變得至關重要。智能數據始于可靠且經過驗證的數據,但不僅僅是真實的記錄。需要對其進行豐富、情景化和特性化,以使其不再僅僅是原始信息,而是高質量的信息。這減少了將新數據輸入到機器學習模型中的摩擦和易于出錯的特性。
在評估每個新數據源時,您應該提出以下要求:
這些數據是否提供足夠的深度以為我正在構建的模型要解決的問題提供足夠的背景信息?
- 數據的驗證度和準確性如何?
- 當我們進入期待已久但混亂的恢復階段時,更新和重新驗證的頻率是多少?
- 是否足夠豐富,我的模型將知道如何處理其輸入?
- 這將使我的機器學習模型更快更好地做出哪些核心業務決策?
- 我可以輕松地解釋此數據源顯示什么,以及它對我的預測和運營的影響嗎?
去年,最終的黑天鵝事件使許多企業措手不及?,F在,許多人都在努力集成新數據并推出數據驅動的恢復計劃,以了解什么將推動他們的需求。不管是電視體育比賽還是節節高漲的需求,洪水或恐怖襲擊使需求下降,還是許多大型活動讓大多數企業無法預料的人員聚集規模,很多企業都參與其中。而且我認為每個企業都必須做到。