五個數據準備錯誤,請像躲瘟疫一樣避開
開講前我們先玩個猜謎游戲:
問題:猜一公司名字
線索1:這家公司與亞馬遜、蘋果和谷歌并稱為全球四大科技公司。
線索2:這家公司創始于2004年。
線索3:截至2018年,該公司全球收入達558億美元。
猜出這家公司應該是小菜一碟!(不過,我沒有禮物給你)
答案:Facebook。
除了上述這些廣為人知的信息,我還想帶你看看幾年前的Facebook,分享一些額外的小插曲。
2004年,馬克·扎克伯格和四個哈佛大學的朋友共同創立了Facebook。兩年過后,團隊一直在竭盡全力地發展公司。2006年,扎克伯格聘請了首位數據科學家——杰夫·哈默巴赫,他是一位大學剛畢業的數學狂人。他在Facebook獲得了一個令人尊敬的職位——研究科學家,主要負責研究人們如何使用社交網絡服務。
在一次采訪中,杰夫分享了在Facebook還沒有相關工具時,他處理數據和構建新一類分析技術的經驗。從Facebook離職后,他將自己所精通的數據科學拓展至其它領域,通過分析大型的生物數據集為癌癥治療提供更好的方案。
所有像杰夫這樣的數據科學家,最終都把大量時間花在數據準備上,而不是把時間和技術知識只用到建模、計算和訓練上。
為什么錯誤的數據會讓你的分析城堡搖搖欲墜?
數據準備是一項乏味的工作。它需要花費大量的時間與精力,同時需要無誤地進行創造性的探索。數據科學正朝著將數據應用于改善基礎設施、交通、環境、醫療和許多其他重要領域的方向發展,以獲得更好更高質量的生活。
接下來,本文將帶你了解某些常見的數據準備錯誤,如錯誤的見解和策略、復雜模型的迭代以及分析模型的功能紊亂,這些錯誤都會讓你付出巨大的代價、產生沉重的后果。
五個需要避免的數據準備大忌
1. 失去用例的情境-為什么偏離很危險
IT部門擁有的技術專長使數據準備的操作和實施成為可能。雖然IT部門和業務部門之間的這種控制的結合使業務知識與技術專業知識有機融合,但完全由IT部門負責的數據準備工作卻有一個小小的弊端。
單純由IT部門進行數據準備會缺少對于用例的商業理解,因此在進程中會失去情境。
若不考慮情境,公司則會花費大量金錢、時間和精力來準備數據,從而造成迭代周期重復和預期之外的輸出級別。準確得知需求并對其有深入了解,這有助于企業將分析結果最大化,減少不必要的損失。
2. 忽略質量規則-臟數據等同于錯誤見解
準備數據時,對信息質量的關注至關重要。數據質量在B2B領域中頗受關注,許多數據質量問題亟待解決。那些數據可能是過時的、有缺失的、易出錯的、不完整的等等?,F在,如果數據質量低下,結論觀點與分析也會很差。例如,假設我們正在為電子郵件營銷活動準備營銷數據。
假設一個重要的數據點,聯系人的地理位置缺失(數據不完整的情況)。現在,當數據在沒有糾正錯誤或增添信息的情況下,若其被進一步處理,會對輸出產生巨大影響。這種情況下,只有添加聯系人地理位置的相關數據,才能進一步增強并個性化營銷活動消息。
3. 黃金法則:不要浪費數據科學家的時間,請聘請一個團隊
數據科學家在分析、數據建模和設計程序方面的超強能力會為項目增添巨大價值。但從另一方面來看,數據工程師也會忙于提供干凈、可用且經過良好處理的數據,這個過程通常被稱為數據準備或數據整理。
數據科學家80%的時間都花在數據準備上。他們作為將數據轉化為觀點的靈魂人物,還有誰能夠替代他們呢?
作為數據管理員,數據科學家應有時間和空間把他們的知識用于更復雜的工作。但殘酷而普遍的現實恰恰相反。這種做法的不利結果是,數據科學家一天中花在實際工作上的時間越來越少,也就延長了他們獲得真知灼見和項目成果的時間。
這一問題如何解決呢?成百上千的數據準備服務供應商可以幫助處理進程,讓數據科學家利用時間做他們該做的事情。
4. 如今是自動化時代,古老的手動方法需要逐步被淘汰
近期一項研究分享了有關公司數據準備工具的相關發現,結果令人震驚。電子表格應用程序高達75%,這表明,當前從數據中獲得的分析范圍和結論是受到了限制的,因為電子表格無法像自動化工具那樣幫助數據轉換和分析。復雜的自動化工具可以處理更多的數據,而電子表格基本無法支持數據準備功能。
由人工智能驅動的自動化數據準備過程將實現高質高效。數據準備不僅僅是數據的集成,還要將其轉換為可分析的格式。自動化有助于數據質量問題的精準識別、數據的豐富、安全性的確保與數據沿襲。自動化應該取代電子表格來執行此類高級任務。
《機器學習的數據準備》一文將幫助你理解數據準備過程中不同步驟的本質。
5. 為什么需要用放大鏡深入挖掘數據——命名慣例與人口規模問題
命名慣例必須設置得簡單,因為在準備過程中要處理大量的數據。保持簡單明了,便于分析人員理解。這些可以為整個組織全局設置,也可以專門為項目設置。
一個建模數據集至少應有1000條記錄,至少保存三年,以保證排除范圍或數據波動后得出的顯著對比結果。更大的人口規模提供了更廣泛和更深入的結論觀點。
所以,你還有什么借口呢?
數據準備絕非一帆風順。
無論是Facebook、亞馬遜還是谷歌的數據科學家,沒有堅實的基礎,就無法建立自己夢想的分析城堡。對于一名數據科學家來說,他在一塊巨大的白板上頭腦風暴,討論Linux集群和大量c代碼,然而準備數據時發生的一個小小的錯誤就足以徹底消耗掉一切創新想法。
BARC的BI調查團隊最近進行了一項研究,內容涉及當今數據準備的應用方式,需克服的挑戰,以及使用的組織框架。其中有個有趣的發現,即公司在準備輸出中有著糟糕結果的數據時所面臨的問題類型。這些原因可能就是這些錯誤首次出現的原因。
要避免這場致命禍患,運氣或是不確定的修復方法沒啥用。你所需要的是一套正確的預防措施,來徹底杜絕此類情況的發生;你所需的是援助之手以及準備準確數據集時的適量專業知識。
這才是你所需要和應該準備的。