Kaggle問卷主成分分析,16000萬數據從業者面臨這5類挑戰
編譯:李雷、元元、小魚
數據科學的功能是在數據中尋找有用的觀點并加以應用。然而,數據科學并非憑空而來。在向分析目標邁進的過程中,數據從業者可能面臨阻礙其進展的各種挑戰。
本文探討了數據從業者在分析數據時遇到的挑戰類型。為了研究這個問題,本文分析了Kaggle 2017年數據科學和機器學習狀況調查報告(Kaggle 2017 State of Data Science and Machine Learning)中的數據。這是一項針對16,000多名數據從業者展開的專項調查(數據收集于2017年8月)。
Kaggle的調查數據顯示,數據科學家面臨的最常見挑戰包括臟數據(36%),缺乏數據科學人才(30%)和缺乏管理支持(27%)。
數據來源:
https://www.kaggle.com/kaggle/kaggle-survey-2017
工作中的障礙與挑戰
數據從業者過去一年所面臨的挑戰
在調查中10153名受訪者被問到,“在過去的一年中,你工作中遇到了哪些障礙或挑戰?(可多選)。”結果如上圖所示,排名前十的挑戰是:
- 臟數據(36%的受訪者提及此項)
- 缺乏數據科學人才(30%)
- 公司政策(27%)
- 缺乏明確的研究問題(22%)
- 數據無法訪問(22%)
- 結果未被決策者使用(18%)
- 向其他人解釋數據科學(16%)
- 隱私問題(14%)
- 缺乏專業領域知識(14%)
- 小公司請不起數據科學團隊(13%)
結果顯示,平均每個數據從業者就會遇到上圖中的三項挑戰(3是中位值)。不同職位所遇到的挑戰數量不同。自認為是數據科學家(Data Scientist)或預測建模師(Predictive Modeler)的數據從業者稱遇到了其中的四項挑戰。自認為是程序員的數據從業者稱只遇到了其中的某一項挑戰。
挑戰分組
我想將這20項挑戰進行分組,把通常一起出現的挑戰歸為一組,因此我對數據進行了主成分分析(0表示未經歷此項挑戰;1表示經歷過此項挑戰)。我發現了一個相當清晰的、由5個主要成分構成的分組方案,其中特定挑戰往往會與其他相關挑戰一起出現。
數據從業者遇到的挑戰的主成分分析。
圖中表格數據是方差極大正交旋轉后的成分矩陣,得分大于等于0.40的成分以粗體顯示。
上圖中五個主要成分(挑戰分組)是:
- 分析結果未被用于決策:這組挑戰還包括公司政策、無法將研究結果納入決策過程以及缺乏管理支持。
- 數據隱私、真實性、無法訪問:這組挑戰圍繞數據本身展開,包括數據清洗的復雜程度、可訪問性以及隱私問題。
- 擴展/部署工具的局限性:這組挑戰與用于提取結果、部署模型以及將解決方案擴展到完整數據庫的工具相關。
- 缺乏資金:資金缺乏引起的挑戰會影響組織機構在外部數據源、數據科學人才以及可能的領域專業知識方面的購買力。
- 提出的錯誤問題:這組挑戰包括難以對數據科學項目的結果保持合理的期望,并且對數據分析沒有明確目的或方向。
結論
數據從業者在數據科學和機器學習工作方面會遇到一些挑戰。一年中平均每個數據從業者可能會遇到其中三項挑戰。最常見的數據科學和機器學習挑戰包括臟數據,缺乏數據科學人才,缺乏管理支持以及缺乏數據分析明確的方向或目的。
原文鏈接:
http://businessoverbroadway.com/top-10-challenges-to-practicing-data-science-at-work
【本文是51CTO專欄機構大數據文摘的原創譯文,微信公眾號“大數據文摘( id: BigDataDigest)”】