學會數據科學要多久?這張能力晉級表給你答案
本文轉載自公眾號“讀芯術”(ID:AI_Discovery)。
很多對數據科學領域感興趣的人,最關心的問題之一就是:獲得數據科學方面的能力需要多長時間?
本文將討論典型的數據科學能力進程表。獲得數據科學能力所需的時間取決于能力的水平,共分為三個層次,最后將討論基于興趣水平獲得數據科學能力所需的時間。注意本文提供的觀點是基于自己的數據科學經驗提出的個人觀點。
數據科學的三個層次
在討論數據科學能力進程表之前,首先介紹數據科學的三個層次。本節將討論筆者認為的數據科學能力的三個層次:1級(基礎)、2級(中級)和3級(高級)。能力從1級增加到3級。這里將使用Python作為默認語言,即使其他編程語言(例如R,SAS和MATLAB)也可用于數據科學。
基礎水平
在第一級,你應該學會使用通常以逗號分隔符(CSV)文件格式表示的數據集,應該具備掌握數據基礎知識的能力,如數據可視化和線性回歸。
1. 數據基礎知識
能夠操作、清理、結構化、縮放和設計數據。熟練使用pandas和NumPy庫,具備以下能力:
- 知道如何導入和導出以CSV文件格式存儲的數據
- 能夠清理、整理和組織數據以進行進一步分析或建模
- 能夠處理數據集中的缺失值
- 了解并能夠應用數據插值技術,例如均值或中位數插值
- 能夠處理類別數據
- 知道如何將數據集劃分為訓練和測試集
- 能夠使用諸如歸一化和標準化之類的縮放技術來縮放數據
- 能夠通過降維技術(例如主成分分析(PC))來壓縮數據
2. 數據可視化
能夠理解好的數據可視化的基本組成部分。能夠使用數據可視化工具,包括Python的matplotlib和seaborn包和R的ggplot2包。應該了解好的數據可視化的基本組成部分:
- 數據組件:決定如何可視化數據的重要的第一步是了解數據的類型,例如分類數據、離散數據、連續數據、時間序列數據等。
- 幾何組件:決定哪種可視化適合你的數據,例如散點圖、線圖、條形圖、直方圖、Q-Q圖、平滑密度圖、箱形圖、多變量圖以及熱圖等。
- 映射組件:需要確定將什么變量用作x變量,將什么變量用作y變量。這一點很重要,尤其是當數據集是具有多個特征的多維數據集時。
- 比例組件:決定使用哪種比例,例如線性比例、對數比例等。
- 標簽組件:包括軸標簽、標題、圖例、要使用的字體大小等內容。
- 道德構成要素:確??梢暬^程是真實的。在清理、匯總、操作和生成數據可視化效果時注意操作,并確保不會使用可視化效果誤導或操縱受眾。
3. 監督學習(預測連續目標變量)
熟悉線性回歸和其他高級回歸方法。能夠使用scikit-learn和caret等數據包進行線性回歸模型構建。具有以下能力:
- 能夠使用NumPy或Pylab執行簡單的回歸分析
- 能夠使用scikit-learn執行多元回歸分析
- 了解正則化的回歸方法,例如Lasso回歸、嶺回歸和彈性網絡
- 了解其他非參數回歸方法,例如K近鄰回歸(KNR)和支持向量回歸(SVR)
- 了解評估回歸模型的各種指標,例如MSE(均方誤差)、MAE(平均絕對誤差)和R2分數
- 能夠比較不同的回歸模型
中級水平
除了基礎級別的技能和能力外,還應具備以下能力:
1. 監督學習(預測連續目標變量)
熟悉二值分類算法,例如:
- 感知機分類器
- Logistic回歸分類器
- 支持向量機(SVM)
- 能夠使用核SVM解決非線性分類問題
- 決策樹分類器
- K最近分類器
- 樸素貝葉斯分類器
- 了解評估分類算法質量的幾個指標,例如準確度、精確度、靈敏度,特異度、召回率、f-l得分、混淆矩陣以及ROC曲線。
- 能夠使用scikit-learn建立模型
2. 模型評估和超參數調整
- 能夠將管道(pipeline)中的變換操作和評估操作結合
- 能夠使用k折交叉驗證來評估模型性能
- 知道如何使用學習和驗證曲線來調試分類算法
- 能夠通過學習曲線診斷偏差和方差問題
- 能夠解決驗證曲線過擬合和欠擬合的問題
- 知道如何通過網格搜索微調機器學習模型
- 了解如何通過網格搜索調整超參數
- 能夠讀懂和解釋混淆矩陣
- 能夠繪制和解釋工作特性(ROC)曲線
3. 結合不同模型進行集成學習
- 能夠對不同的分類器使用集成方法
- 能夠結合不同的算法進行分類
- 知道如何評估和調整集成分類器
高級水平
能夠處理高級數據集,例如文本、圖像、語音和視頻。除基本和中級技能外,還應具備以下能力:
- 聚類算法(無監督學習)
- K均值
- 深度學習
- 神經網絡
- Keras
- TensorFlow
- Theano
- 云系統(AWS,Azure)
數據科學能力進程表
基礎水平需要6到12個月,中級水平需要7到18個,高級水平需要18到48個月。
數據科學能力的大致進程表| 圖源:Benjamin O. Tayo
需要注意,這些只是近似值。獲得一定水平的能力所需的時間長短取決于學科背景以及愿意在數據科學研究中投入多少時間。通常,和不具有數據科學相關背景的人相比,具有諸如物理學、數學、科學,工程、會計或計算機科學等分析學科背景的人需要的時間更少。
基礎水平可以在6到12個月內達到,中級水平可以在7到18個月內達到,高級水平可以在18到48個月內達到。這完全取決于投入的精力和每個人的背景??偠灾绻麩釔郏蔷腿ピ囋嚢?