2019數(shù)據(jù)科學家最需要的技能盤點,Python大火,Pytorch職位需求翻番
大數(shù)據(jù)文摘出品
來源:medium
編譯:趙吉克
2018年medium上一篇博文分析了數(shù)據(jù)科學家最需要的技能,那篇文章引起了很大的反響,在medium上有超過11000次點贊,并被翻譯成幾種語言,成為了2018年11月KD Nuggets最受歡迎的文章。
2018年文章鏈接:
https://towardsdatascience.com/the-most-in-demand-skills-for-data-scientists-4a4a8db896db
一年多過去了,2019的作者也發(fā)布了最新的分析,讓我們看看有什么變化。
2018年的文章考察了對統(tǒng)計和溝通交流等一般技能的需求以及對Python和R等技術(shù)的需求。軟件技術(shù)的變化一定快于一般技能需求上的變化,所以在本更新中只包括技術(shù)部分。
我們搜索了SimplyHired、Indeed、Monster和LinkedIn以查看在美工作的列表中哪些關(guān)鍵詞和“數(shù)據(jù)科學家”共同出現(xiàn)。這一次,我們決定用Request和Beautiful Soup包來獲取工作列表,而不是手工搜索。
事實證明,LinkedIn的爬取要困難得多,因為查看工作的列表的準確數(shù)字需要身份驗證。我決定使用Selenium進行無頭瀏覽。2019年9月,美國最高法院對LinkedIn做出了判決,允許其數(shù)據(jù)被爬取。盡管如此,在幾次抓取嘗試后,還是無法訪問賬戶,這個問題可能源于刷新率限制。
不管怎么說,微軟擁有LinkedIn,Randstad Holding擁有Monster, Recruit Holdings擁有Indeed和SimplyHired。
無論如何,LinkedIn的數(shù)據(jù)可能無法提供從去年到今年的蘋果公司職位對比。今年夏天,LinkedIn的一些技術(shù)職位搜索詞每周都會出現(xiàn)大幅波動。這可能是由于他們試圖通過使用自然語言處理來衡量搜索目的,因而對他們的搜索結(jié)果算法進行了實驗。相比之下,另外三個搜索網(wǎng)站在過去兩年中出現(xiàn)的“數(shù)據(jù)科學家”相關(guān)職位列表數(shù)量則相對接近。
基于這些原因,LinkedIn被排除在本文2019年和2018年的分析之外。
對于每個工作搜索網(wǎng)站,我們計算了該網(wǎng)站中出現(xiàn)的每個關(guān)鍵詞在所有數(shù)據(jù)科學家工作列表中所占的百分比。然后,在三個站點上為每個關(guān)鍵字取這些百分比的平均值。
同時手動調(diào)查了新的搜索詞以及那些看起來很有前途的詞。在2019年,沒有新的搜索詞達到占全體5%的占有水平,這是下述結(jié)果中使用的截斷指標。
PyTorch職位需求翻番
我們采用四種方法來查看每個關(guān)鍵字的結(jié)果:
- 方法1:對于每個求職網(wǎng)站,在每個年度用包含關(guān)鍵詞的列表數(shù)量除以包含data scientist的搜索詞總數(shù)。然后取三個網(wǎng)站的平均值。
- 方法2:看看2018年至2019年這些列表的平均比例變化的絕對值。
- 方法3:看看2018年至2019年這些列表的平均比例變化的相對百分比。
在完成上面的第一個步驟之后,計算每個關(guān)鍵字相對于該年度其他關(guān)鍵字的排名,然后計算每一年的排名變化。
觀察前三個帶有柱狀圖的選項,然后我們將展示一個包含數(shù)據(jù)的表并討論結(jié)果。
這是上文中方法1對應(yīng)的2019年圖表,顯示Python出現(xiàn)在近75%的列表中。
這是上文中方法2的圖表,顯示了2018年至2019年職位列表中某項技能需求的變化。AWS顯示上升了5%。在2019年和2018年上市的公司中,這一比例分別為19.4%和14.6%。
這是上文方法3對應(yīng)的圖表,顯示了每年的百分比變化。2018年,PyTorch上榜職位需求數(shù)平均增長了108.1%。
以下是上述圖表中的信息用表格形式展示的結(jié)果,按2018年至2019年上榜職位比例在三家網(wǎng)站平均后的變化百分比排序。
穩(wěn)居榜首的python,落寞的R
在不到14個月的時間內(nèi)技術(shù)需求發(fā)生了相當大的變化!
1. 優(yōu)勝者
Python仍然排名第一。到目前為止,它是最常用的語言。幾乎霸占了四分之三的榜單,與2018年相比,Python使用量有了可觀的增長。
SQL使用量快速提升。它幾乎快要超過獲得第二高平均分數(shù)的R語言。如果繼續(xù)保持該趨勢,SQL很快將成為真正的第二。
杰出的深度學習框架得到了廣泛使用。PyTorch在所有關(guān)鍵字中的增幅最大,Keras和TensorFlow也表現(xiàn)出色。Keras和PyTorch在排名中均上升了4位,TensorFlow上升了3位。請注意,由于PyTorch的起始平均值較低,TensorFlow的當前平均值仍是PyTorch平均值的兩倍。
數(shù)據(jù)科學家對云平臺技能的需求越來越大。AWS的出現(xiàn)頻率高達20%,Azure約10%。Azure在排名中躍升了四位。
2. 落敗者
R語言的總體平均下降幅度最大。基于其他調(diào)研,這一趨勢不足為奇。Python顯然已經(jīng)取代R成為數(shù)據(jù)科學的首選語言。 盡管如此,R仍然非常受歡迎,出現(xiàn)在55%的榜單中。如果您熟悉R語言,請不要沮喪,但如果您想要掌握需求量更大的技能,請考慮學習Python。
許多Apache產(chǎn)品受到歡迎,包括Pig,Hive,Hadoop和Spark。Pig的排名下降了5位,比任何其他技術(shù)都下降得多。Spark和Hadoop仍然是人們普遍希望掌握的技能,但是我認為,轉(zhuǎn)向其他大數(shù)據(jù)技術(shù)已經(jīng)成為一種趨勢。
專有的統(tǒng)計軟件包MATLAB和SAS使用量急劇下降。 MATLAB在排名中下降了四位,而SAS從第六位下降到第八位。與2018年的平均水平相比,兩種語言均出現(xiàn)了大幅下降。
推薦一個學習路徑
如果你剛開始從事數(shù)據(jù)科學,我建議你專注于需求增長和有發(fā)展?jié)摿Φ募夹g(shù),并且每次只專心學習一種技能。
以下是我推薦的學習路徑:
- 學習Python以掌握常規(guī)編程;
- 學習pandas來進行數(shù)據(jù)操作;
- 通過Scikit-learn庫學習機器學習;
- 學習用于高效查詢相關(guān)數(shù)據(jù)庫的SQL;
- 學習Tableau以進行數(shù)據(jù)可視化;
- 關(guān)于云計算平臺,基于AWS的市場份額,它是一個不錯的選擇;
- 學習一個機器學習框架,Keras現(xiàn)在與TensorFlow緊密結(jié)合,因此它是一個很好的起點,PyTorch也在迅速發(fā)展。
這是我的總體學習路徑建議。按照你的需要各取所需吧。
相關(guān)報道:
https://towardsdatascience.com/the-most-in-demand-tech-skills-for-data-scientists-d716d10c191d
https://bdtechtalks.com/2019/11/25/ai-research-neural-networks-compute-costs/
【本文是51CTO專欄機構(gòu)大數(shù)據(jù)文摘的原創(chuàng)譯文,微信公眾號“大數(shù)據(jù)文摘( id: BigDataDigest)”】