R、SQL、Python,看數(shù)據(jù)科學家最喜歡的編程語言
數(shù)據(jù)的爆炸增長以及公司將數(shù)據(jù)轉化為商業(yè)價值的巨大可能性,不斷增加著市場對數(shù)據(jù)科學家的需求。
但是,一個合格的數(shù)據(jù)科學家必須具備哪些技能,擁有什么樣的教育背景呢?數(shù)據(jù)科學家在團隊中的角色是什么?數(shù)據(jù)科學家大多使用什么工具和編程語言呢?這些就是米蘭理工大學的大數(shù)據(jù)分析觀測臺通過一項針對數(shù)據(jù)科學家的國際調查正在研究的部分問題。如果你的工作與數(shù)據(jù)有關,也可以支持一下這個完全匿名的調查( survey)。
除了基礎的數(shù)據(jù)科學相關的技能,編程是數(shù)據(jù)科學家務必要具備的五種主要能力之一,即使就專業(yè)知識而言這不是最相關的。
迄今為止世界范圍內已經有超過200位數(shù)據(jù)科學家參與了調查,然而結果顯示并沒有一種在數(shù)據(jù)科學領域占絕對優(yōu)勢的編程語言,但是也似乎主要集中在有限幾個選項里:幾乎96%的參與者斷言至少要用R,SQL或者Phython中的一種。
值得一提的是,當前的調查中***的是53%的數(shù)據(jù)科學家選擇的的由R Foundation for Statistical Computing提供支持的R語言。一開始R主要是在統(tǒng)計學家或學術圈內流行,但近幾年被相當多的應用于數(shù)據(jù)科學。如今R是***的開源語言之一很多大型的網絡社區(qū)都支持它。
即使早在20世紀70年代初就得以發(fā)展,SQL在當今仍然發(fā)揮著重要作用(約49%的數(shù)據(jù)科學家選擇SQL,排名第二)。盡管SQL不太適合處理非結構化的數(shù)據(jù)組(典型的比如大數(shù)據(jù)),但是分析組織中結構化的數(shù)據(jù)仍然很有必要,而SQL就非常適合用來處理這類數(shù)據(jù)。
排名第三的Python(43%)因為靈活而且相當容易上手,近幾年大受歡迎。和R語言一樣,也有很多大型社區(qū)致力于促進Python的提高并且建立一些特定的packages。
前五名中***兩個分別是Unix Shell/AWK/Gawk(15%)和Java(8%)。