力壓 R,Python 在數據科學領域風生水起
TIOBE 最新發布的 9 月編程語言排行榜中,Python 憑 4.67% 的增速以 0.26% 的優勢力壓 C++,逆襲成功進入 Top 3。
而近一年勢頭不滅的 Python 在數據分析領域,是專家們的必備技能。隨著 IT 行業的增長,對有經驗的數據科學家的需求也水漲船高,而 Python 也一躍而成最受歡迎的語言。本文旨在介紹分析數據的基本知識,并利用 Python 創建一些漂亮的數據可視化。
概要
數據科學領域,非 Python 語言莫屬?
Python 是最適合數據科學家的語言,這一點毫無爭議。下面幾點可以幫你理解為什么從事數據科學的人選擇了 Python:
你知道最大的好處是什么嗎?數據科學家是目前收入最高的職位之一,根據 Indeed.com 的數據,平均年薪為 $130,621。
Python 由 Guido Van Rossum 于 1989 年創建。它是個解釋語言,擁有動態語義。它在所有的平臺上可以免費使用。Python 是:

為數據科學中的 Python 安裝 Jupyter
我們先來在自己的系統上安裝 Jupyter。請按照以下步驟進行:
我建議你使用 Anaconda 發行版(https://www.anaconda.com/download/)安裝 Python 和 Jupyter。裝好Jupyter 之后,可以在命令行中輸入“Jupyter Notebook”即可在默認瀏覽器中打開。現在我們在 Jupyter 上寫個最基本的程序。
- name=input( "Enter your Name:")
- print( "Hello", name)
要運行這段代碼,可以按下“Shift+Enter”,即可查看輸出。如下面的截圖所示:

數據科學中的 Python 的基礎
現在可以開始編程了。為了編程,你需要先了解以下的基礎知識:
關于 Python的更多信息和實際的實現,可以參考這篇文章:Python 入門(https://www.edureka.co/blog/python-tutorial/)。
數據科學中的 Python 庫
這是 Python 在數據科學中發揮力量的部分。Python 擁有大量用于科學計算、分析、可視化等的庫。一些庫如下:
Demo:實際應用
問題描述:給定一組數據集,該數據集是由多種數據組成的綜合統計數據,如監獄設施的分布和情況、監獄的擁擠程度、監獄中的犯人類型,等等。請在這個數據集上做描述性的統計,并從數據中找出有用的信息。下面是幾個任務:
加載數據使用以下代碼:
- importpandas aspd
- importmatplotlib.pyplot asplot
- %matplotlib inline
- file_name = "prisoners.csv"
- prisoners = pd.read_csv(file_name)
- prisoners

然后用 Pandas 的 describe 方法,只需輸入以下語句:
- prisoners.describe()

然后進行數據操作:
- prisoners[ "total_benefited"]=prisoners.sum(axis=1)
- prisoners.head()

最后,用 Python 做一些數據可視化。代碼如下:
- importnumpy asnp
- xlabels = prisoners[ 'STATE/UT'].values
- plot.figure(figsize=( 20, 3))
- plot.xticks(np.arange(xlabels.shape[ 0]), xlabels, rotation = 'vertical', fontsize = 18)
- plot.xticks
- plot.bar(np.arange(prisoners.values.shape[ 0]),prisoners[ 'total_benefited'],align = 'edge')
