Python 數據分析:初識 Pandas
Python作為一個腳本語言,其廣泛的擴展包生態,使得我們可以利用Python完成幾乎所有的數據分析。也就是說,在我們辦公場景下,幾乎可以勝任所有的日常工作。利用Python辦公主要是用擴展包完成,其中最著名的當屬Pandas,它也是數據分析三劍客之一。
1. Pandas是什么?
首先,我們來認識一下Pandas。它是一個開源、BSD許可的庫,為Python編程語言提供高性能、易于使用的數據結構和數據分析工具。
通常我們使用Pandas完成如下工作:
- 格式化數據的讀取、處理與存儲;
- 數據清洗,如空值、異常值的處理;
- 數據處理分析,支持數據的增刪改查操作、數據描述、相關性分析等;
- 跨表處理,支持多張表的組合、連接和堆疊等操作;
- 繪圖,自帶繪圖功能,可以完成散點圖、線圖、柱狀圖等繪圖;
2. 安裝Pandas環境
安裝pandas非常簡單,只需要在命令提示符窗口執行pip install pandas命令即可。
C:\Users\william>pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
Lookingin indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collectingpandas
Downloadinghttps://pypi.tuna.tsinghua.edu.cn/packages/ab/63/966db1321a0ad55df1d1fe51505d2cdae191b84c907974873817b0a6e849/pandas-2.2.2-cp311-cp311-win_amd64.whl (11.6 MB)
----------------------------------------11.6/11.6 MB 16.4 MB/s eta 0:00:00
Successfully installed pandas-2.2.2
這里加了-i參數,意思是指定包源,也就是從哪個服務器上搜索并下載,主要是為了提高下載速度,畢竟默認是指向國外的服務器的,速度較慢。
常用的國內源:
- 清華大學:https://pypi.tuna.tsinghua.edu.cn/simple
- 阿里云:https://mirrors.aliyun.com/pypi/simple
- 中國科學技術大學:https://pypi.mirrors.ustc.edu.cn/simple
3. 第一次使用
第一次使用Pandas需要在使用前導入包,一般我們會起個別名pd,如下:
import pandas as pd
這里給pandas的包起的別名pd,將會在本系列教程中默認使用,后面直接使用pd.methodname()實現對于方法的調用。
下面先來看看Series數據的生成,以及描述統計信息查看。
# 利用range()函數創建元素和索引
>>> s = pd.Series(range(5),index=['r0','r1','r2','r3','r4'])
>>>s # 可以觀測到S是一個類似字典的結構,由索引和值構成。
r0 0
r1 1
r2 2
r3 3
r4 4
dtype: int64
# 查看統計描述信息
>>>s.describe()
count 5.000000
mean 2.000000
std 1.581139
min 0.000000
25% 1.000000
50% 2.000000
75% 3.000000
max 4.000000
dtype: float64
下面再來看看DataFrame數據的生成,以及描述統計信息查看。
# 先利用numpy創建一個二維數組
>>> import numpy as np
>>> array0 = np.arange(12).reshape(3,4)
>>> array0
array([[ 0, 1, 2, 3],
[ 4, 5, 6, 7],
[ 8, 9, 10, 11]])
# 創建DataFrame格式數據,并分別設置行列索引
>>> df0 = pd.DataFrame(array,
... columns=['a','b','c','d'],
... index=['r0','r1','r3'])
>>> df0
a b c d
r0 0123
r1 4567
r3 891011
# 查看統計描述信息
>>> df0.describe()
a b c d
count 3.03.03.03.0
mean 4.05.06.07.0
std 4.04.04.04.0
min 0.01.02.03.0
25% 2.03.04.05.0
50% 4.05.06.07.0
75% 6.07.08.09.0
max 8.09.010.011.0
4. 小結
本節我們了解了Pandas擴展包的安裝、導入,以及創建Series、DataFrame格式數據(后面會詳細講這兩種格式)。并使用describe()方法查看各列的統計描述信息,它可以幫我們觀察每數據的聚集、離散程度。