實用的Pandas技巧,估計80%的人不知道
之前跟大家分享了在 pandas 的 apply 函數中用 pd.Series 功能來拆分文本,文章鏈接如下:
數據來源于 akshare,由于 akshare 版本的更新,部分接口發生變化,致使上面文章里的代碼運行會出錯。因此今天也會更新下代碼。
此外,在上面文章里應用到了 apply 使用自定義函數的功能,之前文章里,自定義函數只有一個參數。有同學提了一個問題,如果自定義函數有兩個參數,該怎么辦?
嗯嗯嗯,這是一個好問題!
今天,Lemon也會分享下自定義函數有兩個參數的情況,該如何解決。
接下來,還是先更新此前文章的代碼。
01 使用apply拆分文本
Pandas 中 apply 函數,應用廣泛,今天要跟大家分享一個使用的技巧,使用 apply 將 dataframe 中內容為 list 的列拆分為多列。
拆分前的數據情況,如下圖紅色標注所示:
拆分后,如下圖所示:
這個案例中,Lemon 使用的數據來自 akshare ,在開始前,引入相關 package :
- # -*- coding: utf-8 -*-
- """
- @Author: Lemon
- @出品:Python數據之道
- @Homepage: liyangbit.com
- """
- import numpy as np
- import pandas as pd
- import akshare as ak
Lemon 使用的幾個 Python 庫的版本信息如下:
- print('numpy版本:{}'.format(np.__version__))
- print('pandas版本:{}'.format(pd.__version__))
- print('akshare版本:{}'.format(ak.__version__))
- # numpy版本:1.18.1
- # pandas版本:1.0.3
- # akshare版本:0.7.53
如果代碼運行出現問題,請先檢查下這幾個Python庫的版本是否與上面的一致
先從 akshare 獲取需要的數據,分為兩步,第一步是獲取基金代碼的列表,如下:
- df = ak.fund_em_fund_name().head(20).tail(5)
- dfdf = df[['基金代碼','基金簡稱']]
- print(df)
第二步是獲取基金凈值數據和凈值日期,通過一個自定義函數來獲取,自定義函數如下:
- # 自定義函數只有一個參數的情形
- # 獲取基金單位凈值以及凈值日期
- def get_mutual_fund(code):
- df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")
- dfdf = df[['凈值日期', '單位凈值','日增長率']]
- # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']
- df['凈值日期'] = pd.to_datetime(df['凈值日期'])
- dfdf = df.sort_values('凈值日期',ascending=False)
- unit_equity = df.head(1)['單位凈值'].values[0]
- date_latest = df.head(1)['凈值日期'].values[0]
- return [unit_equity, date_latest]
對于這個自定義函數,在 pandas 使用 apply 來應用自定義函數,這是使用 apply 的一種常用的方法,如下:
- # 獲取基金最新的單位凈值和凈值日期
- df['tmp'] = df['基金代碼'].apply(get_mutual_fund)
- print(df)
獲取的數據截圖如下:
文本拆分
上圖中的 tmp 列,就是我們這次需要進行處理的對象。
處理方法可以有多種,這里 Lemon 使用 pandas 中的 apply 來處理,相對來說,也是比較便捷的方式。
在 apply 函數中,使用 pd.Series 就可以達到我們的目的。
- # 將單位凈值和凈值日期單獨成列
- df[['最新單位凈值','凈值日期']] = df['tmp'].apply(pd.Series)
- dfdf = df.drop('tmp',axis=1)
- print(df)
結果如下:
02 有兩個參數的函數
pandas 中的 apply 函數應用自定義函數時,通常情況下,都是沒有參數或者一個參數,那么如果有兩個參數,是否還可以使用apply函數呢?
答案是可以的。
這里我們也來探討下。
還是以上面的案例為基礎雛形,同樣的,先從 akshare 獲取數據
- df1 = ak.fund_em_fund_name().head(20).tail(5)
- df1df1 = df1[['基金代碼','基金簡稱']]
接下來,自定義一個帶有兩個參數的函數,如下:
- # 自定義函數有兩個參數的情形
- # 獲取年度年底基金凈值數據
- def get_mutual_fund_year(code,year):
- year = str(year)
- df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")
- dfdf = df[['凈值日期', '單位凈值', '日增長率']]
- # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']
- df['凈值日期'] = pd.to_datetime(df['凈值日期'])
- dfdf = df.sort_values('凈值日期',ascending=False)
- dfdf = df.set_index('凈值日期')[year]
- dfdf = df.reset_index()
- unit_equity = df.head(1)['單位凈值'].values[0]
- date = df.head(1)['凈值日期'].values[0]
- return [unit_equity,date]
帶有兩個參數的自定義函數
然后,使用 apply 來應用上面這個帶兩個參數的自定義函數,核心要點就是嵌套使用 lambda 函數,固定其中一個參數,具體如下
- df1['tmp'] = df1['基金代碼'].apply(lambda code: get_mutual_fund_year(code, 2019))
后續,依舊是文本拆分,實現代碼如下:
- # 將單位凈值和凈值日期單獨成列
- df1[['最新單位凈值','凈值日期']] = df1['tmp'].apply(pd.Series)
- df1df1 = df1.drop('tmp',axis=1)
- print(df1)
應用場景
有同學可能會問,使用兩個參數的自定義函數,有什么用呢?
這里,Lemon 也分享一個應用場景:
根據上面的基礎雛形數據,針對具體的年度,建立一個下拉列表,選擇不同的年份時,返回不同年份的結果,包括文本數據、表格數據以及圖表等。
效果如下:
涉及到一些個人的數據,就沒有完整展示啦~~
其他的應用場景,歡迎大家來分享!