實用的Pandas技巧，估計80%的人不知道

作者：佚名 2021-01-12 12:33:20

開發后端

今天，Lemon也會分享下自定義函數有兩個參數的情況，該如何解決。接下來，還是先更新此前文章的代碼。

之前跟大家分享了在 pandas 的 apply 函數中用 pd.Series 功能來拆分文本，文章鏈接如下：

Pandas 的這個知識點，估計 80% 的人都得掛！

數據來源于 akshare，由于 akshare 版本的更新，部分接口發生變化，致使上面文章里的代碼運行會出錯。因此今天也會更新下代碼。

此外，在上面文章里應用到了 apply 使用自定義函數的功能，之前文章里，自定義函數只有一個參數。有同學提了一個問題，如果自定義函數有兩個參數，該怎么辦？

嗯嗯嗯，這是一個好問題！

今天，Lemon也會分享下自定義函數有兩個參數的情況，該如何解決。

接下來，還是先更新此前文章的代碼。

01 使用apply拆分文本

Pandas 中 apply 函數，應用廣泛，今天要跟大家分享一個使用的技巧，使用 apply 將 dataframe 中內容為 list 的列拆分為多列。

拆分前的數據情況，如下圖紅色標注所示：

拆分后，如下圖所示：

這個案例中，Lemon 使用的數據來自 akshare ，在開始前，引入相關 package ：

# -*- coding: utf-8 -*-  
"""  
@Author: Lemon  
@出品：Python數據之道  
@Homepage: liyangbit.com  
"""  
import numpy as np  
import pandas as pd  
import akshare as ak

Lemon 使用的幾個 Python 庫的版本信息如下：

print('numpy版本：{}'.format(np.__version__))  
print('pandas版本：{}'.format(pd.__version__))  
print('akshare版本：{}'.format(ak.__version__)) 
# numpy版本：1.18.1  
# pandas版本：1.0.3  
# akshare版本：0.7.53

如果代碼運行出現問題，請先檢查下這幾個Python庫的版本是否與上面的一致

先從 akshare 獲取需要的數據，分為兩步，第一步是獲取基金代碼的列表，如下：

df = ak.fund_em_fund_name().head(20).tail(5)  
dfdf = df[['基金代碼','基金簡稱']]  
print(df)

第二步是獲取基金凈值數據和凈值日期，通過一個自定義函數來獲取，自定義函數如下：

# 自定義函數只有一個參數的情形  
# 獲取基金單位凈值以及凈值日期  
def get_mutual_fund(code):  
    df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")  
    dfdf = df[['凈值日期', '單位凈值','日增長率']]  
    # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']  
    df['凈值日期'] = pd.to_datetime(df['凈值日期'])  
    dfdf = df.sort_values('凈值日期',ascending=False)  
    unit_equity = df.head(1)['單位凈值'].values[0]  
    date_latest = df.head(1)['凈值日期'].values[0]  
    return [unit_equity, date_latest]

對于這個自定義函數，在 pandas 使用 apply 來應用自定義函數，這是使用 apply 的一種常用的方法，如下：

# 獲取基金最新的單位凈值和凈值日期  
df['tmp'] = df['基金代碼'].apply(get_mutual_fund)  
print(df)

獲取的數據截圖如下：

文本拆分

上圖中的 tmp 列，就是我們這次需要進行處理的對象。

處理方法可以有多種，這里 Lemon 使用 pandas 中的 apply 來處理，相對來說，也是比較便捷的方式。

在 apply 函數中，使用 pd.Series 就可以達到我們的目的。

# 將單位凈值和凈值日期單獨成列  
df[['最新單位凈值','凈值日期']] = df['tmp'].apply(pd.Series)  
dfdf = df.drop('tmp',axis=1)  
print(df)

結果如下：

02 有兩個參數的函數

pandas 中的 apply 函數應用自定義函數時，通常情況下，都是沒有參數或者一個參數，那么如果有兩個參數，是否還可以使用apply函數呢？

答案是可以的。

這里我們也來探討下。

還是以上面的案例為基礎雛形，同樣的，先從 akshare 獲取數據

df1 = ak.fund_em_fund_name().head(20).tail(5)  
df1df1 = df1[['基金代碼','基金簡稱']]

接下來，自定義一個帶有兩個參數的函數，如下：

# 自定義函數有兩個參數的情形  
# 獲取年度年底基金凈值數據  
def get_mutual_fund_year(code,year):  
    year = str(year)  
    df = ak.fund_em_open_fund_info(fund=code, indicator="單位凈值走勢")  
    dfdf = df[['凈值日期', '單位凈值', '日增長率']]  
    # df.columns = ['凈值日期', '單位凈值', 'equityReturn', 'unitMoney']  
    df['凈值日期'] = pd.to_datetime(df['凈值日期']) 
    dfdf = df.sort_values('凈值日期',ascending=False)  
    dfdf = df.set_index('凈值日期')[year] 
    dfdf = df.reset_index()  
    unit_equity = df.head(1)['單位凈值'].values[0]  
    date = df.head(1)['凈值日期'].values[0]  
    return [unit_equity,date]

帶有兩個參數的自定義函數

然后，使用 apply 來應用上面這個帶兩個參數的自定義函數，核心要點就是嵌套使用 lambda 函數，固定其中一個參數，具體如下

df1['tmp'] = df1['基金代碼'].apply(lambda code: get_mutual_fund_year(code, 2019))

后續，依舊是文本拆分，實現代碼如下：

# 將單位凈值和凈值日期單獨成列  
df1[['最新單位凈值','凈值日期']] = df1['tmp'].apply(pd.Series)  
df1df1 = df1.drop('tmp',axis=1)  
print(df1)

應用場景

有同學可能會問，使用兩個參數的自定義函數，有什么用呢？

這里，Lemon 也分享一個應用場景：

根據上面的基礎雛形數據，針對具體的年度，建立一個下拉列表，選擇不同的年份時，返回不同年份的結果，包括文本數據、表格數據以及圖表等。

效果如下：

涉及到一些個人的數據，就沒有完整展示啦~~

其他的應用場景，歡迎大家來分享！

責任編輯：龐桂玉來源：戀習Python

Pandas 技巧代碼

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實用的Pandas技巧，估計80%的人不知道