成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

在pandas中使用pipe()提升代碼可讀性

作者：費(fèi)弗里 2020-11-08 14:36:27

大數(shù)據(jù) 數(shù)據(jù)分析

我們?cè)诶胮andas開(kāi)展數(shù)據(jù)分析時(shí)，應(yīng)盡量避免過(guò)于「碎片化」的組織代碼，尤其是創(chuàng)建出過(guò)多不必要的「中間變量」。

1. 簡(jiǎn)介

我們?cè)诶胮andas開(kāi)展數(shù)據(jù)分析時(shí)，應(yīng)盡量避免過(guò)于「碎片化」的組織代碼，尤其是創(chuàng)建出過(guò)多不必要的「中間變量」，既浪費(fèi)了「內(nèi)存」，又帶來(lái)了關(guān)于變量命名的麻煩，更不利于整體分析過(guò)程代碼的可讀性，因此以流水線方式組織代碼非常有必要。

圖1

而在以前我撰寫(xiě)的一些文章中，為大家介紹過(guò)pandas中的eval()和query()這兩個(gè)幫助我們鏈?zhǔn)綍?shū)寫(xiě)代碼，搭建數(shù)據(jù)分析工作流的實(shí)用API，再加上下面要介紹的pipe()，我們就可以將任意pandas代碼完美組織成流水線形式。

2. 在pandas中靈活利用pipe()pipe()

顧名思義，就是專(zhuān)門(mén)用于對(duì)Series和DataFrame操作進(jìn)行流水線(pipeline)改造的API，其作用是將嵌套的函數(shù)調(diào)用過(guò)程改造為「鏈?zhǔn)健惯^(guò)程，其第一個(gè)參數(shù)func傳入作用于對(duì)應(yīng)Series或DataFrame的函數(shù)。

具體來(lái)說(shuō)pipe()有兩種使用方式，「第一種方式」下，傳入函數(shù)對(duì)應(yīng)的第一個(gè)位置上的參數(shù)必須是目標(biāo)Series或DataFrame，其他相關(guān)的參數(shù)使用常規(guī)的「鍵值對(duì)」方式傳入即可，就像下面的例子一樣，我們自編函數(shù)對(duì)「泰坦尼克數(shù)據(jù)集」進(jìn)行一些基礎(chǔ)的特征工程處理：

import pandas as pd 
 
train = pd.read_csv('train.csv') 
 
def do_something(data, dummy_columns): 
    ''' 
    自編示例函數(shù) 
    ''' 
 
    data = ( 
        pd 
        # 對(duì)指定列生成啞變量 
        .get_dummies(data, # 先刪除data中指定列 
                     columns=dummy_columns, 
                     drop_first=True) 
    ) 
     
    return data 
 
# 鏈?zhǔn)搅魉€ 
( 
    train 
    # 將Pclass列轉(zhuǎn)換為字符型以便之后的啞變量處理 
    .eval('PclassPclass=Pclass.astype("str")', engine='python') 
    # 刪除指定列 
    .drop(columns=['PassengerId', 'Name', 'Cabin', 'Ticket']) 
    # 利用pipe以鏈?zhǔn)降姆绞秸{(diào)用自編函數(shù) 
    .pipe(do_something,  
          dummy_columns=['Pclass', 'Sex', 'Embarked']) 
    # 刪除含有缺失值的行 
    .dropna() 
)

可以看到，在緊接著drop()下一步的pipe()中，我們將自編函數(shù)作為其第一個(gè)參數(shù)傳入，從而將一系列操作巧妙地嵌入到鏈?zhǔn)竭^(guò)程中。

「第二種使用方式」適合目標(biāo)Series和DataFrame不為傳入函數(shù)第一個(gè)參數(shù)的情況，譬如下面的例子中我們假設(shè)目標(biāo)輸入數(shù)據(jù)為第二個(gè)參數(shù)data2，則pipe()的第一個(gè)參數(shù)應(yīng)以(函數(shù)名, '參數(shù)名稱(chēng)')的格式傳入：

def do_something(data1, data2, axis): 
    ''' 
    自編示例函數(shù) 
    ''' 
 
    data = ( 
        pd 
        .concat([data1, data2], axisaxis=axis) 
    ) 
     
    return data 
 
# pipe()第二種使用方式 
( 
    train 
    .pipe((do_something, 'data2'), data1=train, axis=0) 
)

在這樣的設(shè)計(jì)下我們可以避免很多函數(shù)嵌套調(diào)用方式，隨心所欲地優(yōu)化我們的代碼~

責(zé)任編輯：趙寧寧來(lái)源： Python大數(shù)據(jù)分析

pandas 數(shù)據(jù)分析 pipe()

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

主站蜘蛛池模板：亚洲精品一区二三区不卡 | 精品无码久久久久久久动漫 | 国产精品性做久久久久久 | 看av在线 | 最近中文字幕在线视频1 | 国产精品99久久久久久宅男 | 在线观看国产视频 | 欧美日韩亚 | 日皮视频免费 | 国产综合区 | 亚洲精品日韩精品 | 国产成人免费视频网站视频社区 | 久久久亚洲一区 | 91精品国产色综合久久 | 日韩福利 | 欧美日韩免费一区二区三区 | 成人av高清 | 欧美久久久网站 | 欧美不卡 | 国产一区2区 | 在线视频成人 | 亚洲草草视频 | 亚洲精品乱码久久久久久蜜桃 | 国产一区二区影院 | 在线免费观看毛片 | 免费一级网站 | 天天干夜夜操视频 | 91日韩 | 欧美激情在线观看一区二区三区 | 国产日韩精品一区二区 | 精品三级在线观看 | 在线免费观看日本视频 | 完全免费在线视频 | 中文字幕国产一区 | 久久在看 | 欧美日本韩国一区二区 | 天堂在线免费视频 | 精品一区二区三区在线观看国产 | 日韩亚洲视频 | 亚洲精品乱 | 色婷婷一区二区三区四区 |