成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

使用PyPolars,讓Pandas快三倍

譯文
開源 后端
本文介紹如何使用PyPolars庫加快Pandas工作流程。

[[422464]]

【51CTO.com快譯】Pandas是數據科學家處理數據的最重要的Python軟件包之一。Pandas庫主要用于數據探索和可視化,它隨帶大量的內置函數。Pandas無法處理大型數據集,因為它無法在CPU的所有核心上擴展或分布進程。

為了加快計算速度,您可以使用CPU的所有核心,并加快工作流程。有各種開源庫,包括Dask、Vaex、Modin、Pandarallel和PyPolars等,它們可以在CPU的多個核心上并行處理計算。我們在本文中將討論PyPolars庫的實現和用法,并將其性能與Pandas庫進行比較。

PyPolars是什么?

PyPolars是一個類似Pandas的開源Python數據框庫。PyPolars利用CPU的所有可用核心,因此處理計算比Pandas更快。PyPolars有一個類似Pandas的API。它是用Rust和Python包裝器編寫的。

理想情況下,當數據對于Pandas而言太大、對于Spark而言太小時,使用 PyPolars。

PyPolars如何工作?

PyPolars庫有兩個API,一個是Eager API,另一個是Lazy API。Eager API與Pandas的API非常相似,執行完成后立即獲得結果,這類似Pandas。Lazy API與Spark非常相似,一執行查詢,就形成地圖或方案。然后在CPU的所有核心上并行執行。

圖1. PyPolars API

PyPolars基本上是連接到Polars庫的Python綁定。PyPolars庫好用的地方是,其API與Pandas相似,這使開發人員更容易使用。

安裝:

可以使用以下命令從PyPl安裝 PyPolars:

  1. pip install py-polars 

并使用以下命令導入庫:

  1. iport pypolars as pl 

基準時間約束:

為了演示,我使用了一個含有2500萬個實例的大型數據集(~6.4Gb)。

圖2. Pandas和Py-Polars基本操作的基準時間數

針對使用Pandas和PyPolars庫的一些基本操作的上述基準時間數,我們可以觀察到 PyPolars幾乎比Pandas快2到3倍。

現在我們知道PyPolars有一個與Pandas非常相似的API,但仍沒有涵蓋Pandas的所有函數。比如說,PyPolars中就沒有.describe()函數,相反我們可以使用df_pypolars.to_pandas().describe()。

用法:

  1. import pandas as pd 
  2. import numpy as np 
  3. import pypolars as pl 
  4. import time 
  5. WARNING! 
  6. py-polars was renamed to polars, please install polars! 
  7. https://pypi.org/project/polars/ 
  8.  
  9. path = "data.csv" 

讀取數據:

  1. s = time.time() 
  2. df_pandas = pd.read_csv(path) 
  3. e = time.time() 
  4. pd_time = e - s 
  5. print("Pandas Loading Time = {}".format(pd_time)) 
  6. C:\ProgramData\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py:3071: DtypeWarning: Columns (2,7,14) have mixed types.Specify dtype option on import or set low_memory=False
  7.   has_raised = await self.run_ast_nodes(code_ast.body, cell_name, 
  8. Pandas Loading Time = 217.1734380722046 
  9.  
  10. s = time.time() 
  11. df_pypolars = pl.read_csv(path) 
  12. e = time.time() 
  13. pl_time = e - s  
  14. print("PyPolars Loading Time = {}".format(pl_time)) 
  15. PyPolars Loading Time = 114.0408570766449 

shape:

  1. s = time.time() 
  2. print(df_pandas.shape) 
  3. e = time.time() 
  4. pd_time = e - s 
  5. print("Pandas Shape Time = {}".format(pd_time)) 
  6. (25366521, 19) 
  7. Pandas Shape Time = 0.0 
  8.  
  9. s = time.time() 
  10. print(df_pypolars.shape) 
  11. e = time.time() 
  12. pl_time = e - s  
  13. print("PyPolars Shape Time = {}".format(pl_time)) 
  14. (25366521, 19) 
  15. PyPolars Shape Time = 0.0010192394256591797 

過濾:

  1. s = time.time() 
  2. temp = df_pandas[df_pandas['PAID_AMT']>500] 
  3. e = time.time() 
  4. pd_time = e - s 
  5. print("Pandas Filter Time = {}".format(pd_time)) 
  6. Pandas Filter Time = 0.8010377883911133 
  7.  
  8. s = time.time() 
  9. temp = df_pypolars[df_pypolars['PAID_AMT']>500] 
  10. e = time.time() 
  11. pl_time = e - s  
  12. print("PyPolars Filter Time = {}".format(pl_time)) 
  13. PyPolars Filter Time = 0.7790462970733643 

Groupby:

  1. s = time.time() 
  2. temp = df_pandas.groupby(by="MARKET_SEGMENT").agg({'PAID_AMT':np.sum'QTY_DISPENSED':np.mean}) 
  3. e = time.time() 
  4. pd_time = e - s 
  5. print("Pandas GroupBy Time = {}".format(pd_time)) 
  6. Pandas GroupBy Time = 3.5932095050811768 
  7.  
  8. s = time.time() 
  9. temp = df_pypolars.groupby(by="MARKET_SEGMENT").agg({'PAID_AMT':np.sum'QTY_DISPENSED':np.mean}) 
  10. e = time.time() 
  11. pd_time = e - s 
  12. print("PyPolars GroupBy Time = {}".format(pd_time)) 
  13. PyPolars GroupBy Time = 1.2332513110957213 

運用函數:

  1. %%time 
  2.  
  3. s = time.time() 
  4. temp = df_pandas['PAID_AMT'].apply(round) 
  5. e = time.time() 
  6. pd_time = e - s 
  7. print("Pandas Loading Time = {}".format(pd_time)) 
  8. Pandas Loading Time = 13.081078290939331 
  9. Wall time: 13.1 s 
  10.  
  11. s = time.time() 
  12. temp = df_pypolars['PAID_AMT'].apply(round) 
  13. e = time.time() 
  14. pd_time = e - s 
  15. print("PyPolars Loading Time = {}".format(pd_time)) 
  16. PyPolars Loading Time = 6.03610580444336 

值計算:

  1. %%time 
  2.  
  3. s = time.time() 
  4. temp = df_pandas['MARKET_SEGMENT'].value_counts() 
  5. e = time.time() 
  6. pd_time = e - s 
  7. print("Pandas ValueCounts Time = {}".format(pd_time)) 
  8. Pandas ValueCounts Time = 2.8194501399993896 
  9. Wall time: 2.82 s 
  10.  
  11. %%time 
  12.  
  13. s = time.time() 
  14. temp = df_pypolars['MARKET_SEGMENT'].value_counts() 
  15. e = time.time() 
  16. pd_time = e - s 
  17. print("PyPolars ValueCounts Time = {}".format(pd_time)) 
  18. PyPolars ValueCounts Time = 1.7622406482696533 
  19. Wall time: 1.76 s 

描述:

  1. %%time 
  2.  
  3. s = time.time() 
  4. temp = df_pandas.describe() 
  5. e = time.time() 
  6. pd_time = e - s 
  7. print("Pandas Describe Time = {}".format(pd_time)) 
  8. Pandas Describe Time = 15.48347520828247 
  9. Wall time: 15.5 s 
  10.  
  11. %%time 
  12.  
  13. s = time.time() 
  14. temp = df_pypolars[temp_cols].to_pandas().describe() 
  15. e = time.time() 
  16. pd_time = e - s 
  17. print("PyPolars Describe Time = {}".format(pd_time)) 
  18. PyPolars Describe Time = 44.31892013549805 
  19. Wall time: 44.3 s 

去重:

  1. %%time 
  2.  
  3. s = time.time() 
  4. temp = df_pandas['MARKET_SEGMENT'].unique() 
  5. e = time.time() 
  6. pd_time = e - s 
  7. print("Pandas Unique Time = {}".format(pd_time)) 
  8. Pandas Unique Time = 2.1443397998809814 
  9. Wall time: 2.15 s 
  10.  
  11. %%time 
  12.  
  13. s = time.time() 
  14. temp = df_pypolars['MARKET_SEGMENT'].unique() 
  15. e = time.time() 
  16. pd_time = e - s 
  17. print("PyPolars Unique Time = {}".format(pd_time)) 
  18. PyPolars Unique Time = 1.0320448875427246 
  19. Wall time: 1.03 s 

保存數據:

  1. s = time.time() 
  2. df_pandas.to_csv("delete_1May.csv"index=False
  3. e = time.time() 
  4. pd_time = e - s 
  5. print("Pandas Saving Time = {}".format(pd_time)) 
  6. Pandas Saving Time = 779.0419402122498 
  7.  
  8. s = time.time() 
  9. df_pypolars.to_csv("delete_1May.csv"
  10. e = time.time() 
  11. pd_time = e - s 
  12. print("PyPolars Saving Time = {}".format(pd_time)) 
  13. PyPolars Saving Time = 439.16817021369934 

結論

我們在本文中簡要介紹了PyPolars庫,包括它的實現、用法以及在一些基本操作中將其基準時間數與Pandas相比較的結果。請注意,PyPolars的工作方式與Pandas非常相似, PyPolars是一種節省內存的庫,因為它支持的內存是不可變內存。

可以閱讀說明文檔詳細了解該庫。還有其他各種開源庫來并行處理Pandas操作,并加快進程。

參考資料:

Polars說明文檔和GitHub存儲庫:https://github.com/ritchie46/polars

[1] Polars Documentation and GitHub repository: https://github.com/ritchie46/polars

原文標題:Make Pandas 3 Times Faster with PyPolars,作者:Satyam Kumar

【51CTO譯稿,合作站點轉載請注明原文譯者和出處為51CTO.com】

責任編輯:華軒 來源: 51CTO
相關推薦

2022-09-23 17:17:33

WSL2鴻蒙

2018-01-19 08:04:42

云服務云基礎設施私有云

2025-03-25 10:40:53

2009-08-03 14:21:57

DDR3服務器內存

2021-06-07 11:40:26

Python命令代碼

2014-07-17 14:08:37

阿里云

2009-07-24 17:08:02

IBMPower

2016-08-01 10:38:14

華為

2011-07-29 11:07:35

寬帶互聯網信息

2011-07-05 09:29:40

思杰XenClient虛擬機服務器

2010-03-04 09:23:11

2010-09-26 13:18:12

Windows Pho

2009-05-11 18:40:31

內存寶德機架

2022-10-27 07:09:34

DjangoAPIRedis

2021-08-03 14:12:57

API攻擊流量安全

2022-05-24 20:00:56

XR(VR/AR)亞馬遜云科技

2012-06-14 09:33:34

360手機操作系統

2020-10-21 10:41:06

DDOS安全Web

2018-11-26 12:29:27

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产一区二区免费 | 久久久久久精 | 免费久草| 欧美在线一区二区视频 | 中日韩av | 国产乱码精品一区二区三区忘忧草 | 免费一区二区 | 一区二区在线不卡 | 91高清在线观看 | 国产色 | 中文字幕欧美一区 | 天天玩天天操天天干 | 中文字幕高清在线 | 又黑又粗又长的欧美一区 | 欧美日韩在线精品 | 2022国产精品| 日韩成人在线观看 | 国产精品免费一区二区三区四区 | av资源在线看 | 免费成人在线网站 | 亚洲国产区| 午夜免费观看 | 手机看片在线播放 | 欧美5区| 成人午夜网 | 操人网站 | 成人综合一区 | 91视频国产区| 一区二区视频 | 国产在线观看一区二区 | av电影一区| 日韩中文字幕 | 一区二区三区四区国产 | 久久激情视频 | 久久9999久久 | 欧美成人第一页 | 日韩在线精品视频 | 九九99久久 | 欧美日韩一区二区三区四区五区 | 亚洲社区在线 | 午夜在线小视频 |