成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

教你幾招,Pandas輕松處理超大規(guī)模數(shù)據(jù)

開發(fā) 后端
有多種技術(shù)可用于大數(shù)據(jù)處理,它們無需額外付出投資,也不會耗費大量加載的時間。本文將介紹其中三種使用 Pandas 處理大規(guī)模數(shù)據(jù)集的技術(shù)。

 [[349462]]

處理大規(guī)模數(shù)據(jù)集時常是棘手的事情,尤其在內(nèi)存無法完全加載數(shù)據(jù)的情況下。在資源受限的情況下,可以使用 Python Pandas 提供的一些功能,降低加載數(shù)據(jù)集的內(nèi)存占用。可用技術(shù)包括壓縮、索引和數(shù)據(jù)分塊。

在上述過程中需要解決一些問題,其中之一就是數(shù)據(jù)量過大。如果數(shù)據(jù)量超出本機內(nèi)存的容量,項目執(zhí)行就會產(chǎn)生問題。

對此有哪些解決方案?

有多種解決數(shù)據(jù)量過大問題的方法。它們或是消耗時間,或是需要增加投資。

可能的解決方案

  1.  投資解決:新購有能力處理整個數(shù)據(jù)集,具有更強 CPU 和更大內(nèi)存的計算機。或是去租用云服務(wù)或虛擬內(nèi)存,創(chuàng)建處理工作負載的集群。
  2.  耗時解決:如果內(nèi)存不足以處理整個數(shù)據(jù)集,而硬盤的容量要遠大于內(nèi)存,此時可考慮使用硬盤存儲數(shù)據(jù)。但使用硬盤管理數(shù)據(jù)會大大降低處理性能,即便是 SSD 也要比內(nèi)存慢很多。

只要資源允許,這兩種解決方法均可行。如果項目資金充裕,或是不惜任何時間代價,那么上述兩種方法是最簡單也是最直接的解決方案。

但如果情況并非如此呢?也許你的資金有限,或是數(shù)據(jù)集過大,從磁盤加載將增加 5~6 倍甚至更多的處理時間。是否有無需額外資金投入或時間開銷的大數(shù)據(jù)解決方案呢?

這個問題正中我的下懷。

有多種技術(shù)可用于大數(shù)據(jù)處理,它們無需額外付出投資,也不會耗費大量加載的時間。本文將介紹其中三種使用 Pandas 處理大規(guī)模數(shù)據(jù)集的技術(shù)。

壓  縮

第一種技術(shù)是數(shù)據(jù)壓縮。壓縮并非指將數(shù)據(jù)打包為 ZIP 文件,而是以壓縮格式在內(nèi)存中存儲數(shù)據(jù)。

換句話說,數(shù)據(jù)壓縮就是一種使用更少內(nèi)存表示數(shù)據(jù)的方法。數(shù)據(jù)壓縮有兩種類型,即無損壓縮和有損壓縮。這兩種類型只影響數(shù)據(jù)的加載,不會影響到處理代碼。

無損壓縮

無損壓縮不會對數(shù)據(jù)造成任何損失,即原始數(shù)據(jù)和壓縮后的數(shù)據(jù)在語義上保持不變。執(zhí)行無損壓縮有三種方式。在下文中,將使用美國按州統(tǒng)計的新冠病毒病例數(shù)據(jù)集依次介紹。

  •  加載特定的數(shù)據(jù)列

例子中所使用的數(shù)據(jù)集具有如下結(jié)構(gòu): 

  1. import pandas as pd  
  2. data = pd.read_csv("https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv")  
  3. data.sample(10) 

加載整個數(shù)據(jù)集需要占用 111MB 內(nèi)存!

如果我們只需要數(shù)據(jù)集中的兩列,即州名和病例數(shù),那么為什么要加載整個數(shù)據(jù)集呢?加載所需的兩列數(shù)據(jù)只需 36MB,可降低內(nèi)存使用 32%。

使用 Pandas 加載所需數(shù)據(jù)列的代碼如下:

本節(jié)使用的代碼片段如下: 

  1. # 加載所需軟件庫 Import needed library  
  2. import pandas as pd  
  3. # 數(shù)據(jù)集  
  4. csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"  
  5. # 加載整個數(shù)據(jù)集  
  6. data = pd.read_csv(csv)  
  7. data.info(verbose=Falsememory_usage="deep" 
  8. # 創(chuàng)建數(shù)據(jù)子集  
  9. df = data[["county", "cases"]]  
  10. df.info(verbose=Falsememory_usage="deep" 
  11. # 加速所需的兩列數(shù)據(jù)  
  12. df_2col = pd.read_csv(csv , usecols=["county", "cases"])  
  13. df_2col.info(verbose=Falsememory_usage="deep"

代碼地址:

https://gist.github.com/SaraM92/3ba6cac1801b20f6de1ef3cc4a18c843#file-column_selecting-py

  •  操作數(shù)據(jù)類型

另一個降低數(shù)據(jù)內(nèi)存使用量的方法是截取數(shù)值項。例如將 CSV 加載到 DataFrame,如果文件中包含數(shù)值,那么一個數(shù)值就需要 64 個字節(jié)存儲。但可通過使用 int 格式截取數(shù)值以節(jié)省內(nèi)存。

  •  int8 存儲值的范圍是 -128 到 127;
  •  int16 存儲值的范圍是 -32768 到 32767;
  •  int64 存儲值的范圍是 -9223372036854775808 到 9223372036854775807。

如果可預(yù)先確定數(shù)值不大于 32767,那么就可以使用 int16 或 int32 類型,該列的內(nèi)存占用能降低 75%。

假定每個州的病例數(shù)不超過 32767(雖然現(xiàn)實中并非如此),那么就可截取該列為 int16 類型而非 int64。

  •  稀疏列

如果數(shù)據(jù)集的一或多個列中具有大量的 NaN 空值,那么可以使用 稀疏列表示 降低內(nèi)存使用,以免空值耗費內(nèi)存。

假定州名這一列存在一些空值,我們需要跳過所有包含空值的行。該需求可使用 pandas.sparse 輕松實現(xiàn)(譯者注:原文使用 Sparse Series,但在 Pandas 1.0.0 中已經(jīng)移除了 SparseSeries)。

有損壓縮

如果無損壓縮并不滿足需求,還需要進一步壓縮,那么應(yīng)該如何做?這時可使用有損壓縮,權(quán)衡內(nèi)存占用而犧牲數(shù)據(jù)百分之百的準(zhǔn)確性。

有損壓縮有兩種方式,即修改數(shù)值和抽樣。

  •  修改數(shù)值:有時并不需要數(shù)值保留全部精度,這時可以將 int64 截取為 int32 甚至是 int16。
  •  抽樣:如果需要確認某些州的新冠病例數(shù)要高于其它州,可以抽樣部分州的數(shù)據(jù),查看哪些州具有更多的病例。這種做法是一種有損壓縮,因為其中并未考慮到所有的數(shù)據(jù)行。

第二種技術(shù):數(shù)據(jù)分塊(chunking)

另一個處理大規(guī)模數(shù)據(jù)集的方法是數(shù)據(jù)分塊。將大規(guī)模數(shù)據(jù)切分為多個小分塊,進而對各個分塊分別處理。在處理完所有分塊后,可以比較結(jié)果并給出最終結(jié)論。

本文使用的數(shù)據(jù)集中包含了 1923 行數(shù)據(jù)。

假定我們需要找出具有最多病例的州,那么可以將數(shù)據(jù)集切分為每塊 100 行數(shù)據(jù),分別處理每個數(shù)據(jù)塊,從這各個小結(jié)果中獲取最大值。

本節(jié)代碼片段如下: 

  1. # 導(dǎo)入所需軟件庫  
  2. import pandas as pd  
  3. # 數(shù)據(jù)集  
  4. csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"  
  5. # 循環(huán)處理每個數(shù)據(jù)塊,獲取每個數(shù)據(jù)塊中的最大值 
  6. result = {}  
  7. for chunk in pd.read_csv(csv, chunksize=100):  
  8. max_case = chunk["cases"].max()  
  9. max_case_county = chunk.loc[chunk[ cases ] == max_case,  county ].iloc[0]  
  10. result[max_case_county] = max_case  
  11. # 給出結(jié)果 
  12. print(max(result, key=result.get) , result[max(result, key=result.get)]) 

代碼地址:

https://gist.github.com/SaraM92/808ed30694601e5eada5e283b2275ed7#file-chuncking-py

第三種方法:索引

數(shù)據(jù)分塊非常適用于數(shù)據(jù)集僅加載一次的情況。但如果需要多次加載數(shù)據(jù)集,那么可以使用索引技術(shù)。

索引可理解為一本書的目錄。無需讀完整本書就可以獲取所需得信息。

例如,分塊技術(shù)非常適用于獲取指定州的病例數(shù)。編寫如下的簡單函數(shù),就能實現(xiàn)這一功能。

索引 vs 分塊

分塊需讀取所有數(shù)據(jù),而索引只需讀取部分數(shù)據(jù)。

上面的函數(shù)加載了每個分塊中的所有行,但我們只關(guān)心其中的一個州,這導(dǎo)致大量的額外開銷。可使用 Pandas 的數(shù)據(jù)庫操作,例如簡單的做法是使用 SQLite 數(shù)據(jù)庫。

首先,需要將 DataFrame 加載到 SQLite 數(shù)據(jù)庫,代碼如下: 

  1. import sqlite3 
  2. csv = "https://raw.githubusercontent.com/nytimes/covid-19-data/master/us-counties.csv"  
  3. # 創(chuàng)建新的數(shù)據(jù)庫文件  
  4. db = sqlite3.connect("cases.sqlite")  
  5. # 按塊加載 CSV 文件  
  6. for c in pd.read_csv(csv, chunksize=100): 
  7. # 將所有數(shù)據(jù)行加載到新的數(shù)據(jù)庫表中  
  8. c.to_sql("cases", db, if_exists="append" 
  9. # 為“state”列添加索引  
  10. db.execute("CREATE INDEX state ON cases(state)")  
  11. db.close() 

代碼地址:

https://gist.github.com/SaraM92/5b445d5b56be2d349cdfa988204ff5f3#file-load_into_db-py

為使用數(shù)據(jù)庫,下面需要重寫 get_state_info 函數(shù)。

這樣可降低內(nèi)存占用 50%。

小  結(jié)

處理大規(guī)模數(shù)據(jù)集時常是棘手的事情,尤其在內(nèi)存無法完全加載數(shù)據(jù)的情況下。一些解決方案或是耗時,或是耗費財力。畢竟增加資源是最簡單直接的解決方案。

但是在資源受限的情況下,可以使用 Pandas 提供的一些功能,降低加載數(shù)據(jù)集的內(nèi)存占用。其中的可用技術(shù)包括壓縮、索引和數(shù)據(jù)分塊。 

 

責(zé)任編輯:龐桂玉 來源: 機器學(xué)習(xí)算法與Python學(xué)習(xí)
相關(guān)推薦

2020-07-23 14:03:09

數(shù)據(jù)中心數(shù)據(jù)網(wǎng)絡(luò)

2022-12-30 14:14:51

數(shù)據(jù)中心服務(wù)器

2020-12-11 19:52:06

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-02-14 11:24:36

2021-03-24 11:13:12

數(shù)據(jù)中心云計算物聯(lián)網(wǎng)

2024-10-21 17:40:22

2017-09-22 10:31:17

超大規(guī)模微型數(shù)據(jù)中心

2017-09-25 16:48:12

數(shù)據(jù)中心超大規(guī)模微型

2022-04-07 13:42:42

數(shù)據(jù)中心運營商數(shù)據(jù)

2023-08-22 16:14:36

2023-08-02 15:46:29

2016-11-09 15:40:15

大數(shù)據(jù)數(shù)據(jù)中心云數(shù)據(jù)中心

2020-12-09 09:47:05

數(shù)據(jù)中心IT硬件能源消耗

2015-10-27 11:32:41

數(shù)據(jù)中心超大規(guī)模數(shù)據(jù)中心

2023-10-10 14:05:25

數(shù)據(jù)中心云基礎(chǔ)設(shè)施

2016-10-12 09:22:51

數(shù)據(jù)分析技術(shù)Apache Kyli

2016-12-14 11:44:25

阿里Docker大數(shù)據(jù)

2020-01-07 16:45:43

數(shù)據(jù)中心服務(wù)器IT

2023-12-12 16:54:28

數(shù)據(jù)中心人工智能

2014-03-26 17:00:01

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲精品一区二区网址 | 国产精品免费播放 | 在线视频一区二区三区 | 麻豆av一区二区三区久久 | 中文字幕视频在线观看 | 久久久久网站 | 免费毛片网| 国产美女黄色片 | 四虎影院新网址 | 国产精品一区视频 | 草草视频在线免费观看 | 秋霞a级毛片在线看 | 日韩在线 | 久久亚洲天堂 | 一级毛片视频在线 | 日韩视频精品在线 | 国产一区二区电影 | 国产成人jvid在线播放 | 蜜桃一区二区三区 | 久国久产久精永久网页 | 亚洲二区在线 | 国产乱码精品1区2区3区 | 亚洲综合日韩精品欧美综合区 | 亚洲成人综合在线 | 国产农村一级片 | 国产一级大片 | 欧美在线亚洲 | 亚洲狠狠爱一区二区三区 | 久久久成人免费一区二区 | 国产99小视频 | 成人午夜影院 | 亚洲成色777777在线观看影院 | 我想看一级黄色毛片 | 国产精品久久欧美久久一区 | 国产精品精品视频一区二区三区 | av在线一区二区三区 | 中文字幕成人av | 国产一区免费 | 91在线免费视频 | av香蕉| 精品在线一区 |