成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

使用Pandas分塊處理大文件

作者：Python123 2020-08-14 11:01:32

今天在處理快手的用戶數據時，遇到了一個差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發現差不多3千萬行數據。這僅僅是打開，如果要處理不知得多費勁。

使用Pandas分塊處理大文件

問題：今天在處理快手的用戶數據時，遇到了一個差不多600M的txt文本，用sublime打開都蹦了，我用pandas.read_table()去讀，差不多花了近2分鐘，最后打開發現差不多3千萬行數據。這僅僅是打開，如果要處理不知得多費勁。

解決：我翻了一下文檔，這一類讀取文件的函數有兩個參數：chunksize、iterator

原理就是不一次性把文件數據讀入內存中，而是分多次。

1、指定chunksize分塊讀取文件

read_csv 和 read_table 有一個 chunksize 參數，用以指定一個塊大小(每次讀取多少行)，返回一個可迭代的 TextFileReader 對象。

table=pd.read_table(path+'kuaishou.txt',sep='\t',chunksize=1000000) 
for df in table: 
    對df處理 
    #如df.drop(columns=['page','video_id'],axis=1,inplace=True) 
    #print(type(df),df.shape)打印看一下信息12345

我這里又對文件進行了劃分，分成若干個子文件分別處理(沒錯，to_csv也同樣有chunksize參數)

2、指定iterator=True

iterator=True同樣返回的是TextFileReader對象

reader = pd.read_table('tmp.sv', sep='\t', iterator=True) 
df=reader.get_chunk(10000) 
#通過get_chunk(size)，返回一個size行的塊 
#接著同樣可以對df處理

直接看看pandas文檔在這一方面的內容吧。

責任編輯：未麗燕來源：今日頭條

數據 Pandas 文件

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：国产精品久久久久久久久大全 | 精品久久久一区 | 综合久久一区 | 91久久久精品国产一区二区蜜臀 | 亚洲一区视频在线 | aaa一区 | 国产精品爱久久久久久久 | 精品一二区 | 人人鲁人人莫人人爱精品 | 欧美性精品 | 中文字幕在线看 | 欧美日韩一区二区三区四区 | 欧美日韩国产在线观看 | 亚洲欧美日韩在线 | 久综合 | 国产在线一区观看 | 日韩久草| 精品96久久久久久中文字幕无 | 精品国产不卡一区二区三区 | 国产精品国产精品国产专区不蜜 | 国产精品成人一区二区三区夜夜夜 | 成年视频在线观看福利资源 | 中文字幕日韩欧美一区二区三区 | 亚洲欧洲综合av | 国产精品无码久久久久 | 国产在线资源 | 精品粉嫩aⅴ一区二区三区四区 | 色网在线看 | 精品国产一区久久 | 天天色天天射天天干 | 中文字幕一区二区三区精彩视频 | 呦呦在线视频 | 久久精品a级毛片 | 亚洲性视频网站 | 在线永久看片免费的视频 | 欧美理论 | 黄色网络在线观看 | 久久久久久九九九九九九 | 国产精品自拍啪啪 | 欧美日韩综合 | 国产高清精品一区 |