成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

AI.x社區(qū)

軟考社區(qū)

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認證

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認證華為認證廠商認證 IT技術(shù)PMP項目管理免費題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

一行代碼，Pandas秒變分布式，快速處理TB級數(shù)據(jù)

作者：佚名 2018-03-08 11:43:18

大數(shù)據(jù) 分布式

剛剛在Pandas上為十幾KB的數(shù)據(jù)做好了測試寫好了處理腳本，上百TB的同類大型數(shù)據(jù)集擺到了面前。這時候，你可能面臨著一個兩難的選擇：繼續(xù)用Pandas?可能會相當(dāng)慢，上百TB數(shù)據(jù)不是它的菜。

剛剛在Pandas上為十幾KB的數(shù)據(jù)做好了測試寫好了處理腳本，上百TB的同類大型數(shù)據(jù)集擺到了面前。這時候，你可能面臨著一個兩難的選擇：

繼續(xù)用Pandas?可能會相當(dāng)慢，上百TB數(shù)據(jù)不是它的菜。

(ಥ_ಥ) 然而，Spark啊分布式啊什么的，學(xué)習(xí)曲線好陡峭哦~在Pandas里寫的處理腳本都作廢了好桑心哦~

別灰心，你可能真的不需要Spark了。

加州大學(xué)伯克利分校RiseLab最近在研究的Pandas on Ray，就是為了讓Pandas運行得更快，能搞定TB級數(shù)據(jù)而生的。這個DataFrame庫想要滿足現(xiàn)有Pandas用戶不換API，就提升性能、速度、可擴展性的需求。

研究團隊說，只需要替換一行代碼，8核機器上的Pandas查詢速度就可以提高4倍。

其實也就是用一個API替換了Pandas中的部分函數(shù)，這個API基于Ray運行。Ray是伯克利年初推出的分布式AI框架，能用幾行代碼，將家用電腦上的原型算法轉(zhuǎn)換成適合大規(guī)模部署的分布式計算應(yīng)用。

Pandas on Ray的性能雖說比不上另一個分布式DataFrame庫Dask，但更容易上手，用起來和Pandas幾乎沒有差別。用戶不需要懂分布式計算，也不用學(xué)一個新的API。

與Dask不同的是，Ray使用了Apache Arrow里的共享內(nèi)存對象存儲，不需要對數(shù)據(jù)進行序列化和復(fù)制，就能跨進程通訊。

在8核32G內(nèi)存的AWS m5.2xlarge實例上，Ray、Dask和Pandas讀取csv的性能對比

它將Pandas包裹起來并透明地把數(shù)據(jù)和計算分布出去。用戶不需要知道他們的系統(tǒng)或者集群有多少核，也不用指定如何分配數(shù)據(jù)，可以繼續(xù)用之前的Pandas notebook。

前面說過，使用Pandas on Ray需要替換一行代碼，其實就是換掉導(dǎo)入語句。

# import pandas as pd 
import ray.dataframe as pd

這時候你應(yīng)該看到：

初始化完成，Ray自動識別了你機器上可用的核心，接下來的用法，就和Pandas一樣了。

Pandas on Ray目前還處于早期，實現(xiàn)了Pandas的一部分功能。以一個股票波動的數(shù)據(jù)集為例，它所支持的Pandas功能包括檢查數(shù)據(jù)、查詢上漲的天數(shù)、按日期索引、按日期查詢、查詢股票上漲的所有日期等等。

這個項目的最終目標是在Ray上完整實現(xiàn)Pandas API的功能，讓用戶可以在云上用Pandas。

目前，伯克利RiseLab的研究員們已經(jīng)用45天時間，實現(xiàn)了Pandas DataFrame API的25%。

革命尚未成功，項目仍在繼續(xù)。這些人都在為之努力：

Devin Petersohn, Robert Nishihara, Philipp Moritz, Simon Mo, Kunal Gosar, Helen Che, Harikaran Subbaraj, Peter Veerman, Rohan Singh, Joseph Gonzalez, Ion Stoica, Anthony Joseph

更深入地了解Pandas on Ray請看RiseLab博客原文：https://rise.cs.berkeley.edu/blog/pandas-on-ray/
試用Pandas on Ray請參考這個文檔：https://rise.cs.berkeley.edu/blog/pandas-on-ray/
給Ray團隊提要求請到GitHub開issue：https://github.com/ray-project/ray/issues
如果對Ray感興趣，可以讀一讀他們的論文：https://arxiv.org/abs/1712.05889

責(zé)任編輯：未麗燕來源：量子位

Pandas TB級數(shù)據(jù)Spark

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

主站蜘蛛池模板：日本在线观看视频 | 久久精品欧美一区二区三区麻豆 | 视频一区二区三区在线观看 | 亚洲午夜av久久乱码 | 日韩黄| 日韩福利在线 | 玖玖在线精品 | 色婷婷综合久久久中字幕精品久久 | 久久免费精品视频 | 久久av网| 久久久看 | 成人欧美一区二区 | 欧美日本在线观看 | 久久久久久国产一区二区三区 | 国产农村一级国产农村 | 中文字幕在线免费观看 | 荷兰欧美一级毛片 | 97伦理最新伦理 | 久久久久久国产精品免费免费狐狸 | 精品国产欧美一区二区三区不卡 | 亚洲成人一区二区在线 | 国产精品久久久久久久午夜片 | 欧美a∨| 蜜桃精品视频在线 | 国产精品a一区二区三区网址 | 中文字幕在线一区 | 国产精品久久a | 精品国产一区二区三区成人影院 | 日韩欧美在| 中文字幕av网 | 亚洲国产成人精品女人久久久 | 欧美专区在线视频 | 天堂一区二区三区 | 亚洲日本中文字幕在线 | 精品福利在线 | 国产激情精品 | 日本超碰 | 欧美日韩中文国产一区发布 | 伊人精品在线 | 中文字幕在线观看 | 狠狠久久综合 |