成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

什么是Python中的Dask,它如何幫助你進行數(shù)據(jù)分析?

開發(fā) 后端 數(shù)據(jù)分析
有這么一個庫,它提供了并行計算、加速了算法,甚至允許您將NumPy和pandas與XGBoost庫集成在一起。讓我們認識一下吧。

前言

Python由于其易用性而成為最流行的語言,它提供了許多庫,使程序員能夠開發(fā)更強大的軟件,以并行運行模型和數(shù)據(jù)轉(zhuǎn)換。

有這么一個庫,它提供了并行計算、加速了算法,甚至允許您將NumPy和pandas與XGBoost庫集成在一起。讓我們認識一下吧。

[[332281]]

什么是Dask

Dask是一個開源項目,它允許開發(fā)者與scikit-learn、pandas和NumPy合作開發(fā)他們的軟件。它是一個非常通用的工具,可以處理各種工作負載。

這個工具包括兩個重要的部分;動態(tài)任務(wù)調(diào)度和大數(shù)據(jù)收集。前面的部分與Luigi、芹菜和氣流非常相似,但它是專門為交互式計算工作負載優(yōu)化的。

后一部分包括數(shù)據(jù)幀、并行數(shù)組和擴展到流行接口(如pandas和NumPy)的列表。

事實上,Dask的創(chuàng)建者Matthew Rocklin先生確認Dask最初是為了并行化Pandas和NumPy而創(chuàng)建的,盡管它現(xiàn)在提供了比一般的并行系統(tǒng)更多的好處。

Dask的數(shù)據(jù)幀非常適合用于縮放pandas工作流和啟用時間序列的應(yīng)用程序。此外,Dask陣列還為生物醫(yī)學(xué)應(yīng)用和機器學(xué)習(xí)算法提供多維數(shù)據(jù)分析。

可擴展性

Dask如此受歡迎的原因是它使Python中的分析具有可擴展性。

這個工具的神奇之處在于它只需要最少的代碼更改。該工具在具有1000多個核的彈性集群上運行!此外,您可以在處理數(shù)據(jù)的同時并行運行此代碼,這將簡化為更少的執(zhí)行時間和等待時間!

什么是Python中的Dask,它如何幫助你進行數(shù)據(jù)分析?

該工具完全能夠?qū)?fù)雜的計算計算調(diào)度、構(gòu)建甚至優(yōu)化為圖形。這就是為什么運行在10tb上的公司可以選擇這個工具作為首選的原因。

Dask還允許您為數(shù)據(jù)數(shù)組構(gòu)建管道,稍后可以將其傳輸?shù)较嚓P(guān)的計算資源。總之,這個工具不僅僅是一個并行版本的pandas。

如何工作

現(xiàn)在我們已經(jīng)理解了Dask的基本概念,讓我們看一個示例代碼來進一步理解:

  1. import dask.array as da 
  2.  
  3. f = h5py.File('myfile.hdf5') 
  4.  
  5. x = da.from_array(f['/big-data'], 
  6.  
  7.                   chunks=(1000, 1000)) 

對于那些熟悉數(shù)據(jù)幀和數(shù)組的人來說,這幾乎就是你放置數(shù)據(jù)的地方。

在本例中,您已經(jīng)將數(shù)據(jù)放入了Dask版本中,您可以利用Dask提供的分發(fā)特性來運行與使用pandas類似的功能。

為何如此流行

作為一個由PyData生成的現(xiàn)代框架,Dask由于其并行處理能力而備受關(guān)注。

在處理大量數(shù)據(jù)——尤其是比RAM大的數(shù)據(jù)塊——以便獲得有用的見解時,這是非常棒的。公司受益于Dask提供的強大分析,因為它在單機上進行高效的并行計算。

這就是為什么Gitential、Oxlabs、DataSwot和Red Hat等跨國公司已經(jīng)在他們的日常工作系統(tǒng)中使用Dask的主要原因。總的來說,Dask之所以超級受歡迎是因為:

  • 集成:Dask提供了與許多流行工具的集成,其中包括PySpark、pandas、OpenRefine和NumPy。
  • 動態(tài)任務(wù)調(diào)度:它提供了動態(tài)任務(wù)調(diào)度并支持許多工作負載。
  • 熟悉的API:這個工具不僅允許開發(fā)人員通過最小的代碼重寫來擴展工作流,而且還可以很好地與這些工具甚至它們的API集成。
  • 向外擴展集群:Dask計算出如何分解大型計算并有效地將它們路由到分布式硬件上。
  • 安全性:Dask支持加密,通過使用TLS/SSL認證進行身份驗證。

優(yōu)缺點

讓我們權(quán)衡一下這方面的利弊。

使用Dask的優(yōu)點:

  • 它使用pandas提供并行計算。
  • Dask提供了與pandas API類似的語法,所以它不那么難熟悉。

使用Dask的缺點:

  • 在Dask的情況下,與Spark不同,如果您希望在創(chuàng)建集群之前嘗試該工具,您將無法找到獨立模式。
  • 它在Scala和R相比可擴展性不強。

 

責(zé)任編輯:趙寧寧 來源: 今日頭條
相關(guān)推薦

2019-01-15 14:21:13

Python數(shù)據(jù)分析數(shù)據(jù)

2017-09-26 19:02:09

PythonInstagram數(shù)據(jù)分析

2015-09-23 09:24:56

spark數(shù)據(jù)分析

2020-06-05 14:29:07

PythonPandas數(shù)據(jù)分析

2024-07-26 21:36:43

2018-05-24 13:35:22

數(shù)據(jù)分析ETL工具處理

2017-03-07 10:37:05

非數(shù)據(jù)數(shù)據(jù)分析

2022-06-09 11:47:21

工具數(shù)據(jù)儀連接器

2024-10-18 09:16:45

2022-08-11 10:38:57

NetDevOpsIT網(wǎng)絡(luò)

2009-12-23 17:50:38

ADO.NET Fra

2020-12-04 15:23:58

Python數(shù)據(jù)分析工具

2015-04-21 14:21:07

大數(shù)據(jù)數(shù)據(jù)分析

2021-10-20 10:10:45

數(shù)據(jù)分析智慧城市大數(shù)據(jù)

2012-03-21 09:31:51

ibmdw

2019-06-23 18:30:00

Python數(shù)據(jù)分析編碼

2017-09-28 16:31:02

大數(shù)據(jù)數(shù)據(jù)分析漏斗模型

2024-11-08 12:36:35

2017-04-26 14:02:18

大數(shù)據(jù)數(shù)據(jù)分析Excel

2016-08-21 15:02:47

APP推廣數(shù)據(jù)分析數(shù)據(jù)統(tǒng)計工具
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 色综合久久久久 | 免费h视频 | www.黄色网| 久久久久亚洲 | 精品三区 | 不卡av在线 | 一级做a爰片久久毛片 | 国产精品高潮呻吟久久av黑人 | 久久一区精品 | 久久亚洲一区二区三区四区 | 国产视频一区在线 | 欧美91| 国产在线观看免费 | 国产美女视频黄a视频免费 国产精品福利视频 | 日韩在线观看中文字幕 | 中文区中文字幕免费看 | 亚洲精品乱码久久久久久按摩观 | 毛片一级片| 中文字字幕一区二区三区四区五区 | 人人射人人 | 免费观看的av毛片的网站 | 久久综合色综合 | 天天精品在线 | 国产伊人久久久 | 国产精品久久久久久久久久久久久 | 欧洲精品一区 | 午夜在线观看视频 | 中文字幕一区二区三区四区 | 亚洲国产精品精华素 | 久久精品91久久久久久再现 | 91久久精品国产 | 日韩一区二区三区在线 | 精品久久久精品 | 仙人掌旅馆在线观看 | 亚洲人的av| 国产精品亚洲一区二区三区在线 | 亚洲精品成人av久久 | 成人av在线播放 | 国产亚洲精品精品国产亚洲综合 | 激情av网站 | 范冰冰一级做a爰片久久毛片 |