成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在Spark中,什么叫內存計算?

存儲 存儲軟件 Spark
由于計算的融合只發生在 Stages 內部,而 Shuffle 是切割 Stages 的邊界,因此一旦發生 Shuffle,內存計算的代碼融合就會中斷。

[[405490]]

 本文轉載自微信公眾號「記錄技術記錄我」,作者ziwen。轉載本文請聯系記錄技術記錄我公眾號。

在 Spark 中,內存計算有兩層含義:

  • 第一層含義就是眾所周知的分布式數據緩存;
  • 第二層含義是 Stage 內的流水線式計算模式,通過計算的融合來大幅提升數據在內存中的轉換效率,進而從整體上提升應用的執行性能;

那 Stage 內的流水線式計算模式到底長啥樣呢?在 Spark 中,流水線計算模式指的是:在同一 Stage 內部,所有算子融合為一個函數,Stage 的輸出結果,由這個函數一次性作用在輸入數據集而產生。

我們用一張圖來直觀地解釋這一計算模式。

在上面的計算流程中,如果你把流水線看作是內存,每一步操作過后都會生成臨時數據,如圖中的 clean 和 slice,這些臨時數據都會緩存在內存里。

但在下面的內存計算中,所有操作步驟如 clean、slice、bake,都會被捏合在一起構成一個函數。這個函數一次性地作用在“帶泥土豆”上,直接生成“即食薯片”,在內存中不產生任何中間數據形態。

由于計算的融合只發生在 Stages 內部,而 Shuffle 是切割 Stages 的邊界,因此一旦發生 Shuffle,內存計算的代碼融合就會中斷。但是,當我們對內存計算有了多方位理解以后,就不會一股腦地只想到用 cache 去提升應用的執行性能,而是會更主動地想辦法盡量避免 Shuffle,讓應用代碼中盡可能多的部分融合為一個函數,從而提升計算效率。

 

責任編輯:武曉燕 來源: 記錄技術記錄我
相關推薦

2018-05-10 09:51:39

Spark內存Hadoop

2020-01-14 10:57:39

內存泄漏虛擬機

2019-06-27 11:18:00

Spark內存大數據

2020-05-06 22:20:48

Kubernetes邊緣計算

2014-12-16 18:49:11

社區化支持

2016-05-19 10:31:35

數據處理CassandraSpark

2020-03-03 09:28:30

Python內存開發

2017-04-01 14:01:50

Apache Spar內存管理

2018-12-18 14:37:26

Spark內存管理

2018-04-17 11:30:03

云計算IaaS公共云

2011-03-29 15:15:06

熱備份熱修復

2019-05-30 11:04:52

內存Spark管理

2010-11-05 13:02:58

內存iPhone

2012-06-12 09:13:14

2019-10-10 16:20:23

spark內存管理

2019-04-17 14:44:42

Spark內存源碼

2011-06-23 09:14:52

CRM云計算

2020-06-02 16:59:08

5G動態頻譜共享

2018-04-18 08:54:28

RDD內存Spark

2020-06-22 10:33:52

云計算邊緣計算IT
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 久久国产精品久久久久 | av一级久久| 91精品国产一区二区三区 | 狠狠躁天天躁夜夜躁婷婷老牛影视 | 国产偷自视频区视频 | 日日夜夜狠狠操 | 亚洲欧美视频一区二区 | www国产亚洲精品 | 国产精品久久久久久婷婷天堂 | 日韩视频精品 | 日韩美女在线看免费观看 | 国产小视频在线 | 亚洲福利在线视频 | 精品91久久 | 久久久久免费观看 | 黄色网址在线播放 | 成人精品久久 | www.一区二区三区 | 国产精品色一区二区三区 | 久久久久久亚洲 | 国产精品福利网站 | 成人av免费网站 | 免费看国产片在线观看 | 国产999精品久久久影片官网 | 日韩成人免费av | 一区二区三区亚洲精品国 | av一级久久| 精品久久99 | 国产高清精品一区二区三区 | 日本韩国欧美在线观看 | 免费精品 | 自拍偷拍亚洲一区 | 我要看黄色录像一级片 | 日韩1区| 欧美在线视频一区二区 | 亚洲精品一区中文字幕乱码 | 欧美日日 | 天天操操 | 日韩欧美国产综合 | 国产亚洲www | 成人欧美一区二区三区黑人孕妇 |