Spark名詞解釋及關(guān)系

作者：小數(shù)點(diǎn) 2017-04-13 09:10:06

隨著對spark的業(yè)務(wù)更深入，對spark的了解也越多，然而目前還處于知道的越多，不知道的更多階段，當(dāng)然這也是成長最快的階段。這篇文章用作總結(jié)最近收集及理解的spark相關(guān)概念及其關(guān)系。

[[188372]]

名詞

driver

driver物理層面是指輸入提交spark命令的啟動(dòng)程序，邏輯層面是負(fù)責(zé)調(diào)度spark運(yùn)行流程包括向master申請資源，拆解任務(wù)，代碼層面就是sparkcontext。

worker

worker指可以運(yùn)行的物理節(jié)點(diǎn)。

executor

executor指執(zhí)行spark任務(wù)的處理程序，對java而言就是擁有一個(gè)jvm的進(jìn)程。一個(gè)worker節(jié)點(diǎn)可以運(yùn)行多個(gè)executor，只要有足夠的資源。

job

job是指一次action，rdd(rdd在這里就不解釋了)操作分成兩大類型，一類是transform，一類是action，當(dāng)涉及到action的時(shí)候，spark就會(huì)把上次action之后到本次action的所有rdd操作用一個(gè)job完成。

stage

stage是指一次shuffle，rdd在操作的時(shí)候分為寬依賴(shuffle dependency)和窄依賴(narraw dependency)，如下圖所示。而寬依賴就是指shuffle。

應(yīng)某人要求再解釋一下什么是窄依賴，就是父rdd的每個(gè)分區(qū)都只作用在一個(gè)子rdd的分區(qū)中，原話是這么說的 each partition of the parent RDD is used by at most one partition of the child RDD。