成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數(shù)據(jù)時代之hadoop:了解hadoop數(shù)據(jù)流(生命周期)

云計算 Hadoop Hadoop
了解hadoop,首先就需要先了解hadoop的數(shù)據(jù)流,就像了解servlet的生命周期似的。hadoop是一個分布式存儲(hdfs)和分布式計算框架(mapreduce),但是hadoop也有一個很重要的特性:hadoop會將mapreduce計算移動到存儲有部分?jǐn)?shù)據(jù)的各臺機(jī)器上。

了解hadoop,首先就需要先了解hadoop的數(shù)據(jù)流,就像了解servlet的生命周期似的。hadoop是一個分布式存儲(hdfs)和分布式計算框架(mapreduce),但是hadoop也有一個很重要的特性:hadoop會將mapreduce計算移動到存儲有部分?jǐn)?shù)據(jù)的各臺機(jī)器上。

術(shù)語

MapReduce 作業(yè)(job)是客戶端需要執(zhí)行的一個工作單元:它包括輸入數(shù)據(jù)、mapreduce程序和配置信息。hadoop將作業(yè)分成若干個小任務(wù)(task)來執(zhí)行,其中包括兩類任務(wù):map任務(wù)和reduce任務(wù)。

有兩類節(jié)點控制著作業(yè)執(zhí)行過程:一個jobtracker及一系列tasktracker。 jobtracker通過調(diào)度tasktracker上運行的任務(wù),來協(xié)調(diào)所有運行在系統(tǒng)上的作業(yè)。tasktracker在運行任務(wù)的同時將運行進(jìn)度報 告發(fā)送給jobtracker,jobtracker由此記錄每項作業(yè)任務(wù)的整體進(jìn)度情況。如果其中一個任務(wù)失敗,jobtracker可以在另外一個 tasktracker節(jié)點上重新調(diào)度該任務(wù)。

輸入

hadoop將mapreduce的輸入數(shù)據(jù)劃分成等長的小數(shù)據(jù)塊,稱為輸入分片(input split)或簡稱分片。hadoop為每個分片構(gòu)建一個map任務(wù),并由該任務(wù)來運行用戶自定義的map函數(shù)從而處理分片中的每條記錄。 對于大多數(shù)作業(yè)來說,一個合理的分片大小趨向于HDFS的一個塊的大小,默認(rèn)是64M,不過可以針對集群調(diào)整這個默認(rèn)值。分片的大小一定要根據(jù)運行的任務(wù)來定,如果分片過小,那么管理分片的總時間和構(gòu)建map任務(wù)的總時間將決定著作業(yè)的整個執(zhí)行時間。

hadoop在存儲有輸入數(shù)據(jù)的節(jié)點上運行map任務(wù),可以獲得***性能,這就是所謂的數(shù)據(jù)本地化優(yōu)化。 因為塊是hdfs存儲數(shù)據(jù)的最小單元,每個塊可以在多個節(jié)點上同時存在(備份),一個文件被分成的各個塊被隨機(jī)分部在多個節(jié)點上,因此如果一個map任務(wù) 的輸入分片跨越多個數(shù)據(jù)塊,那么基本上沒有一個節(jié)點能夠恰好同時存在這幾個連續(xù)的數(shù)據(jù)塊,那么map任務(wù)就需要首先通過網(wǎng)絡(luò)將不存在于此節(jié)點上的數(shù)據(jù)塊遠(yuǎn) 程復(fù)制到本節(jié)點上再運行map函數(shù),那么這種任務(wù)顯然效率非常低。

輸出

map任務(wù)將其輸出寫入到本地磁盤,而非HDFS。這是因為map的輸出是中間結(jié)果:該中間結(jié)果有reduce任務(wù)處理后才產(chǎn)生最終結(jié)果(保存在hdfs中)。而一旦作業(yè)完成,map的輸出結(jié)果可以被刪除。

reduce任務(wù)并不具備數(shù)據(jù)本地化優(yōu)勢:單個reduce任務(wù)的輸入通常來自于所有的mapper任務(wù)的輸出。reduce任務(wù)的輸出通常存儲于HDFS中以實現(xiàn)可靠存儲。

數(shù)據(jù)流

作業(yè)根據(jù)設(shè)置的reduce任務(wù)的個數(shù)不同,數(shù)據(jù)流也不同,但大同小異。reduce任務(wù)的數(shù)量并非由輸入數(shù)據(jù)的大小決定的,而是可以通過手動配置指定的。

單個reduce任務(wù)

多個reduce任務(wù)

如果是多個reduce任務(wù)的話,則每個map任務(wù)都會對其輸出進(jìn)行分區(qū)(partition),即為每個reduce任務(wù)創(chuàng)建一個分區(qū)。分區(qū)有用戶定義的分區(qū)函數(shù)控制,默認(rèn)的分區(qū)器(partitioner) 通過哈希函數(shù)來分區(qū)。

map任務(wù)和reduce任務(wù)之間的數(shù)據(jù)流稱為shuffle(混洗)。

 

 

 

 

沒有reduce任務(wù)

當(dāng)然也可能出現(xiàn)不需要執(zhí)行reduce任務(wù)的情況,即數(shù)據(jù)可以完全的并行。

 

combiner(合并函數(shù))
順便在這說下combiner吧,hadoop運行用戶針對map任務(wù)的輸出指定一個合并函數(shù),合并函數(shù)的輸出作為reduce函數(shù)的輸入。其實合并函數(shù) 就是一個優(yōu)化方案,說白了就是在map任務(wù)執(zhí)行后在本機(jī)先執(zhí)行合并函數(shù)(通常就是reduce函數(shù)的拷貝),減少網(wǎng)絡(luò)傳輸量。

原文出自:http://blog.csdn.net/chaofanwei/article/details/39695743

責(zé)任編輯:Ophira 來源: chaofanwei的博客
相關(guān)推薦

2012-06-06 15:55:36

Hadoop數(shù)據(jù)

2013-08-20 09:26:03

大數(shù)據(jù)時代hadoop

2015-04-24 11:20:15

Hadoop大數(shù)據(jù)架構(gòu)大數(shù)據(jù)

2016-12-20 18:21:29

Hadoop大數(shù)據(jù)面試

2021-10-26 16:39:34

安全隱私大數(shù)據(jù)

2018-07-11 13:33:43

大數(shù)據(jù)人工智能Hadoop

2017-10-26 09:31:14

Hadoop維度建模Kimball

2021-10-18 11:57:49

大數(shù)據(jù)安全隱私

2012-05-31 15:56:23

Hadoop大數(shù)據(jù)

2024-05-07 08:49:36

Hadoop數(shù)據(jù)存儲-分布式存儲

2018-01-12 16:19:41

Hadoop數(shù)據(jù)庫MySQL

2013-05-07 10:50:27

大數(shù)據(jù)戰(zhàn)略

2015-01-14 16:16:51

大數(shù)據(jù)

2017-10-25 14:15:55

大數(shù)據(jù)Hadoop維度建模

2022-10-24 00:26:51

大數(shù)據(jù)Hadoop存儲層

2015-11-26 11:48:09

數(shù)據(jù)中心生命周期

2015-03-04 11:19:59

2013-04-12 10:56:31

大數(shù)據(jù)

2020-03-13 07:33:28

物聯(lián)網(wǎng)生命周期管理IOT

2012-03-12 09:45:57

大數(shù)據(jù)Hadoop云計算
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 欧美日本亚洲 | 成人免费在线播放视频 | 懂色av一区二区三区在线播放 | 欧美自拍视频 | 一本大道久久a久久精二百 国产成人免费在线 | 欧美日韩视频在线第一区 | 亚洲一区二区久久久 | 99精品一级欧美片免费播放 | 精品欧美一区二区三区 | 日本电影韩国电影免费观看 | 电影91久久久 | 91精品国产91久久久久久三级 | 亚洲视频区 | 亚洲av毛片成人精品 | 日本福利在线观看 | 日韩精品一区二区三区中文字幕 | 亚洲日日夜夜 | 国产馆 | 欧美日韩久 | 久久综合久久久 | 成人激情视频免费在线观看 | 欧美精品a∨在线观看不卡 国产精品久久国产精品 | 天天干视频 | 国产综合一区二区 | 欧美精品成人一区二区三区四区 | 天天躁日日躁狠狠躁2018小说 | 欧美成人精品一区二区三区 | 国产毛片在线看 | 日本中出视频 | 国产精品久久久久久久久污网站 | 国产成人精品久久二区二区91 | 欧美成人精品一区二区男人看 | 久久久成人免费视频 | 日本三级在线 | 欧美色综合一区二区三区 | 色偷偷噜噜噜亚洲男人 | 亚洲成人免费观看 | 国产中文字幕网 | 天天影视网天天综合色在线播放 | 国产精品影视在线观看 | 亚洲在线|