成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

實例講解Hadoop用法

開發 架構 Hadoop
Hadoop你是否了解,本文通過實例就向大家介紹一下Hadoop方面的知識,希望本文的介紹對你的學習有所幫助,歡迎大家一起來學習Hadoop。

本節和大家一起學習一下Hadoop,通過它的實際應用來向大家展示它的功能,從而使讀者更容易了解,希望通過本節的介紹大家對Hadoop有初步的了解。

Hadoop最佳實踐

1.簡介
Hadoop是Apache自由軟件基金會資助的頂級項目,致力于提供基于map-reduce計算模型的高效、可靠、高擴展性分布式計算平臺。

2.Map-Reduce應用場景
作為一種受限的分布式計算模型,Map-Reduce計算模型有其擅長的領域,也有其不擅長的方面:

條款1:map-reduce計算模型適用于批處理任務,即在可接受的時間內對整個數據集計算某個特定的查詢的結果,該計算模型不適合需要實時反映數據變化狀態的計算環境。

條款2:map-reduce計算模型是以“行”為處理單位的,無法回溯已處理過的“行”,故每行日志都必須是一個獨立的語義單元,行與行之間不能有語義上的關聯。

條款3:相對于傳統的關系型數據庫管理系統,Map-Reduce計算模型更適合于處理半結構化或無結構話的數據。

因為Map-Reduce計算模型是在處理的時候對數據進行解釋的,這就意味著輸入的Key和Value可以不是數據本身固有的屬性,Key、Value的選擇完全取決于分析數據的人。

條款4:Map-Reduce是一個線性可擴展模型,服務器越多,處理時間越短。

以下是同一個任務在不同機器數下獲得的測試結果:

 3.任務調度優化
首先對一些術語進行一下說明。Job是一組客服端想要完成的工作,包括輸入數據,map-reduce程序以及配置信息,Hadoop通過將Job劃分為一些task來執行,task又分為maptask和reducetask。

如何調度Hadoop任務才能充分發揮集群中所有服務器的能力呢?

條款5:每個Job的輸入文件不宜過大,也不宜過小。文件過大會造成reduce任務分布不均勻,導致reducetime的不可預知性,而大量的小文件則會嚴重影響Hadoop的性能。

Hadoop會將Job的輸入文件分割成64M固定大小的split,每個split啟動一個maptask處理,這個split中的每個record都經過用戶定義的map函數處理生成中間結果。若輸入文件小于64M,則此文件單獨作
為一個split處理。故當輸入文件中有大量的小文件時,那么管理這些小文件的開銷以及maptask的創建開銷會占據絕大多數的Job執行時間。

為了找到Hadoop合適的Job文件大小,我們在一個有50臺退役機器組成的集群做了一組性能測試,結果如下表:

我們把一個任務的計算時間分為兩部分:reduceshuffletime和reducetime。

lreduceshuffletime是reduce任務把map輸出的<key,value>對copy到本地的時間,即reduceshuffletime=map時間+<key,value>對網絡傳輸時間。

lreducetime就是rudece處理這些<key,value>對的時間。

從上表我們可以得出結論:

l各個任務的reduceshuffletime是完全線性的(隨著任務量增加,時間線性增加)。

l任務量在300G以內,reducetime基本線性增長,之后隨著任務量增加,reducetime呈現隨機性加大的趨勢。在任務量達到550G后這種隨機性更加明顯,先后運行同樣的任務時間可能會相差一個小時??梢酝茢?,隨著任務量增加,reduce任務分布不均勻的機率提高,導致了reducetime的不可預知性。

l上面兩個時間的疊加影響下,在300G以內退役機器處理任務的時間是線性增加的。300G以上的任務需要分成若干個小任務串行運行,保證reduce處理在線性可控的區間內。本節關于Hadoop方面的知識沒有介紹完畢,請關注下節介紹。

【編輯推薦】

  1. Hadoop初探
  2. 學習筆記 Hadoop是什么?
  3. Hadoop集群與Hadoop性能優化
  4. HadoopHBase實現配置簡單的單機環境
  5. 深入剖析Hadoop HBase

 

責任編輯:佚名 來源: csdn.net
相關推薦

2010-06-03 18:32:51

Hadoop

2011-04-02 16:37:26

PAT

2010-09-14 17:20:57

2010-11-22 16:22:39

MySQL連接查詢

2010-03-03 14:05:36

Python實例應用

2011-05-23 13:24:01

2009-08-28 16:37:32

C# for循環

2011-04-01 09:04:09

RIP

2010-09-03 10:23:49

PPP Multili

2011-04-02 16:33:33

2021-10-14 09:14:50

PyQueryPython網頁

2009-12-21 16:52:52

靜態路由設置

2010-06-29 19:08:23

UML建模技術

2009-07-06 13:38:02

2009-06-17 13:57:54

java實例Reflection

2013-01-10 14:54:48

Android開發組件Intent

2010-06-11 17:44:10

UML對象圖

2009-06-08 16:52:00

2009-12-23 15:16:52

WPF數據綁定

2009-09-15 09:45:23

Linq動態條件
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 毛片免费在线 | 久久se精品一区精品二区 | 日韩在线大片 | 中文字幕精品视频在线观看 | 免费在线一区二区三区 | 久久久久国产精品午夜一区 | 黄色免费av| va在线 | 亚洲视频不卡 | 久久精品毛片 | 国产精品久久久久无码av | 久久福利电影 | 亚洲男人天堂 | 亚洲黄色av | 每日在线更新av | 99久久婷婷国产综合精品电影 | 亚洲国产精品成人久久久 | 精品国产18久久久久久二百 | 亚洲第一福利网 | 午夜视频在线 | 日韩中文字幕免费在线观看 | 精品产国自在拍 | 亚洲在线 | 国产精品久久久久久久久久久免费看 | 亚洲三区在线 | 国产精品久久久久久238 | 国产探花在线精品一区二区 | 亚洲第一在线视频 | 青青草一区 | 午夜精品一区二区三区在线 | 日本网站免费在线观看 | 一区二区三区电影在线观看 | 成人在线不卡 | 一区二区在线不卡 | 九九在线视频 | 国产日韩欧美一区 | 久久精品国产免费看久久精品 | 2019天天操 | av官网在线 | 日韩中文久久 | 精品国产不卡一区二区三区 |