成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

簡單的介紹一下大數據中最重要的MapReduce

大數據
MapReduce是分布式運行的,由兩個階段組成:Map和Reduce,Map階段是一個獨立的程序,有很多個節點同時運行,每個節點處理一部分數據。

簡單的介紹一下大數據中最重要的MapReduce
MapReduce執行流程圖

概述

MapReduce是一種分布式計算模型,由Google提出,主要用于搜索領域,解決海量數據的計算問題。

MapReduce是分布式運行的,由兩個階段組成:Map和Reduce,Map階段是一個獨立的程序,有很多個節點同時運行,每個節點處理一部分數據。

Reduce階段是一個獨立的程序,有很多個節點同時運行,每個節點處理一部分數據。

使用

MapReduce框架都有默認實現,用戶只需要覆蓋map()和reduce()兩個函數,即可實現分布式計算,非常簡單。

這兩個函數的形參和返回值都是,使用的時候一定要注意構造。

 

簡單的介紹一下大數據中最重要的MapReduce

執行流程(此處舉例說明)

  1. 一個文本(在HDFS上面保存,兩個block)中每一個單詞的出現的次數: 
  2.     hello you hello marry 
  3.     hello me really 
  4.             ----->block-1 
  5.              
  6.     hello kate ready 
  7.     xiao wang hello tomcat 
  8.             ----->block-2 

1.獲取每一個block塊中的文本,遍歷所有,回去其中的一行str

因為要統計的是每一個單詞i的次數,所以還需要直到文本中有哪些單詞,可以根據字符串的特點,使用split()進行切割。

  1. String[] words=str.split(""); 

根據要求,需將每一個單詞i轉換為的形式,k為單詞本身,v為單詞出現的次數。

2.因為mr的計算是分布式的 ,每一個map(稱之為一個mapper task)計算其中的一個block塊數據。

  1. map階段: 
  2.     輸入<K1,V1> 
  3.         k1,偏移量,v1,當前行文本內容 
  4.         map()函數操作 
  5.     輸出<K2,V2> 
  6.         k2,具體單詞,v2,單詞對應的統計項,比如次數 
  7.     輸出<K2,V2> 
  1. shuffle階段 
  2. 研究后發現,如果按照<key,1>這種方式向reduce輸出數據的時候,會有 
  3. 大量的冗余數據。 
  4. 比如map階段之后有5個hello,則輸出<hello,1>,<hello,1>,<hello,1>, 
  5. <hello,1>,<hello,1>5次,實際上會對網絡造成一定的壓力,能不能對 
  6. 這5個<hello,1>進行一個進入reduce之前的本地組合?比如成為 
  7. <hello,5>或者<hello,[1,1,1,1,1]>. 
  8. 這個過程成為shuffle,洗牌重組階段,達到上述的結果,稱之為規約。 
  9. >>>shuffle階段,也就是對map的輸出進行重新洗牌: 
  10. 分區、分組、排序 
  11. <K2,V2>...===><K2,V2s> 
  1. reduce階段 
  2. 接收map的輸出結果<key,values
  3. 對這個結果進行匯總統計,針對values,進行簡單的累加,計算得出key 
  4. 對應的次數 
  5. reduce針對一個key調用一次reduce()函數 
  6. =====>reduce 階段 
  7. 輸入<K2,V2> 
  8.     K2,就是map的輸出的K2,V2s是map經過shuffle之后的結果集 
  9.     reduce()函數操作 
  10. 轉化為<K3,V3>   

經過上述操作之后,系統會將計算結果輸出給用戶,一般會先存儲(落地)到hdfs,然后反饋給用戶。

到此為止,MapReduce執行完畢,接下來就可以進行大數據的其他一系列操作了。

責任編輯:未麗燕 來源: 今日頭條
相關推薦

2025-05-28 10:05:00

Linux系統/proc

2011-08-03 15:14:17

Excel XP數據庫功能

2011-07-20 16:13:03

SQL Profile數據庫

2022-10-08 23:46:47

JavaScript對象開發

2020-03-01 17:53:38

Excel大數據微軟

2011-08-22 15:19:25

2011-07-26 18:22:42

MySQL Workb數據庫

2011-08-05 09:33:56

OracleUser ProcesServer Proc

2011-07-20 17:31:36

關系型數據庫

2010-06-13 17:57:23

局域網協議

2011-08-03 09:15:23

DORADO展現中間件

2024-05-13 08:16:59

React任務調度鏈表結構

2021-01-21 14:33:38

大數據大數據應用

2021-01-21 22:23:57

大數據石油智慧交通

2011-08-30 11:22:17

OracleDatabase Li

2011-07-29 13:40:34

Oracle數據庫PLSQL異常處理

2011-08-09 15:25:14

線程池數據庫連接池

2020-08-12 10:56:55

數據管理數據數據分析

2011-07-27 14:41:59

Oracle ERP

2018-04-08 16:03:16

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲一区二区中文字幕在线观看 | 久久中文视频 | 欧美精品一区二区三区视频 | 国产成人精品综合 | 91精品国产高清一区二区三区 | 精品无码三级在线观看视频 | 四虎免费视频 | 中文二区 | 日韩在线视频一区二区三区 | 久久久久亚洲视频 | 国产a爽一区二区久久久 | 在线黄色网 | 久草热8精品视频在线观看 午夜伦4480yy私人影院 | 欧美精品91 | 亚洲一区在线免费观看 | 欧美一区二区三区日韩 | 视频一区二区在线 | 国产精品欧美一区喷水 | 久久国产激情视频 | 国产亚洲精品久久午夜玫瑰园 | 久久亚洲一区二区三区四区 | 在线成人免费av | 成人免费看黄网站在线观看 | av中文字幕在线观看 | a久久久久久| 国产精品无码专区在线观看 | 一区二区三区视频在线观看 | 精品一级电影 | 男女网站在线观看 | 国产精品亚洲欧美日韩一区在线 | 国产精品一区二区免费 | 国产精品一区二区三区四区五区 | 国产毛片久久久久久久久春天 | 久久精品日产第一区二区三区 | 国产精品久久久久久久7电影 | 国产激情亚洲 | 亚洲精品日韩一区二区电影 | 久久久亚洲 | 国产在线精品一区二区三区 | 一二三区视频 | 国产欧美一区二区三区国产幕精品 |