成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

云計算背后的秘密(1)-MapReduce

云計算
在Google數(shù)據(jù)中心會有大規(guī)模數(shù)據(jù)需要處理,比如被網(wǎng)絡(luò)爬蟲(Web Crawler)抓取的大量網(wǎng)頁等。由于這些數(shù)據(jù)很多都是PB級別,導致處理工作不得不盡可能的并行化,而Google為了解決這個問題,引入了MapReduce這個分布式處理框架。

【引言】之前我寫過一些關(guān)于云計算誤區(qū)的文章,雖然這些文章并不是非常技術(shù),但是也非常希望它們能幫助大家理解云計算這一新浪潮。最近,我將云計算背后的一些核心技術(shù)介紹給讀者,由于云計算的核心技術(shù)是我最熟悉和最擅長,而且宣傳這些技術(shù)也是我寫《剖析云計算》一書和建立PeopleYun.com站點的初衷,這就是“云計算背后的秘密”這個系列的由來。

在這個新系列中將介紹多種云計算所涉及到的核心技術(shù),包括分布式處理、分布式數(shù)據(jù)庫、分布式鎖、分布式文件系統(tǒng)、多租戶架構(gòu)和虛擬化等,而且將會介紹這些技術(shù)相關(guān)的產(chǎn)品和用例,以幫助大家進一步理解這些技術(shù)。預(yù)計每周會更新一篇,總長度會在10篇左右,希望大家能喜歡,而本文則是這個系列的第一篇。


在Google數(shù)據(jù)中心會有大規(guī)模數(shù)據(jù)需要處理,比如被網(wǎng)絡(luò)爬蟲(Web Crawler)抓取的大量網(wǎng)頁等。由于這些數(shù)據(jù)很多都是PB級別,導致處理工作不得不盡可能的并行化,而Google為了解決這個問題,引入了MapReduce這個分布式處理框架。

技術(shù)概覽

MapReduce本身源自于函數(shù)式語言,主要通過"Map(映射)"和"Reduce(化簡)"這兩個步驟來并行處理大規(guī)模的數(shù)據(jù)集。首先,Map會先對由很多獨立元素組成的邏輯列表中的每一個元素進行指定的操作,且原始列表不會被更改,會創(chuàng)建多個新的列表來保存Map的處理結(jié)果。也就意味著,Map操作是高度并行的。當Map工作完成之后,系統(tǒng)會接著對新生成的多個列表進行清理(Shuffle)和排序,之后,會這些新創(chuàng)建的列表進行Reduce操作,也就是對一個列表中的元素根據(jù)Key值進行適當?shù)暮喜ⅰO聢D為MapReduce的運行機制:
 

 

圖1. MapReduce的運行機制

接下來,將根據(jù)上圖來舉一個MapReduce的例子來幫助大家理解:比如,通過搜索引擎的爬蟲(Spider)將海量的Web頁面從互聯(lián)網(wǎng)中抓取到本地的分布式文件系統(tǒng)中,然后索引系統(tǒng)將會對存儲在這個分布式文件系統(tǒng)中海量的Web頁面進行平行的Map處理,生成多個Key為URL,Value為html頁面的鍵值對(Key-Value Map),接著,系統(tǒng)會對這些剛生成的鍵值對進行Shuffle(清理),之后,系統(tǒng)會通過Reduce操作來根據(jù)相同的key值(也就是URL)合并這些鍵值對。

優(yōu)劣點

談到MapReduce的優(yōu)點,主要有兩個方面:其一,通過MapReduce這個分布式處理框架,不僅能用于處理大規(guī)模數(shù)據(jù),而且能將很多繁瑣的細節(jié)隱藏起來,比如,自動并行化、負載均衡和災(zāi)備管理等,這樣將極大地簡化程序員的開發(fā)工作;其二,MapReduce的伸縮性非常好,也就是說,每增加一臺服務(wù)器,其就能將差不多的計算能力接入到集群中,而過去的大多數(shù)分布式處理框架,在伸縮性方面都與MapReduce相差甚遠。而 MapReduce最大的不足則在于,其不適應(yīng)實時應(yīng)用的需求,所以在Google最新的實時性很強的Caffeine搜索引擎中,MapReduce的主導地位已經(jīng)被可用于實時處理Percolator系統(tǒng)所代替,其具體細節(jié),將在本系列接下來的文章中進行介紹。

相關(guān)產(chǎn)品

除了Google內(nèi)部使用的MapReduce之外,還有,由Lucene之父Doug Cutting領(lǐng)銜的Yahoo團隊開發(fā),Apache管理的MapReduce的開源版本Hadoop,而且一經(jīng)推出,就受到業(yè)界極大的歡迎,并且衍生出HDFS、ZooKeeper、Hbase、Hive和Pig等系列產(chǎn)品。

實際用例

在實際的工作環(huán)境中,MapReduce這套分布式處理框架常用于分布式grep、分布式排序、Web訪問日志分析、反向索引構(gòu)建、文檔聚類、機器學習、數(shù)據(jù)分析、基于統(tǒng)計的機器翻譯和生成整個搜索引擎的索引等大規(guī)模數(shù)據(jù)處理工作,并且已經(jīng)在很多國內(nèi)知名的互聯(lián)網(wǎng)公司內(nèi)部得到極大地應(yīng)用,比如百度和淘寶。

最后,如果大家對MapReduce感興趣的話,可以到Hadoop的官方站點上下載并試用。

【編輯推薦】

  1. 從Qualcomm公司實施云計算說起
  2. 咖啡館里的云 打印機的新模樣
  3. 了解云的多租戶是云采用的關(guān)鍵一步
     

 

 

責任編輯:王勇 來源: 博客
相關(guān)推薦

2010-11-29 10:28:32

云計算BigTable

2010-11-25 10:05:51

云計算GFS

2010-12-06 14:28:56

云計算Chubby

2011-02-17 09:45:40

云計算RPC框架

2011-01-04 10:00:41

云計算YunTable

2010-12-23 10:19:14

云計算NoSQL數(shù)據(jù)庫

2011-01-06 16:36:05

云計算Google

2020-04-15 13:55:28

Kubernetes容器

2022-12-29 08:00:00

Transforme架構(gòu)深度學習

2020-02-17 21:04:47

在線辦公教育

2020-06-19 12:06:12

云計算云平臺IT

2016-06-27 16:29:04

戴爾閃存

2012-05-21 21:53:05

2017-09-18 08:52:34

2010-05-24 18:22:56

SNMP協(xié)議

2010-10-25 10:13:16

ibmdwWebSphere

2013-03-01 10:45:36

Nike大數(shù)據(jù)

2024-10-29 14:00:21

云計算虛擬網(wǎng)絡(luò)

2012-02-24 09:07:53

云計算成本

2019-06-05 12:49:07

云辦公
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 国产精品日日做人人爱 | 精品美女视频在免费观看 | 国产高清不卡 | 久久精品一区二区三区四区 | 福利精品 | 99久久婷婷国产综合精品电影 | 久草视频2| 精品久久久久久亚洲精品 | 日日操夜夜摸 | 日韩欧美国产综合 | 伊人激情网 | 国产免费一区二区三区网站免费 | 日本一区二区高清不卡 | 国产欧美在线播放 | a级片网站| 国产精品久久久久久av公交车 | 亚洲精品九九 | 91亚洲精品在线观看 | 久草热播| 亚洲天堂色 | 影音先锋中文字幕在线观看 | 亚洲欧美日本在线 | 欧美黄色一区 | 拍戏被cao翻了h承欢 | 国产在线一区二区三区 | 日韩伦理电影免费在线观看 | 国产精品久久久久久久久免费桃花 | 国产精品人人做人人爽 | 在线中文一区 | 久久精品综合 | 一区二区免费 | 成人精品久久 | 欧美日韩视频在线 | 日韩成人免费视频 | 久久久久久久久久久一区二区 | 久久久青草婷婷精品综合日韩 | 午夜91| 国产999精品久久久久久 | 国产h视频 | 午夜精品一区二区三区三上悠亚 | 日韩视频在线免费观看 |