成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據的那些事(3):三駕馬車之坑人的MapReduce

大數據 數據分析
我們先看看作為編程模型的MapReduce。所謂MapReduce的意思是任何的事情只要都嚴格遵循Map Shuffle Reduce三個階段就好。

[[174345]]

 

在Google的三駕馬車里面,Google File System是永垂不朽的,也是基本上沒有人去做什么進一步的研究的。

BigTable是看不懂的,讀起來需要很多時間精力。

唯獨MapReduce,是霓虹燈前面閃爍的星星,撕逼戰斗的主角,眾人追捧和喊打的對象。自從MapReduce這個詞出來以后,不知道有多少篇論文發表出來,又不知道有多少口誅筆伐的文章。

我曾經在HANA篇里寫過圍繞MapReduce,Google和Michael StoneBraker等等database的元老之間的論戰。歡迎大家先讀讀這篇八卦文。為了避免重復,這篇文章里,我就不再展開這部分的話題了。

作為論文來說MapReduce嚴格的來講不能算作一篇論文,因為它講述了兩件不同的事情。其一是一個叫做MapReduce的編程模型。其二是大規模數據處理的體系架構的實現。

這篇論文將兩者以某種方式混雜在一起來達到不可告人的目的,并且把這個體系吹得非常的牛,但是卻并沒有討論一些Google內部造就知道的局限性,以我對某狗的某些表現來看,恐怕我的小人之心覺得有意為之的可能性比較大。

因此當智商比較低的Yahoo活雷鋒抄襲MapReduce的時候弄出的Hadoop是不倫不類,這才有了后來Hadoop V2以及Yarn的引進。當然這是后話。

作為同樣抄襲對象的微軟就顯得老道很多。微軟內部支撐大數據分析的平臺Cosmos是狠狠的抄襲了Google的File system卻很大程度上摒棄了MapReduce這個框架。

我們先看看作為編程模型的MapReduce。所謂MapReduce的意思是任何的事情只要都嚴格遵循Map Shuffle Reduce三個階段就好。

其中Shuffle是系統自己提供的而Map和Reduce則用戶需要寫代碼。Map是一個per record的操作。

任何兩個record之間都相互獨立。Reduce是個per key的操作,相同key的所有record都在一起被同時操作,不同的key在不同的group下面,可以獨立運行。

這就像是說我們有一把大砍刀,一個錘子。

世界上的萬事萬物都可以先砍幾刀再錘幾下,就能搞定。至于刀怎么砍,錘子怎么錘,那就算個人的手藝了。 從計算模型的角度來看,這個模型極其的粗糙。

所以現在連Google自己都不好意思繼續鼓吹MapReduce了。從做數據庫的人的角度來看這無非是一個select一個groupby,這些花樣197x的時候在SystemR里都被玩過了。數據庫領域玩這些花樣無數遍。真看不出有任何值得鼓吹的道理。

因此,在計算模型的角度上來說,我覺得Google在很大程度上誤導和夸大了MapReduce的實際適用范圍,也可能是自己把自己也給忽悠了。

在Google內部MapReduce最大的應用是作為inverted index的build的平臺。所謂inverted index是information retrieval里面一個重要的概念,簡單的講是從單詞到包含單詞的文本的一個索引。我們搜索internet,google需要爬蟲把網頁爬下來,然后建立出網頁里面的單詞到這個網頁的索引。

這樣我們輸入關鍵字搜索的時候,對應的頁面才能出來。也正因為是這樣,所以Google的論文里面用了word count這個例子。下圖是word count的MapReduce的一個示意圖。

然而我們需要知道的是,Google后來公布的信息顯示它的廣告系統是一直運行在MySQL的cluster的,該做join的時候也是做join的。

 

MapReduce作為一個編程模型來說,顯然不是萬能的藥。可是因為編程模型涉及的是世界觀方法論的問題。

于是催生了無數篇論文,大致的套路都是我們怎么樣用MapReduce去解決這個那個問題。這些論文催生了無數PhD,幫助很多老師申請到了很多的錢。

我覺得很大程度上都掉進了google的神話和這個編程模型的坑。 MapReduce這篇論文的另外一個方面是系統實現。我們可以把題目寫成:如何用一堆廉價PC去穩定的實現超大規模的并行數據處理。

我想這無疑可以體現出這篇論文真正有意義的地方。的確,數據庫的工業界和學術界都玩了幾十年了,有哪個不是用高端的機器。

在MapReduce論文出來的那個時候,誰能處理1個PB的數據我給誰跪了。但是Google就能啊。我得意的笑我得意的笑。

所以Google以它十分牛逼的數據處理平臺,去吹噓那個沒有什么價值的編程模型。而數據庫的人以攻擊Google十分不行的編程模型,卻故意不去看Google那個十分強悍的數據處理平臺。

這場馮京對馬涼的比賽,我覺得毫無意義。 那么我們來看看為什么Google可以做到那么大規模的數據處理。

首先這個系統的第一條,很簡單,所有的中間結果可以寫入到一個穩定的,不因為單機的失敗而不能工作的分布式海量文件系統。GFS的偉大可見一斑。沒有GFS,玩你妹的MapReduce。沒有一個database廠商做出過偉大的GFS,當然也就沒辦法做出這么牛叉的MapReduce了。

這個系統的第二條也很簡單,能夠對單個worker進行自動監視和retry。這一點就使得單個節點的失敗不是問題,系統可以自動的進行管理。加上Google一直保持著絕不泄密的資源管理系統Borg。使得Google對于worker能夠進行有效的管理。

Borg這個系統存在有10多年了,但是Google故意什么都不告訴大家,論文里也假裝沒有。我第一次聽說是幾個從Google出來的人在Twitter想重新搞這樣一個東西。然而一直到以docker為代表的容器技術的出現,才使得大家知道google的Borg作為一個資源管理和虛擬化系統到底是怎么樣做的。

而以docker為代表的容器技術的出現也使得Borg的優勢不存在了。所以Google姍姍來遲的2015年終于發了篇論文。我想這也是Yahoo這個活雷鋒沒有抄好,而HadoopV2必須引入Yarn的很重要的原因。

解釋這么多,其實是想說明幾點,MapReduce作為編程模型,是一個很傻的模型。完全基于MapReduce的很多project都不太成功。

而這個計算模型最重要的是做inverted index build,這就使得Google長久以來宣揚的Join沒意義的論調顯得很作。另外隨著F1的披露,大家知道Google的Ads系統實際上長期運行在MySQL上,這也從側面反應了Google內部的一些情況和當初論文的高調宣揚之間的矛盾。

Google真正值得大家學習的是它怎么樣實現了大規模數據并發的處理。這個東西說穿了,一是依賴于一個很牛的文件系統,二是有著很好的自動監控和重試機制。

而MapReduce這個編程模型又使得這兩者的實現都簡化了。然而其中很重要的資源管理系統Borg又在當初的論文里被徹底隱藏起來了。我想,隨著各種信息的披露,我只能說一句,你妹的。

MapReduce給學術界掀起了一片灌水高潮,學術界自娛自樂的精神實在很值得敬佩。然而這個東西火得快,死的也快。所謂人怕出名豬怕撞。

同系列之:

大數據的那些事(1):Google的后悔藥

大數據的那些事(2):三駕馬車之永垂不朽的GFS

責任編輯:趙寧寧 來源: 36大數據
相關推薦

2016-10-24 22:50:56

GFS大數據Google

2011-09-20 09:50:21

英特爾云計算開放

2021-12-26 18:20:03

架構Flink設計

2018-01-04 13:29:13

租房租房網站安全

2020-04-20 14:40:07

KyribaSaaS

2017-04-06 09:35:10

大數據SparkSQLSpark

2025-04-29 09:09:32

2025-04-15 08:44:43

2016-10-24 22:41:06

大數據Google

2014-04-18 10:58:45

2016-10-27 14:28:59

Hadoop系統大數據

2020-11-15 19:42:36

人工智能AI

2015-08-27 17:08:46

大數據

2021-03-25 19:53:43

亞馬遜云科技

2013-06-14 16:17:28

企業電商

2012-01-02 19:30:22

iPad

2023-07-31 08:21:22

語法校對器Pick

2018-10-25 14:08:40

微軟AzureOffice 365

2017-03-14 13:03:18

Android架構第三方庫

2014-06-06 16:08:17

初志科技
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 91视频网 | 国产美女免费视频 | 成年视频在线观看 | 亚洲精品视频导航 | 久久91av | 欧美视频在线播放 | 国产精品久久久久久久久久久免费看 | 精品欧美黑人一区二区三区 | 中文字幕日韩一区二区 | 亚洲国产精品福利 | 日韩电影中文字幕 | 一区在线观看 | 国产精品美女视频 | 99资源站 | 日韩图区 | 九九热这里只有精品在线观看 | 久一久| 中文字幕日本一区二区 | 男女羞羞的网站 | 国产精品自在线 | 国精产品一品二品国精在线观看 | 久久综合成人精品亚洲另类欧美 | 精品视频一区二区三区在线观看 | 成人a免费 | 视频一区二区三区在线观看 | 国产精品久久久久无码av | 久久久高清 | 波多野吉衣在线播放 | 成人精品一区二区 | 中文字幕日本一区二区 | 国产91精品久久久久久久网曝门 | 欧美精品一区二区三区在线播放 | 精品网站999www | 中文精品视频 | 国产精品一区二区在线 | 欧美精品久久久 | 日韩欧美在线观看 | 九九久久免费视频 | 毛片毛片毛片毛片毛片 | 视频一区在线 | 亚洲综合热 |