成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop之父:普通程序員到頂級公司CTO的進階之路

數(shù)據(jù)庫 Hadoop
做大數(shù)據(jù)開發(fā)的朋友一定用過 Hadoop 這個工具,它是一款支持數(shù)據(jù)密集型的分布式應(yīng)用程序。那么接下來就跟雞仔一起來了解被譽為 Hadoop 之父的 Doug Cutting,他到底是何許人也?又有哪些值得我們學(xué)習(xí)的地方呢?

做大數(shù)據(jù)開發(fā)的朋友一定用過 Hadoop 這個工具,它是一款支持數(shù)據(jù)密集型的分布式應(yīng)用程序。Hadoop 基于分布式檔案系統(tǒng)和 MapReduce 技術(shù),通過節(jié)點分工的模式把海量的數(shù)據(jù)處理工作分發(fā)至多臺機器上,再將每臺機器處理的結(jié)果匯總整合。雖然它的邏輯原理并不復(fù)雜(即簡單的分治思想),但其中要攻克的技術(shù)難點卻頗多,比如早期備受詬病的安全問題、文件存儲壓縮問題等。能開發(fā)出這樣一個工具的人,必定有他的過人之處,那么接下來就跟雞仔一起來了解被譽為 Hadoop 之父的 Doug Cutting,他到底是何許人也?又有哪些值得我們學(xué)習(xí)的地方呢? 

學(xué)計算機可以盡早還清貸款

Doug 來自加利福利亞納帕谷的農(nóng)村,1981 年他考上了斯坦福大學(xué)。雖然考上了大學(xué),但家庭并不富裕的 Doug 卻喜憂參半。只有借助貸款,他才能負擔(dān)起學(xué)費

[[268627]] 

斯坦福大學(xué)

在斯坦福,Doug 學(xué)習(xí)了語言學(xué)和計算機相關(guān)的課程。他覺得計算機課程很有趣,更重要的是,他發(fā)現(xiàn)學(xué)習(xí)計算機可以幫他盡早還清貸款。因此,臨近畢業(yè)之際,他沒有選擇繼續(xù)求學(xué)深造,而是在施樂公司(看過《喬布斯傳》的朋友應(yīng)該對這所公司有所了解,這家公司在當(dāng)時非常有名,它的主要研究領(lǐng)域是印刷相關(guān)的技術(shù)。)找了一份薪水不錯的工作,他的工作內(nèi)容是進行自然語言處理和人工智能相關(guān)的研究,借此他也有幸參與了在當(dāng)時比較新潮的一個領(lǐng)域——搜索

[[268628]] 

施樂的工作環(huán)境 

見證搜索行業(yè)的崛起

在谷歌之前,有不少公司曾對搜索領(lǐng)域做過探索,而這些公司在 Google 之后都被遺忘了。施樂就是其中的一員,它可以說是搜索領(lǐng)域的先驅(qū)。當(dāng)然,他們對搜索的探索,重點圍繞著自己的主業(yè)開展

我們都知道,施樂一直從事打印、復(fù)印相關(guān)的業(yè)務(wù),他們當(dāng)時研究的方向是如何將紙制品電子化。而紙制品電子化面臨的主要問題,除了如何正確地識別紙制品上的文字外,還要保證如何快速檢索這些已電子化的文件資料,Doug 當(dāng)時從事的主要是后一項工作。這段時間的工作經(jīng)驗積累,讓他在搜索技術(shù)的廣度和深度上都得到了極大的提升

[[268629]] 

施樂的豆袋會議室

之后不久,隨著網(wǎng)絡(luò)時代到來,以雅虎為代表的基于網(wǎng)絡(luò)搜索的公司如雨后春筍一樣涌現(xiàn)出來。Doug 見證了整個搜索行業(yè)的崛起,當(dāng)時,為了便于用戶檢索互聯(lián)網(wǎng)信息,雅虎采用的方案是分類整合,就是說每當(dāng)有人新建立一個網(wǎng)站,雅虎便將它添加到雅虎的網(wǎng)站庫目錄中,然后再將網(wǎng)站分成金融、新聞、體育、娛樂等板塊

 

雅虎中國首頁

雅虎的這個方案雖然能夠幫助人們快速找到對應(yīng)需求的站點,但無法精細地幫助用戶找到自己的個性化需求。這時候谷歌出現(xiàn)了,它采用的是基于 PageRank 的搜索算法,可以精準(zhǔn)地定位人們的檢索目標(biāo),幫助人們找到想要的結(jié)果。就憑著這點關(guān)鍵的技術(shù)創(chuàng)新,谷歌搜索業(yè)務(wù)迎來了發(fā)展的飛躍期

 

PageRank算法簡化圖解 

兩次練手收獲兩個開創(chuàng)性工具

Doug 雖然在施樂公司已積累了不少搜索技術(shù)的經(jīng)驗,但他探索的搜索技術(shù)都是基于離線環(huán)境的,因此數(shù)據(jù)量級不可能很大。Doug 感覺它的技術(shù)經(jīng)驗有點紙上談兵。于是在 1997 年底,Doug 決定利用業(yè)余時間寫一個開源項目,他在家以每周兩天的時間投入開發(fā),不久之后,便誕生了***個開源文本搜索函數(shù)庫——Lucene

[[268631]] 

Lucene logo

Google 的高速發(fā)展讓 Doug 產(chǎn)生了危機,他擔(dān)心日益減少的網(wǎng)絡(luò)搜索引擎可能讓信息檢索行業(yè)出現(xiàn)新的商業(yè)壟斷。Doug 于是著手與同事一起開發(fā)出了 Nutch,這是***個與 Google 進行競爭的大型開源網(wǎng)絡(luò)搜索引擎項目。Nutch 雖然開發(fā)出來了,但和之前一樣,Nutch 工具依然沒有經(jīng)歷過實戰(zhàn)檢驗,Doug 接下來要做的,是在大量級的數(shù)據(jù)下,對 Nutch 進行壓測。但大數(shù)據(jù)壓測就意味著要采購大量的設(shè)備和數(shù)據(jù)。但 Doug 當(dāng)時待業(yè)在家,并沒有足夠的財力購買這些設(shè)備和數(shù)據(jù)

 

Nutch 架構(gòu)示意圖

 

Hadoop比Webmap快33倍

就在 Doug 為測試困擾時,Google 隨即發(fā)布了一份研究報告,報告中介紹了兩款 Google 為了支持自家產(chǎn)品而研發(fā)的軟件平臺,一個是 GFS(即 Google File System),用于存儲不同設(shè)備產(chǎn)生的海量數(shù)據(jù)。另外一個是 MapReduce,它在 GFS 上工作,用于分布式大規(guī)模數(shù)據(jù)處理。基于這兩個平臺,Doug 開發(fā)出了大名鼎鼎的 Hadoop

 

Hadoop logo

這就解決了困擾 Doug 很久的壓測問題,之前可能需要一臺超級計算機才能完成的工作,現(xiàn)在只需要將任務(wù)分布在幾臺廉價的計算機上同樣可以完成。Doug 對 Google 的開源大加贊賞「我們開始設(shè)想用 4-5 臺電腦來實現(xiàn)這個項目,但在實際運行中牽涉了大量繁瑣的步驟需要靠人工來完成。Google 的平臺讓這些步驟得以自動化,為我們實現(xiàn)整體框架打下了良好的基礎(chǔ)。」

MapReduce 工作流簡化圖 

出于時間成本的考慮,Doug 決定結(jié)束自己的自由職業(yè)生涯。以此來進一步完善他的 Hadoop 項目。他先找了 IBM ,但 IBM 對他早期的 Lucene 項目更感興趣。就在此時,雅虎的負責(zé)人 Raymie Stata 熱情邀請他加入雅虎公司并馬上對搜索業(yè)務(wù)項目進行優(yōu)化改造。加入雅虎后,Doug 如虎添翼,他有一支一百人的團隊幫他完善 Hadoop 項目,這大大加速了 Hadoop 項目的發(fā)展。不久之后,雅虎就將它的搜索業(yè)務(wù)架構(gòu)遷移到 Hadoop 上來。兩年后,雅虎啟動了基于 Hadoop 的***項目 Webmap——一個用來計算網(wǎng)頁間鏈接關(guān)系的算法。遷移項目至 Hadoop 的成效立竿見影,在相同的硬件環(huán)境下,基于 Hadoop 的 Webmap 的反應(yīng)速度是之前系統(tǒng)的 33 倍 

新身份,新征程

雖然 Hapdoop 極大地提高了雅虎的搜索性能,但當(dāng)時的雅虎是熱鍋上的螞蟻。內(nèi)部管理,產(chǎn)品定位,技術(shù)服務(wù)等諸多問題無法得到解決,雅虎的局面實在是江河日下了。由于公司只關(guān)注產(chǎn)品,卻不想在技術(shù)上有過多的投入,Doug 于是跳槽到了 Cloudera

 

Cloudera logo

Cloudera 是為某些公司提供技術(shù)服務(wù)和咨詢的平臺,它的客戶多來自傳統(tǒng)行業(yè)。傳統(tǒng)行業(yè)的客戶有大量的數(shù)據(jù),但不知道如何合理地使用它們,這正好與 Doug 想在 Hadoop 平臺處理更大量的數(shù)據(jù)的想法不謀而合,在這里他有大量的客戶業(yè)務(wù)數(shù)據(jù),輔助他更好地完善 Hadoop 項目。值得一提的是,在 Doug 服務(wù)傳統(tǒng)企業(yè)的過程中,越來越多的互聯(lián)網(wǎng)巨頭也開始加入了 Hadoop 的隊伍(如 Facebook、eBay、LinkedIn 等),Hadoop 的團隊無形之中被進一步擴大了

目前, 除了作為 Hadoop 之父外,Doug 還有另外一個身份——Cloudera ***架構(gòu)師。Cloudera 可以說是 Hadoop 生態(tài)圈最知名的公司了,它的核心產(chǎn)品是為客戶搭建基于 Hadoop 的大數(shù)據(jù)平臺,幫助企業(yè)安裝、配置、運行 Hadoop 以便處理海量的數(shù)據(jù)

 

Cloudera 版本衍化

談到目前 Hadoop 的發(fā)展趨勢,Doug 很是意外 「我從沒有想過,Hadoop 除了搜索引擎,還能在其它方面發(fā)揮作用,它如今的受關(guān)注程度,已經(jīng)完全超過了我之前的想象。」

[[268635]] 

Doug Cutting

談及他的成功事跡,Doug 覺得主要歸功于兩點:熱情。他喜歡攻克技術(shù)難題帶來的成就感,他非常享受自己的程序被千萬人使用的感覺。另外一個就是腳踏實地。Doug 的所有成就都是他一點一滴積累來的,頭頂青天腳踏實地,時間會給人***的嘉獎

責(zé)任編輯:龐桂玉 來源: 數(shù)據(jù)庫開發(fā)
相關(guān)推薦

2018-06-05 11:24:19

華為云

2021-03-02 08:31:18

分布式web 應(yīng)用數(shù)據(jù)存儲

2021-03-03 08:13:23

程序員分布式網(wǎng)絡(luò)

2010-03-08 10:10:57

程序員

2018-06-14 09:59:48

程序員代碼大公司

2012-07-12 09:31:49

程序員

2009-02-10 15:44:09

SCJPJava認證

2014-08-25 10:19:12

程序員

2020-10-05 21:13:37

程序員技能開發(fā)者

2021-01-19 15:59:14

程序員算法

2018-08-28 15:30:54

編程語言Python日志系統(tǒng)

2017-08-11 16:40:21

2017-04-05 11:28:53

2015-08-26 11:29:53

程序員

2012-03-31 11:16:35

女程序員

2020-06-15 09:32:59

程序員大公司小公司

2019-07-18 14:07:36

程序員Linux數(shù)據(jù)庫

2015-08-24 16:24:08

程序員開發(fā)社區(qū)頂級社區(qū)

2016-03-11 09:36:52

程序員頂級職業(yè)建議

2015-08-24 15:37:36

國外程序員開發(fā)社區(qū)
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 亚洲国产精品一区二区久久 | 精品国产免费人成在线观看 | 亚洲在线 | 日韩中文字幕在线观看 | 天天看天天操 | 国产高清在线视频 | 91精品国产一区二区三区 | 日韩一区二区在线观看 | 一区二区三区四区电影视频在线观看 | 综合视频在线 | 久久成人免费视频 | 成人免费视频在线观看 | 五月激情婷婷网 | 亚洲欧美综合精品另类天天更新 | 狠狠伊人| 亚洲成人精品一区二区 | 黄网站在线播放 | 色综合久久天天综合网 | 99久久精品免费看国产四区 | 精品国产欧美一区二区三区成人 | 日韩美av | 日韩www | 国产精品美女久久久久aⅴ国产馆 | 视频一区在线观看 | 免费骚视频 | 日韩欧美精品在线 | 综合久| 精品一区二区三区四区视频 | 日韩欧美中文 | 中文字幕91av | 国产一区二区电影 | 91xxx在线观看 | 欧美二区三区 | 国产精品一区二区av | 91日韩 | 黄毛片| 久久麻豆精品 | 国产成人精品一区二区三 | 自拍 亚洲 欧美 老师 丝袜 | 久久久九九九九 | 国产一区二区在线视频 |