你不知道的!Hadoop 十大事實揭秘
事實1:Hadoop 不單單是一個產(chǎn)品。剛接觸大數(shù)據(jù)的人通常認為 Hadoop 是數(shù)據(jù)科學新時代的關鍵產(chǎn)品。實際上,Hadoop 不單單是一個產(chǎn)品,還是一個生態(tài)系統(tǒng)。它由多個開源產(chǎn)品(在 Apache Hadoop 基金會的支特下開發(fā))組成。它們就像幕后引擎一樣將大數(shù)據(jù)轉換為做出更明智、更快決策所需的寶貴知識。Apache Hadoop基金會的產(chǎn)品包括 MapReduce、HDFS、Hive、HBase、Pig、Sqoop、 Oozie、Hue、Zookeeper 和 Flume 等。這些產(chǎn)品能夠以特定方式組合用于特定的業(yè)務分析以及相關的數(shù)據(jù)源。
事實2:Hadoop 不僅來自 Apache,還是一個基于社區(qū)的生態(tài)系統(tǒng)。Hadoop解快方案庫包含來自 Apache 基金會的多個產(chǎn)品,同時也包含來自大數(shù)據(jù)領城眾多供應商的很多產(chǎn)品。隨著 Hadoop 的發(fā)展,越來越多社區(qū)和供應商加人其中,以使其盡可能全面和通用。
事實3:Hadoop 是一個開源社區(qū)項目。任何人都可以免費使用Hadoop 作為開源軟件庫。Hadoop可以從Apache 網(wǎng)站 www.apache.org獲取。一些初創(chuàng)公司為其他公司提供基于Hadoop庫及其擴展特性的打包解改方案,其中擴展特性是根據(jù)各戶的特定需要和需求定制的。
事實4:Hadoop 和MapReduce 是兩個互補的產(chǎn)品。谷歌在發(fā)明 HDFS之前就開發(fā)了 MapReduce。因此,MapReduce不依賴 HDFS, 而是與其他非HDFS的數(shù)據(jù)存儲技術(包括一些最常見的數(shù)據(jù)庫管理系統(tǒng))一起工作 (現(xiàn)在仍然可以一起工作)。
事實5:HDFS 是一個文件系統(tǒng),而不是一個關系型數(shù)據(jù)庫管理系統(tǒng)。Hadoop 主要處理分布式環(huán)境中的文件(而不是表和記錄)。因此,其數(shù)據(jù)粒度是文件級的,且沒有SQL 查詢、關系型數(shù)據(jù)庫、用于快速檢索的有意索引以及對索引數(shù)據(jù)的快速訪問等與關系型數(shù)據(jù)庫管理系統(tǒng)相關的常見功能。但是,作為回報,HDFS 能夠在文件級別執(zhí)行關系型數(shù)據(jù)庫管理系統(tǒng)無法執(zhí)行的操作。
事實6:Hive 看起來像 SQL,但不是標準 SQL。Hive 是用于操作關系型數(shù)據(jù)庫管理系統(tǒng)中數(shù)據(jù)的標準 SQL 的變體。對于熱悉 SQL 的數(shù)據(jù)分析師來說,學習使用Hive 編寫代碼是一個相對快速和簡單的過程。大數(shù)據(jù)領域的很多人相信并希望,隨著每次迭代,Hive 將更接近于SQL 的語法,而且,在不久的某個時候,標準SQL將很容易被用于處理 Hadoop 系列產(chǎn)品中的數(shù)據(jù)。
事實7:Hadoop 不能替代數(shù)據(jù)倉庫。從歷史上看,數(shù)據(jù)倉庫旨在處理企業(yè)的結構化數(shù)據(jù),通常是關系型數(shù)據(jù)。隨著大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)倉庫因為無法處理非結構化數(shù)據(jù)而受到批評。Hadoop 系列產(chǎn)品的目標是通過處理數(shù)據(jù)倉庫無法處理的非結構化數(shù)據(jù)類型來補充(不是取代,至少目前還不是)數(shù)據(jù)倉庫。
事實8:Hadoop 支持分析。雖然Hadoop 已被互聯(lián)網(wǎng)公司廣泛使用并被兩極分化,但是它可以支持任何類型的分析,而不僅僅是網(wǎng)絡分析(如分析網(wǎng)絡日志和其他基于互聯(lián)網(wǎng)的數(shù)據(jù))。例如,Hadoop 在分析物聯(lián)網(wǎng)數(shù)據(jù)方面發(fā)揮了重要作用,物聯(lián)網(wǎng)數(shù)據(jù)主要是由運輸、能源、零售、制造(如預測性維護)、電信和網(wǎng)絡安全等行業(yè)的機器和傳感器生成的。
事實9:MapReduce 不僅僅是分析。雖然 MapReduce 和分析之間存在著密切關系,但是這種關系并不是排他性的。雖然 MapReduce 是一個通用的執(zhí)行引擎(它能夠處理沙及并行編程、網(wǎng)絡通信和容錯的各和復雜任務),但是它不僅限于分析應用。相反,它可以用來執(zhí)行任何類型的計算任務。
事實10:Hadoop 不僅與數(shù)據(jù)量相關,而且還與數(shù)據(jù)的多樣性相關。HDFS 不僅可以處理非常大的分布式文件,而且還可以處理不同類型的文件。這個過程相當簡單,任何類型和大小的數(shù)據(jù)都可以使用在 HDFS 中構建的非常簡單和直接的過程進行存儲(集中或分布式)和管理。
作者簡介:杜爾森·德倫(Dursun Delen),俄克拉荷馬州立大學博士。Business Analytics的Spears和Patterson主席、衛(wèi)生系統(tǒng)創(chuàng)新中心研究主任,以及俄克拉荷馬州立大學斯皮爾斯商學院管理科學和信息系統(tǒng)的杰出貢獻教授。《預測性分析:基于數(shù)據(jù)科學的方法(原書第2版)》《商業(yè)分析:基于數(shù)據(jù)科學及人工智能技術的決策支持系統(tǒng)(原書第11版)》《規(guī)范性分析:循證管理與最優(yōu)決策》作者。
本文摘編于《預測性分析:基于數(shù)據(jù)科學的方法(原書第2版)》,經(jīng)出版方授權發(fā)布。(書號:9787111718345)轉載請保留文章出處。