你不知道的！Hadoop 十大事實揭秘

作者：杜爾森·德倫 2023-03-31 18:37:29

HDFS 不僅可以處理非常大的分布式文件，而且還可以處理不同類型的文件。這個過程相當簡單，任何類型和大小的數(shù)據(jù)都可以使用在 HDFS 中構建的非常簡單和直接的過程進行存儲（集中或分布式）和管理。

事實1：Hadoop 不單單是一個產(chǎn)品。剛接觸大數(shù)據(jù)的人通常認為 Hadoop 是數(shù)據(jù)科學新時代的關鍵產(chǎn)品。實際上，Hadoop 不單單是一個產(chǎn)品，還是一個生態(tài)系統(tǒng)。它由多個開源產(chǎn)品（在 Apache Hadoop 基金會的支特下開發(fā)）組成。它們就像幕后引擎一樣將大數(shù)據(jù)轉換為做出更明智、更快決策所需的寶貴知識。Apache Hadoop基金會的產(chǎn)品包括 MapReduce、HDFS、Hive、HBase、Pig、Sqoop、 Oozie、Hue、Zookeeper 和 Flume 等。這些產(chǎn)品能夠以特定方式組合用于特定的業(yè)務分析以及相關的數(shù)據(jù)源。

事實2：Hadoop 不僅來自 Apache，還是一個基于社區(qū)的生態(tài)系統(tǒng)。Hadoop解快方案庫包含來自 Apache 基金會的多個產(chǎn)品，同時也包含來自大數(shù)據(jù)領城眾多供應商的很多產(chǎn)品。隨著 Hadoop 的發(fā)展，越來越多社區(qū)和供應商加人其中，以使其盡可能全面和通用。

事實3：Hadoop 是一個開源社區(qū)項目。任何人都可以免費使用Hadoop 作為開源軟件庫。Hadoop可以從Apache 網(wǎng)站 www.apache.org獲取。一些初創(chuàng)公司為其他公司提供基于Hadoop庫及其擴展特性的打包解改方案，其中擴展特性是根據(jù)各戶的特定需要和需求定制的。

事實4：Hadoop 和MapReduce 是兩個互補的產(chǎn)品。谷歌在發(fā)明 HDFS之前就開發(fā)了 MapReduce。因此，MapReduce不依賴 HDFS，而是與其他非HDFS的數(shù)據(jù)存儲技術（包括一些最常見的數(shù)據(jù)庫管理系統(tǒng)）一起工作（現(xiàn)在仍然可以一起工作）。

事實5：HDFS 是一個文件系統(tǒng)，而不是一個關系型數(shù)據(jù)庫管理系統(tǒng)。Hadoop 主要處理分布式環(huán)境中的文件（而不是表和記錄）。因此，其數(shù)據(jù)粒度是文件級的，且沒有SQL 查詢、關系型數(shù)據(jù)庫、用于快速檢索的有意索引以及對索引數(shù)據(jù)的快速訪問等與關系型數(shù)據(jù)庫管理系統(tǒng)相關的常見功能。但是，作為回報，HDFS 能夠在文件級別執(zhí)行關系型數(shù)據(jù)庫管理系統(tǒng)無法執(zhí)行的操作。

事實6：Hive 看起來像 SQL，但不是標準 SQL。Hive 是用于操作關系型數(shù)據(jù)庫管理系統(tǒng)中數(shù)據(jù)的標準 SQL 的變體。對于熱悉 SQL 的數(shù)據(jù)分析師來說，學習使用Hive 編寫代碼是一個相對快速和簡單的過程。大數(shù)據(jù)領域的很多人相信并希望，隨著每次迭代，Hive 將更接近于SQL 的語法，而且，在不久的某個時候，標準SQL將很容易被用于處理 Hadoop 系列產(chǎn)品中的數(shù)據(jù)。

事實7：Hadoop 不能替代數(shù)據(jù)倉庫。從歷史上看，數(shù)據(jù)倉庫旨在處理企業(yè)的結構化數(shù)據(jù)，通常是關系型數(shù)據(jù)。隨著大數(shù)據(jù)的出現(xiàn)，數(shù)據(jù)倉庫因為無法處理非結構化數(shù)據(jù)而受到批評。Hadoop 系列產(chǎn)品的目標是通過處理數(shù)據(jù)倉庫無法處理的非結構化數(shù)據(jù)類型來補充（不是取代，至少目前還不是）數(shù)據(jù)倉庫。

事實8：Hadoop 支持分析。雖然Hadoop 已被互聯(lián)網(wǎng)公司廣泛使用并被兩極分化，但是它可以支持任何類型的分析，而不僅僅是網(wǎng)絡分析（如分析網(wǎng)絡日志和其他基于互聯(lián)網(wǎng)的數(shù)據(jù))。例如，Hadoop 在分析物聯(lián)網(wǎng)數(shù)據(jù)方面發(fā)揮了重要作用，物聯(lián)網(wǎng)數(shù)據(jù)主要是由運輸、能源、零售、制造（如預測性維護）、電信和網(wǎng)絡安全等行業(yè)的機器和傳感器生成的。

事實9：MapReduce 不僅僅是分析。雖然 MapReduce 和分析之間存在著密切關系，但是這種關系并不是排他性的。雖然 MapReduce 是一個通用的執(zhí)行引擎(它能夠處理沙及并行編程、網(wǎng)絡通信和容錯的各和復雜任務），但是它不僅限于分析應用。相反，它可以用來執(zhí)行任何類型的計算任務。

事實10：Hadoop 不僅與數(shù)據(jù)量相關，而且還與數(shù)據(jù)的多樣性相關。HDFS 不僅可以處理非常大的分布式文件，而且還可以處理不同類型的文件。這個過程相當簡單，任何類型和大小的數(shù)據(jù)都可以使用在 HDFS 中構建的非常簡單和直接的過程進行存儲（集中或分布式）和管理。

作者簡介：杜爾森·德倫（Dursun Delen），俄克拉荷馬州立大學博士。Business Analytics的Spears和Patterson主席、衛(wèi)生系統(tǒng)創(chuàng)新中心研究主任，以及俄克拉荷馬州立大學斯皮爾斯商學院管理科學和信息系統(tǒng)的杰出貢獻教授。《預測性分析：基于數(shù)據(jù)科學的方法（原書第2版）》《商業(yè)分析：基于數(shù)據(jù)科學及人工智能技術的決策支持系統(tǒng)（原書第11版）》《規(guī)范性分析：循證管理與最優(yōu)決策》作者。

本文摘編于《預測性分析：基于數(shù)據(jù)科學的方法（原書第2版）》，經(jīng)出版方授權發(fā)布。（書號：9787111718345）轉載請保留文章出處。

責任編輯：武曉燕來源：數(shù)倉寶貝庫

Hadoop 分布式文件

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你不知道的！Hadoop 十大事實揭秘