成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

你需要了解關于Hadoop與大數據的12個事實

大數據 Hadoop
人們在談論Hadoop的時候,常常把它當做單一產品來看待,但事實上它由多個不同的產品共同組成。而且“千萬別以為Hadoop是免費的或者很便宜,它背后的隱性開銷你是一下子看不到的。”

事實1:hadoop是由多個產品組成的。

人們在談論Hadoop的時候,常常把它當做單一產品來看待,但事實上它由多個不同的產品共同組成。

Russom說:“Hadoop是一系列開源產品的組合,這些產品都是Apache軟件基金會的項目。”

一提到Hadoop,人們往往將其與MapReduce放在一起,但其實HDFS和MapReduce一樣,也是Hadoop的基礎。

[[210230]]

事實2:Apache Hadoop是開源技術,但專有廠商也提供Hadoop產品。

由于Hadoop屬于開源技術,可免費下載,所以IBM、Cloudera和EMC Greenplum等廠商都可以推出他們各自的Hadoop特別發行版本。

這些特別發行版本一般都會有一些附加特性,比如高級管理工具及相關的支持維護服務。有人可能對此嗤之以鼻:既然開源社區是免費的,那么我們為什么還要為它的服務付費?Russom解釋道,這些版本的HDFS對一些IT部門更合適,特別是企業IT系統已經相對成熟的用戶。

事實3:Hadoop是一個生態系統,而非一個產品。

Hadoop是由開源社區和各個廠商共同開發和推動的。具體說來,廠商的Hadoop的產品其結構化和關系性更強一些。

Russom說:“一直以來報表平臺、數據集成平臺在為更新的平臺提供各種各樣的接口,Hadoop當然也不例外。”

事實4:HDFS是文件系統,而不是數據庫管理系統。

Russom最無法忍受的,就是人們常常把二者混為一談。能夠對數據集進行管理是數據管理系統很重要的特性之一,這一點HDFS是不具備的。

數據庫管理系統中,我們通過查詢索引可以實現對數據的隨機訪問,它往往處理的是結構化的數據,而在Hadoop中不會處理這樣的數據類型。

事實5:Hive與SQL類似,卻非標準SQL。

傳統獲取數據的業務工具大多都是基于SQL的,這比較讓人頭疼,因為Hadoop使用的是一種類似SQL但不是SQL的語言——Apache Hive和HiveQL。

Russom說:“我常聽到別人說,‘Hive學起來非常簡單,直接學Hive就行。’但這并不能解決與SQL工具兼容的根本問題。”

Russom認為兼容性只是一個短時間問題,但卻阻礙了Hadoop的普及。

事實6:Hadoop與MapReduce相互關聯,但不相互依賴。

MapReduce早在HDFS出現以前就由Google開發推出。除此之外,諸如MapR一類的廠商一直在宣傳MapReduce功能的多樣性,無需HDFS支持。

盡管如此,Russom卻認為它們具有很好的互補性。HDFS的大部分價值都體現在可層疊到分布式文件系統的工具上。

事實7:MapReduce提供的是對分析的控制,而不是分析本身。

MapReduce是一種通用執行驅動引擎,可協助大數據分析。它能讀取手寫代碼數據,對其進行并行自動處理,并將結果映射到單一集合中。然而我們需要明確一點,MapReduce自身并不進行分析工作。

Russom說:“MapReduce可以看作是升級版的MPP架構。你無論怎樣編寫代碼,它都可以把它們并行化,非常強大。”

事實8:Hadoop的意義不僅僅在于數據量,更在于數據的多樣化。

有人把Hadoop歸類為海量數據處理技術,但是Hadoop真正的價值卻是對多樣化數據處理的能力。

Russom說:“Hadoop的處理范圍為大多數數據倉庫所不及,比如針對半結構化與完全非結構化的數據。”

事實9:Hadoop是數據倉庫的補充,不是數據倉庫的替代品。

Hadoop對多樣化數據類型進行管理的能力使得“數據倉庫將死”的言論四起,然而Russom卻進行了反駁。

他反問道:“在IT領域,人們多久替換一項技術?幾乎從來沒有過。”

數據倉庫在其領域中的性能仍然出色,Hadoop可起到對數據倉庫技術進行補充的作用。數據倉庫和其他系統的架構越來越多地開始向分布式靠攏,Hadoop在這里將發揮其作用。

事實10:Hadoop不僅僅是Web分析。

Hadoop在互聯網中的運用非常普遍,Russom認為Hadoop普及趨勢的部分原因是因為它可以處理更多類型的分析。

Russom舉了鐵路公司、機器人和零售業的例子。鐵路公司可使用傳感器對異常高溫的軌道車輛進行探測,以阻止事故的發生。

Russom盡管十分看好Hadoop的前景,但同時認為它的普及還需要數年時間。

事實11:大數據不一定非Hadoop不可。

別看現在大數據和Hadoop已經密不可分,Russom卻認為Hadoop并不是大數據的“唯一”。他提到了許多其他廠商的產品,如Teradata、Sybase IQ(被SAP收購)和Vertica(被HP收購)等。

除此之外,在Hadoop沒有誕生之時,一些企業就已經開始研究大數據了。例如,電信行業多年以前就有呼叫明細記錄。

事實12:Hadoop不是“免費午餐”。

雖然Hadoop屬于開源技術,但是軟件的安裝部署是需要花錢的。Russom稱,由于Hadoop在管理工具與支持服務方面的不足,企業在使用過程中很容易產生額外費用。另外,由于它沒有優化程序,我們只能請專業人士在運行環境中手寫輸入代碼,而這些專業人士的薪酬價碼都不菲。

更不用提部署Hadoop集群的硬件和相關配置的成本。

他說:“千萬別以為Hadoop是免費的或者很便宜,它背后的隱性開銷你是一下子看不到的。”

責任編輯:未麗燕 來源: 大數據觀察
相關推薦

2012-06-28 15:57:08

Hadoop

2021-05-19 09:40:14

Android 12Android

2016-05-12 10:55:46

UbuntuUnity 8效率

2012-07-04 17:06:53

大數據

2019-07-18 12:57:21

大數據互聯網算法

2017-02-06 13:52:05

Docker

2016-11-01 16:41:08

直通網線連接端口傳輸數據

2019-08-21 10:41:47

2021-08-09 14:40:02

物聯網IOT智能家居

2022-10-27 10:29:15

2016-08-12 22:27:32

大數據小趨勢

2012-06-26 10:13:55

2011-04-01 11:16:06

hessian

2023-08-03 11:25:44

2010-11-23 13:34:12

微軟Lync

2021-09-07 14:36:53

DevSecOps開源項目

2012-06-27 09:11:47

2022-03-14 16:50:54

物聯網IoT云計算

2023-12-15 08:07:37

響應式布局官網

2015-09-16 14:13:53

應用集成應用開發企業架構
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 伦理一区二区 | 男女羞羞免费视频 | 在线视频一区二区三区 | 日韩高清一区二区 | 国产乱码精品一区二区三区中文 | 国产一区二区在线91 | 日韩1区 | 欧美精品日韩精品国产精品 | 午夜影院在线免费观看视频 | 欧美成人免费在线 | 久久国产麻豆 | 三级视频国产 | 久久久国产精品 | 精品亚洲一区二区三区 | 久久99精品久久久久久 | 国产精品国产成人国产三级 | 91免费福利在线 | 国产在线一区二 | 欧美成人免费在线视频 | 日日夜夜视频 | 午夜天堂精品久久久久 | 欧美久久久久久久久中文字幕 | 中文字幕视频在线观看免费 | 999精品视频 | 亚洲精品在线免费观看视频 | 免费一级欧美在线观看视频 | 欧美精品一区免费 | 亚洲国产成人av好男人在线观看 | 午夜一区二区三区在线观看 | 午夜精品一区二区三区在线 | 国产精品视频一区二区三区 | 69av网 | 波多野结衣av中文字幕 | 欧美视频在线看 | 日韩av在线一区 | 99久久99| 国产一级黄色网 | 国产欧美日韩在线观看 | 亚洲精品福利在线 | 欧美精品一区二区三区在线播放 | 嫩草伊人|