成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Hadoop是什么,能干什么,怎么使用

數據庫 其他數據庫 Hadoop
Hadoop是由java語言編寫的,在分布式服務器集群上存儲海量數據并運行分布式分析應用的開源框架,其核心部件是HDFS與MapReduce。

Hadoop是什么,能干什么,怎么使用

1、Hadoop是什么

1.1、小故事版本的解釋

小明接到一個任務:計算一個100M的文本文件中的單詞的個數,這個文本文件有若干行,每行有若干個單詞,每行的單詞與單詞之間都是以空格鍵分開的。對于處理這種100M量級數據的計算任務,小明感覺很輕松。他首先把這個100M的文件拷貝到自己的電腦上,然后寫了個計算程序在他的計算機上執行后順利輸出了結果。

后來,小明接到了另外一個任務,計算一個1T(1024G)的文本文件中的單詞的個數。再后來,小明又接到一個任務,計算一個1P(1024T)的文本文件中的單詞的個數……

面對這樣大規模的數據,小明的那一臺計算機已經存儲不下了,也計算不了這樣大的數據文件中到底有多少個單詞了。機智的小明上網百度了一下,他在百度的輸入框中寫下了:大數據存儲和計算怎么辦?按下回車鍵之后,出現了有關Hadoop的網頁。

看了很多網頁之后,小明總結一句話:Hadoop就是存儲海量數據和分析海量數據的工具。

1.2、稍專業點的解釋

Hadoop是由java語言編寫的,在分布式服務器集群上存儲海量數據并運行分布式分析應用的開源框架,其核心部件是HDFS與MapReduce。

HDFS是一個分布式文件系統:引入存放文件元數據信息的服務器Namenode和實際存放數據的服務器Datanode,對數據進行分布式儲存和讀取。

MapReduce是一個計算框架:MapReduce的核心思想是把計算任務分配給集群內的服務器里執行。通過對計算任務的拆分(Map計算/Reduce計算)再根據任務調度器(JobTracker)對任務進行分布式計算。

1.3、記住下面的話:

Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。

把HDFS理解為一個分布式的,有冗余備份的,可以動態擴展的用來存儲大規模數據的大硬盤。

把MapReduce理解成為一個計算引擎,按照MapReduce的規則編寫Map計算/Reduce計算的程序,可以完成計算任務。

2、Hadoop能干什么

大數據存儲:分布式存儲

日志處理:擅長日志分析

ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫

機器學習: 比如Apache Mahout項目

搜索引擎:Hadoop + lucene實現

數據挖掘:目前比較流行的廣告推薦,個性化廣告推薦

Hadoop是專為離線和大規模數據分析而設計的,并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。

實際應用:

(1)Flume+Logstash+Kafka+Spark Streaming進行實時日志處理分析

Hadoop是什么,能干什么,怎么使用

 

(2)酷狗音樂的大數據平臺

Hadoop是什么,能干什么,怎么使用

 

3、怎么使用Hadoop

3.1、Hadoop集群的搭建

無論是在windows上裝幾臺虛擬機玩Hadoop,還是真實的服務器來玩,說簡單點就是把Hadoop的安裝包放在每一臺服務器上,改改配置,啟動就完成了Hadoop集群的搭建。

3.2、上傳文件到Hadoop集群

Hadoop集群搭建好以后,可以通過web頁面查看集群的情況,還可以通過Hadoop命令來上傳文件到hdfs集群,通過Hadoop命令在hdfs集群上建立目錄,通過Hadoop命令刪除集群上的文件等等。

3.3、編寫map/reduce程序

通過集成開發工具(例如eclipse)導入Hadoop相關的jar包,編寫map/reduce程序,將程序打成jar包扔在集群上執行,運行后出計算結果。

 

 

責任編輯:龐桂玉 來源: 今日頭條
相關推薦

2022-12-02 14:57:15

物聯網物聯網平臺

2023-10-07 14:51:46

物聯網物聯網平臺

2018-08-30 17:14:56

2019-04-22 10:08:52

NginxApacheWEB服務器

2020-07-08 13:38:10

NginxApache服務器

2022-08-08 07:03:31

Docker場景Registry

2013-02-18 08:15:35

powershell

2014-03-07 10:46:49

編程語言趣味

2013-08-08 09:55:20

私有云DevOps方法虛擬機

2018-05-23 10:43:42

5G無限容量遠程操作

2018-07-24 10:18:08

編程語言PythonPHP

2010-08-30 09:58:56

超算高科技

2017-08-22 10:49:28

DNA存儲電影

2023-01-10 08:43:15

定義DDD架構

2021-01-15 13:21:02

PythonWeb開發機器學習

2009-09-14 08:57:30

2019-01-29 11:08:48

NginxApacheHTTP協議

2023-08-18 14:39:20

RCS谷歌

2012-06-11 10:02:35

2009-09-01 09:50:22

Samba服務器
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 最新中文字幕久久 | 伊人婷婷| japan21xxxxhd美女| 色资源站 | 日日操夜夜操天天操 | 中文字幕亚洲一区二区三区 | 欧美日韩在线一区二区三区 | 粉嫩一区二区三区国产精品 | 福利视频大全 | 午夜影院在线观看免费 | 亚洲欧美日韩一区 | 动漫www.被爆羞羞av44 | 特黄视频| 欧美国产亚洲一区二区 | 国产高清在线精品 | 一二三四在线视频观看社区 | 亚洲精品视频一区二区三区 | www.youjizz.com日韩 | 欧洲一区视频 | 蜜桃精品视频在线 | 国偷自产av一区二区三区 | 欧美人成在线视频 | 亚洲日本中文字幕在线 | 日本成人福利 | 激情一区二区三区 | 国产成人小视频 | 日韩精品视频一区二区三区 | 亚洲一区二区免费看 | 免费在线成人网 | 一区二区在线不卡 | 国产精品久久久久久久久久三级 | av福利网 | 91国产精品| 中文字幕一区二区在线观看 | 在线观看av网站永久 | 久久久免费少妇高潮毛片 | 国产免费a | 亚洲成人精品 | 国产一区二区在线免费观看 | 黄色大片免费网站 | 久久国产精品免费一区二区三区 |