不會這些,你成不了Hadoop高手!
***堂課:大數據集群搭建葵花寶典
由淺入深,四步成“獅”
1)快速搞定偽分布Hadoop集群搭建
2)高可用的5節點Hadoop分布式集群搭建(Hadoop 2.6.0)
3)生產環境:CDH5高可用集群環境搭建
4)彩蛋:順便搞定Storm 和 Spark集群環境
課程大綱
(一)搭建Hadoop偽分布集群,讓WordCount飛起來
1、Vmware虛擬機的介紹
2、Vmware虛擬機的安裝
3、Vmware虛擬機的配置
4、搭建Linux 虛擬機
5、Linux虛擬機的系統配置
6、Hadoop偽分布環境搭建,讓WordCount飛起來
(二)手把手教你搭建5節點Hadoop分布式集群(HA)
1、集群規劃及安裝前準備
2、JDK安裝配置
3、Zookeeper安裝
4、HDFS安裝配置(HA)
5、YARN安裝配置(HA)
(三)搭建CDH5分布式集群環境(HA)
1、主機和軟件規劃
2、目錄規劃
3、SSH免密碼登錄
4、JDK安裝
5、Zookeeper安裝
6、HDFS安裝前檢查
7、HDFS安裝簡介
8、HDFS核心配置文件配置(HA)
9、文件系統初始化
10、HDFS安裝系統驗證
11、HDFS UI簡單介紹HDFS shell操作
12、Hadoop源碼安裝方式之下載源代碼
13、Hadoop源碼安裝方式之編譯環境準備
14、Hadoop源碼安裝方式之hadoop編譯
15、Yarn HA的原理和主機規劃
16、YARN(HA)核心配置文件的配置和分發
17、YARN(HA)的啟停
18、WordCount實戰演練
(四)搭建Storm 分布式集群環境
1、本地模式
2、分布式模式
(五)搭建Spark 分布式集群環境(HA)
1、Spark Standalone分布式環境部署
2、Spark Job提交與運行
3、Spark Standalone HA的實現
4、Spark Standalone運行架構解析
5、Spark Standalone下運行實例程序
第二堂課:輕松構建企業級MapReduce項目
也許這是對新手來說再詳細不過的一堂課
課程大綱
(一)Eclipse 構建普通MapReduce項目
1、JDK安裝
2、Hadoop 插件安裝
3、Hadoop 環境變量配置
4、構建普通的MapReduce項目并測試運行實例程序
(二)Eclipse 構建MapReduce Maven 項目
1、Maven 安裝及環境變量配置
2、構建Maven項目
3、調試MapReduce程序
4、Maven管理多個MapReduce程序
5、Maven項目的打包、測試、部署運行
第三堂課:MapReduce高手進階之Join算法
對熱愛開發的技術人員來說,MR編程是小kiss,我們就不幫你了。
可Join算法經常會用到,就連很多老手也不能掌控自如
好吧,我們就帶你徹底搞明白這個,讓自己技高一籌
課程大綱
(一)MapReduce編程之Join算法
1、MapReduce實現Reduce Join操作
2、MapReduce實現Map Join操作
3、MapReduce實現Semi Join操作
4、MapReduce實現Reduce join + BloomFilter操作
第四堂課:Zookeeper從入門到實戰
ZooKeeper是針對大型分布式系統的可靠協調系統。 Zookeeper的Fast Fail 和 Leader選舉特性大大增強了分布式集群的穩定和健壯性,并且解決了Master/Slave模式的單點故障問題,所以越來越多的計算框架依賴Zookeeper系統,比如HBase、Storm、Spark、Flink等。
Zookeeper在分布式集群中的地位越來越重要,如果你對它不熟悉,你必須必須必須補上它!
課程大綱
(一)深入學習ZooKeeper 架構原理
1、ZooKeeper 是什么?
2、ZooKeeper特點
3、ZooKeeper 基本原理
4、ZooKeeper 寫數據流程
5、ZooKeeper 應用場景
(二)ZooKeeper 分布式環境部署
1、單節點模式
2、偽分布式模式
3、分布式模式
4、配置觀察者(ObServer),擴展系統,提高讀取速度
(三)ZooKeeper 配置管理Hadoop集群
1、ZooKeeper 客戶端設計(API介紹,Java Client開發)
2、ZooKeeper配置管理的案例開發
第五堂課:Hadoop、Spark源碼編譯
這個不解釋,懂的人自然知道重要性
課程大綱
(一)Hadoop源碼編譯
1、檢查并安裝Gcc-c++
2、安裝Maven
3、安裝ProtocolBuffer
4、安裝Cmake
5、安裝Zlib
6、安裝Openssl
7、安裝Snappy
8、編譯Hadoop
9、Hadoop本地庫檢測
10、Hadoop 配置Snappy壓縮
(二)Spark源碼編譯
1、Spark 版本選擇
2、在線安裝Git(root 用戶下)
3、創建一個目錄克隆Spark源代碼
4、切換Spark分支
5、安裝JDK
6、安裝Maven
7、編譯spark