HadoopStudio中實現MapReduce應用
在學習Hadoop的過程中,你可能會遇到HadoopStudio中開發部署MapReduce應用問題,這里向大家介紹一下,希望通過本節的介紹,大家能夠掌握HadoopStudio下開發部署MapReduce應用的方法。
HadoopStudio開發部署MapReduce應用
HadoopStudio是基于Hadoop框架的MapReduce應用集成開發和部署環境。HadoopStudio以NetBeans模塊插件的方式使用,可在NetBeans插件中心獲取。開發者可以通過HadoopStudio的可視化界面,部署分布在不同節點的計算任務,并監控MapReduce處理過程中各階段的輸入、輸出以及交互過程。
針對MapReduce任務執行過程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster節點的配置工具。使用HadoopStudio配置之前,需要預先在目標機器上部署Hadoop作業執行環境,在UbuntuLinux上的Hadoop配置過程,已有詳盡教程(單節點,多節點)可供參考。
在HadoopStudio中對作業節點配置,首先需要定義負責數據存儲的Filesystems節點,可選節點包含本地磁盤訪問、HDFS文件系統和AmazonS3連接三種方式。HDFS節點的配置,需要指定NameNode節點的地址、訪問端口和登錄用戶名,其中登錄用戶名為可選項。對于目前***的r0.20版本,Filesystems節點的端口配置由conf/hadoop-site.xml改為在conf/core-site.xml中設定。
在HadoopCluster配置部分,添加遠程計算節點對應的JobTracker,指定節點的地址,并在下拉列表中選擇之前添加的Filesystems節點,添加的節點則會出現在Hadoop可用節點的列表中。在主節點計算任務啟動之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode進程。對于數據處理,集群中結點由一個NameNode和若干DataNode組成,SecondaryNameNode為NameNode的備份。計算任務中,節點由一個JobTracker和若干TaskTracker組成,JobTracker負責任務調度,TaskTracker執行并行計算任務。TaskTracker須運行在DataNode上以獲取用于計算的數據。
對于已編寫的計算任務,HadoopStudio提供了簡化的作業部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自帶的Hadoop-*-examples.jar示例),之后選擇要執行的主類并添加依賴項,并選擇執行任務的目標Cluster節點和目標Filesystems后即可啟動計算任務。同時,HadoopStudio提供了實時顯示的MapReduce任務工作流視圖,可顯示任務執行過程中的作業類型、完成情況、執行狀態、起止時間、報錯信息以及輸出結果等內容。
Hadoop應用開發方面,HadoopStudio將Hadoop類庫進行打包,可直接在項目中添加所有依賴項。編碼過程中,HadoopStudio為每種作業的提供了模板,并能夠在代碼編輯的同時自動對模板視圖進行更新。
目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client與Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文檔比較簡單,感興趣的朋友可以在freshmeat.net的項目站點跟蹤HadoopStudio的***信息。
【編輯推薦】