成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據道場(HDP SandBox) 初探

大數據
這里的大數據道場是以HDP sandbox 為基礎的,安裝好了virtual box,導入了sandbox鏡像之后,啟動虛擬機,來看看我們的大數據道場吧。

這里的大數據道場是以HDP sandbox 為基礎的,安裝好了virtual box,導入了sandbox鏡像之后,啟動虛擬機,來看看我們的大數據道場吧。

訪問方式

通過SSH的終端訪問是不二之選

  1. ssh root@127.0.0.1 -p 2222 

輸入用戶名/密碼后就可以進入我們的道場主機了,命令交互與在一臺ubantu Linux 主機上沒什么不同。

如果不喜歡ssh,或者是windows的用戶,也可以使用WEB Shell。 在瀏覽器中輸入:

  1. http://127.0.0.1:4200 

如下圖所示,與SSH 沒有什么大的區別。

大數據道場(HDP SandBox) 初探

當然了,還可以從VM 的終端登錄,按fn + alt +f5進入即可。

文件傳輸

在本機和sandbox 之間主要是通過SCP進行的。

本地文件復制到sandbox 中:

  1. scp -P 2222 ~/Downloads/x.y.z root@127.0.0.1:/root 

andbox 文件復制到本地:

  1. scp -P 2222 root@127.0.0.1:/sandbox-dir-path/xyz /localpath 

還可以通過虛擬機的共享目錄實現,甚至在sandbox 上搭一個ftp server。

道場中的基礎設施

Hadoop 發布版中比較有名的是CDH和HDP,兩者的主要區別是CDH 通過Cloudera和hue 來管理集群及節點中的組件,而HDP是通過Ambri 完成的。

一般的,通過訪問 http://127.0.0.1:8080 就可以通過Ambri 來瀏覽和管理。但是為了管理服務,需要以管理員的身份登錄ambri。Sandbox 2.4 中需要通過執行腳本來重置ambri的管理員密碼。

 

  1. Abel-Mac-Pro:~ abel$ ssh root@127.0.0.1 -p 2222     
  2. root@127.0.0.1's password:   
  3. Last login: Mon Sep 26 01:47:03 2016     
  4. [root@sandbox ~]# ambari-admin-password-reset   
  5. Please set the password for admin:   
  6. Please retype the password for admin:   
  7. The admin password has been set
  8. Restarting ambari-server to make the password change effective...  
  9. Using python  /usr/bin/python2   
  10. Restarting ambari-server    
  11. Using python  /usr/bin/python2   
  12. Stopping ambari-server    
  13. Ambari Server stopped    
  14. Using python  /usr/bin/python2   
  15. Starting ambari-server    
  16. Ambari Server running with administrator privileges.    
  17. Organizing resource files at /var/lib/ambari-server/resources...    
  18. Server PID at: /var/run/ambari-server/ambari-server.pid    
  19. Server out at: /var/log/ambari-server/ambari-server.out    
  20. Server log at: /var/log/ambari-server/ambari-server.log    
  21. Waiting for server start....................    
  22. Ambari Server 'start' completed successfully.    
  23. [root@sandbox ~]#  

現在,就可以用ambri的admin帳號登錄,看看道場中的基礎設施了。

大數據道場(HDP SandBox) 初探

HDFS

HDFS 是Hadoop集群中數據存儲的頭等公民。數據在集群數據節點中自動復制。

MapReduce2

眾所周知,mapreduce分為兩個階段,Map階段:首先將輸入數據進行分片,然后對每一片數據執行Mapper程序,計算出每個詞的個數,之后對計算結果進行分組,每一組由一個Reducer程序進行處理,到此Map階段完成。

Reduce階段:每個Reduce程序從Map的結果中拉取自己要處理的分組(叫做Shuffling過程),進行匯總和排序(桶排序),對排序后的結果運行Reducer程序,***所有的Reducer結果進行規約寫入HDFS。

MapReduce2 是運行在YARN上的。

YARN

YARN (Yet Another Resource Negotiator,另一種資源協調者)是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統,可為上層應用提供統一的資源管理和調度。YARN的基本思想是將JobTracker的兩個主要功能(資源管理和作業調度/監控)分離,主要方法是創建一個全局的ResourceManager(RM)和若干個針對應用程序的ApplicationMaster(AM)。

Tez

Tez是Apache***的支持DAG作業的開源計算框架,它可以將多個有依賴的作業轉換為一個作業從而大幅提升DAG作業的性能。Tez并不直接面向最終用戶——事實上它允許開發者為最終用戶構建性能更快、擴展性更好的應用程序。Tez產生的主要原因是繞開MapReduce所施加的限制。

Hive

Hive以類SQL方式簡單而又強大地從HDFS中查詢數據. 在用Java寫了10行代碼的MapReduce地方,在Hive中, 只需要一條 SQL 查詢語句.

HBase

Hbase是一個分布式的、面向列的開源數據庫,該技術來源于 Fay Chang 所撰寫的Google論文“Bigtable:一個結構化數據的分布式存儲系統”,是Google Bigtable的開源實現,利用Hadoop HDFS作為其文件存儲系統。

Pig

Pig是一種數據流語言和運行環境,用于檢索非常大的數據集。為大型數據集的處理提供了一個更高層次的抽象。Pig包括兩部分:一是用于描述數據流的語言,稱為Pig Latin;二是用于運行Pig Latin程序的執行環境。Pig 適合于使用 Hadoop 和 MapReduce 平臺來查詢大型半結構化數據集。通過允許對分布式數據集進行類似 SQL 的查詢,Pig 可以簡化 Hadoop 的使用。

Sqoop

Sqoop是一個從結構化數據庫傳說大量數據到HDFS. 使用它,既可以從一個外部的關系型數據庫將數據導入到HDFS, Hive, 或者 HBase, 也可以Hadoop 集群導出到一個關系型數據庫或者數據倉庫.

Oozie

Oozie是一種Java Web應用程序,它運行在Java servlet容器——即Tomcat——中,并使用數據庫來存儲工作流定義和當前運行的工作流實例,包括實例的狀態和變量。Oozie工作流是放置在控制依賴DAG(有向無環圖 Direct Acyclic Graph)中的一組動作(例如,Hadoop的Map/Reduce作業、Pig作業等),其中指定了動作執行的順序。

Zookeeper

Zookeeper 分布式服務框架主要是用來解決分布式應用中經常遇到的一些數據管理問題,如:統一命名服務、狀態同步服務、集群管理、分布式應用配置項的管理等。

Falcon

Falcon 是一個面向Hadoop的、新的數據處理和管理平臺,設計用于數據移動、數據管道協調、生命周期管理和數據發現。它使終端用戶可以快速地將他們的數據及其相關的處理和管理任務“上載(onboard)”到Hadoop集群,可以減少應用程序開發和管理人員編寫和管理復雜數據管理和處理應用程序的痛苦。

Storm

Storm是一個分布式高容錯的實時計算系統。Storm令持續不斷的流計算變得容易,彌補了Hadoop批處理所不能滿足的實時要求。Storm經常用于在實時分析、在線機器學習、持續計算、分布式遠程調用和ETL等領域。

Flume

當查看生成的攝取日志的時候,可以使用Apache Flume; 它是穩定且高可用的,提供了一個簡單,靈活和基于流數據的可感知編程模型。基本上,僅通過配置管理不需要寫一行代碼就可以陪著一個數據流水線。

Ambri Metrics

Ambari Metrics System 簡稱為 AMS,它主要為系統管理員提供了集群性能的監察功能。Metrics 一般分為 Cluster、Host 以及 Service 三個層級。Cluster 和 Host 級主要負責監察集群機器相關的性能,而 Service 級別則負責 Host Component 的性能。

Atlas

Atlas 是一個可伸縮和可擴展的核心功能治理服務。企業可以利用它高效的管理 Hadoop 以及整個企業數據生態的集成。核心功能包括:數據分類、集中審計、搜索、安全和策略引擎。

Kafka

Apache Kafka 是一個由Linkedin開發的訂閱-發布消息的分布式應用。是一個持久化消息的高吞吐量系統 , 支持隊列和話題語意, 使用 ZooKeeper形成集群節點。 詳情參見kafka.apache.org.

Knox

knox是一個訪問hadoop集群的restapi網關,它為所有rest訪問提供了一個簡單的訪問接口點,能完成3A認證(Authentication,Authorization,Auditing)和SSO(單點登錄)等。

Ranger

Ranger是一個hadoop集群權限框架,提供操作、監控、管理復雜的數據權限,它提供一個集中的管理機制,管理基于yarn的hadoop生態圈的所有數據權限。

Slider

Slider 是一個 Yarn 應用,它可以用來在 Yarn 上部署并監控分布式應用。Slider 可以在應用運行期隨意擴展或者收縮應用。Slider工具是一個Java的命令行應用,它會把信息持久化為JSON文檔并存儲到HDFS。當集群啟動后,我們可以使用命令擴展或者收縮集群。集群也可以被停止或者重啟。

Spark

Spark是一個圍繞速度、易用性和復雜分析構建的大數據處理框架。Spark為我們提供了一個全面、統一的框架用于管理各種有著不同性質(文本數據、圖表數據等)的數據集和數據源(批量數據或實時的流數據)的大數據處理的需求。Spark則允許程序開發者使用有向無環圖(DAG)開發復雜的多步數據管道。而且還支持跨有向無環圖的內存數據共享,以便不同的作業可以共同處理同一個數據。

Spark運行在現有的Hadoop分布式文件系統基礎之上(HDFS)提供額外的增強功能。它支持將Spark應用部署到現存的Hadoop v1集群(with SIMR – Spark-Inside-MapReduce)或Hadoop v2 YARN集群甚至是Apache Mesos之中。

Zeppelin Notebook

Zeppelin提供了web版的類似ipython的notebook,用于做數據分析和可視化。背后可以接入不同的數據處理引擎,包括spark, hive, tajo等,原生支持Scala, java, shell, markdown等。Zeppelin 提供了內置的 Apache Spark 集成。Zeppelin的Spark集成提供了:

  • 自動引入SparkContext 和 SQLContext
  • 從本地文件系統或maven庫載入運行時依賴的jar包。更多關于依賴載入器
  • 可取消job 和 展示job進度

HDP Sandbox 默認為我們提供了如此多的組件服務,幾乎涵蓋了hadoop 生態系統,完了么?沒有,還可以用管理員的身份來增加/啟動/關閉 服務,例如Accumulo,Mahout,NiFi,Ranger KMS,SmartSense等,甚至可以自定義服務的。

責任編輯:未麗燕 來源: 36大數據
相關推薦

2022-07-20 15:10:38

Docker大數據平臺

2018-08-10 15:54:43

大數據

2013-05-02 14:48:52

iOS開發沙盒SandBox結構

2022-01-02 09:28:38

漏洞Log4j大數據

2020-08-25 07:00:00

Windows開發IT

2023-11-27 09:16:53

Python數據源類型

2017-10-23 10:51:40

NAS數據遷移

2018-09-30 15:05:38

數據湖數據倉庫Hadoop

2010-09-28 11:11:09

Flachcache

2012-11-08 09:32:24

2015-08-18 09:47:13

2021-05-14 09:57:44

大數據IT互聯網

2009-06-24 13:22:27

Glassfish

2010-06-03 12:57:06

Hadoop

2016-10-11 13:48:41

WebGLJavascriptWeb

2013-03-20 10:31:14

大數據數據云服務

2019-07-04 14:22:56

大數據數據挖掘數量級

2017-11-21 12:02:03

深度學習異構技術

2012-02-13 11:19:49

存儲集群存儲

2016-08-12 00:04:44

大數據交通
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美日韩不卡合集视频 | 激情综合五月天 | www.天天干.com | 国产精品成人一区 | 在线看无码的免费网站 | 91久久精品一区二区二区 | 精品国产乱码久久久久久丨区2区 | 天天操夜夜操 | 一级黄色片网址 | 在线观看第一区 | 欧美精品一区三区 | 久久精选 | 中文一区二区 | 亚洲综合视频一区 | 国产丝袜一区二区三区免费视频 | 日本高清精品 | 久草99| 久久亚洲综合 | 成在线人视频免费视频 | 一区二区三区四区电影 | 久草色视频 | 国产精品久久久久久久久免费高清 | 亚洲成人久久久 | 在线亚洲一区二区 | 精品国产伦一区二区三区观看说明 | 人人天天操 | 毛片在线免费 | 国产精品一区在线观看 | 91 在线| 91在线观看 | 午夜视频在线免费观看 | 91精品国产高清久久久久久久久 | 亚洲国产电影 | 99精品免费| 欧美一级一 | 中文字幕一区二区三区四区 | 日本免费在线 | 日本精品视频在线观看 | 欧美a在线看 | 人人人人爽 | 91国自产 |