成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據利器:Spark的單機部署與測試筆記

數據庫 Spark
Spark作為最有可能代替mapreduce的分布式計算框架,正受到廣泛的關注。相比Hadoop來說,Spark的中間計算結果存于內存無疑給計算過程節省了很多時間,于是想試試看其與Hadoop有什么不一樣的地方,就有了這篇Spark的單機部署與測試筆記。

一、硬件環境

操作系統: ubuntu-13.04-desktop-i386

JAVA: jdk1.7

SSH配置: openssh-server

二、資源準備

什么是Spark?以下為Spark官網的一句話簡介:

Apache Spark™ is a fast and general engine for large-scale data processing.

Spark包資源下載地址:點擊進入下載頁面

我安裝的版本是:0.9.1版本,源碼包為:spark-0.9.1.tgz

Spark有以下四種運行模式:

  • local:本地單進程模式,用于本地開發測試Spark代碼

  • standalone:分布式集群模式,Master-Worker架構,Master負責調度,Worker負責具體Task的執行

  • on yarn/mesos:運行在yarn/mesos等資源管理框架之上,yarn/mesos提供資源管理,spark提供計算調度,并可與其他計算框架(如MapReduce/MPI/Storm)共同運行在同一個集群之上

  • on cloud(EC2):運行在AWS的EC2之上

Spark支持local模式和cluster模式,local不需要安裝mesos;如果需要將spark運行在cluster上,需要安裝mesos。


三、安裝部署

先把Scala和git裝好,因為之后的sbt/sbt執行的是使用spark自帶的sbt編譯/打包。

sudo apt-get update
sudo apt-get install scala

我們需要做的其實就兩步,解壓縮與編譯。

$tar -zxvf spark-0.9.1.tgz -C /home/hadoop/software/spark
$cd /home/hadoop/software/spark/spark-0.9.1
$sbt/sbt assembly

這一段時間等的會比較長,耐心些。


四、檢驗測試

Spark有兩種運行模式。

4.1 Spark-shell

此模式用于interactive programming,具體使用方法如下(先進入bin文件夾)。

$ ./spark-shell

出現如下信息:

    14/05/10 14:18:23 INFO HttpServer: Starting HTTP Server
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 0.9.1
          /_/

    Using Scala version 2.10.3 (Java HotSpot(TM) Server VM, Java 1.7.0_51)
    Type in expressions to have them evaluated.
    Type :help for more information.
    14/05/10 14:18:34 INFO Slf4jLogger: Slf4jLogger started
    14/05/10 14:18:34 INFO Remoting: Starting remoting
    14/05/10 14:18:34 INFO Remoting: Remoting started;
    ……
    Created spark context..
    Spark context available as sc.

然后輸入如下信息:

scala> val days = List("Sunday", "Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday")
days: List[java.lang.String] = List(Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday)

scala> val daysRDD = sc.parallelize(days)
daysRDD: spark.RDD[java.lang.String] = ParallelCollectionRDD[0] at  parallelize at <console>:14

scala> daysRDD.count()

在經過一系列計算后,顯示如下信息:

res0: Long = 7

4.2 Run腳本

用于運行已經生成的jar包中的代碼,如Spark自帶的example中的SparkPi.

$./bin/run-example org.apache.spark.examples.SparkPi local[3] 

local代表本地,[3]表示3個線程跑。

計算結果如下:

Pi is roughly 3.1444


五、學習建議

在配置過程中看到他人給的一些建議,于是搜集起來供以后學習參考。

  • 如何寫一些spark application?

多看一些spark例子,如:http://www.spark-project.org/examples.html,https://github.com/mesos/spark/tree/master/examples

  • 遇到問題怎么辦?

首先是google遇到的問題,如果還是解決不了就可以到spark google group去向作者提問題:http://groups.google.com/group/spark-users?hl=en

  • 想深入理解spark怎么辦?

閱讀spark的理論paper:http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf

閱讀spark源代碼:https://github.com/mesos/spark

責任編輯:彭凡 來源: 36大數據
相關推薦

2013-11-28 11:29:39

2013-11-28 13:03:17

2014-02-18 15:53:04

2013-12-10 09:51:18

2013-12-24 13:15:59

2013-12-30 13:11:03

2014-04-03 09:35:28

2013-11-28 10:32:10

2014-07-04 10:01:08

Spark集群

2020-05-19 17:07:09

Spark測試數據計算

2017-01-11 16:57:51

大數據大數據集群監控

2019-07-22 10:45:31

2023-03-21 07:47:04

2019-09-05 20:02:27

大數據廉政風險反腐敗

2018-01-05 13:50:17

大數據數據集合測試

2015-07-02 09:47:36

超級計算機大數據

2010-06-07 16:34:07

Hadoop0.20.

2014-04-08 10:55:15

2017-10-11 11:10:02

Spark Strea大數據流式處理

2014-12-15 09:32:17

StormSpark
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产亚洲一区二区三区在线观看 | 91黄在线观看 | www.国产视频| 日韩a在线| 亚洲精品乱码久久久久久按摩观 | 日日夜夜av | 韩国毛片一区二区三区 | 欧美在线天堂 | 久久综合一区 | 中文字幕不卡视频在线观看 | 国产精品免费av | 一级片在线视频 | 免费特级黄毛片 | 欧美在线视频观看 | 99久久久久 | 色资源站| a免费在线 | 精品欧美乱码久久久久久1区2区 | 日韩中文字幕视频 | 伊人精品国产 | 美女久久 | 久久久久九九九九 | 在线免费观看黄视频 | 久久逼逼 | 久在线精品视频 | 久久精品一区二区三区四区 | 龙珠z国语版在线观看 | 精品国产欧美日韩不卡在线观看 | 亚洲成人免费网址 | 黄色在线免费观看视频网站 | 久久久精品 | 久久国产视频网站 | 久久精品久久久久久 | 黄色一级电影免费观看 | 亚洲国产成人精品久久久国产成人一区 | 欧美久久一区 | 视频一区二区在线观看 | 日韩在线视频一区二区三区 | 亚洲视频在线一区 | 日韩视频中文字幕 | 日韩国产一区 |