Apache Spark的R語言前端:SparkR
Spark是一個開源的集群計算系統(tǒng),用于快速數(shù)據(jù)分析,包括快速運行和快速寫操作。Spark 是一種與Hadoop相似的開源云計算系統(tǒng),但是兩者之間還存在一些不同之處,這些有用的不同之處使 Spark 在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。
Spark架構(gòu)
Spark 是在Scala語言中實現(xiàn)的,它將Scala用作其應(yīng)用程序框架。與Hadoop不同,Spark 和 Scala 能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。
盡管創(chuàng)建 Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對 Hadoop 的補充,可以在 Hadoo 文件系統(tǒng)中并行運行。通過名為Mesos的第三方集群框架可以支持此行為。Spark 由加州大學(xué)伯克利分校 AMP 實驗室 (Algorithms, Machines, and People Lab) 開發(fā),可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序。
運行SparkR
- library(SparkR) sc <- sparkR.init(master="local")