成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Spark學習之RDD簡單算子

大數據 Spark
Spark學習之RDD簡單算子希望給大家帶來一些幫助。

[[199059]]

collect

返回RDD的所有元素

  1. scala> var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. input: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[15] at parallelize at <console>:27 
  3. scala> var result=input.collect 
  4. result: Array[Int] = Array(-1, 0, 1, 2, 2) 

count,coutByValue

count返回RDD的元素數量,countByValue返回每個值的出現次數

  1. scala> var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. scala> var result=input.count 
  3. result: Long = 5 
  4. scala> var result=input.countByValue 
  5. result: scala.collection.Map[Int,Long] = Map(0 -> 1, 1 -> 1, 2 -> 2, -1 -> 1) 

take,top,takeOrdered

take返回RDD的前N個元素 takeOrdered默認返回升序排序的前N個元素,可以指定排序算法 Top返回降序排序的前N個元素

  1. var input=sc.parallelize(Array(1,2,3,4,9,8,7,5,6)) 
  2.  
  3. scala> var result=input.take(6) 
  4. result: Array[Int] = Array(1, 2, 3, 4, 9, 8) 
  5. scala> var result=input.take(20) 
  6. result: Array[Int] = Array(1, 2, 3, 4, 9, 8, 7, 5, 6) 
  7.  
  8. scala> var result=input.takeOrdered(6) 
  9. result: Array[Int] = Array(1, 2, 3, 4, 5, 6) 
  10. scala> var result=input.takeOrdered(6)(Ordering[Int].reverse) 
  11. result: Array[Int] = Array(9, 8, 7, 6, 5, 4) 
  12.  
  13. scala> var result=input.top(6) 
  14. result: Array[Int] = Array(9, 8, 7, 6, 5, 4 

Filter

傳入返回值為boolean的函數,返回改函數結果為true的RDD

  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.filter(_>0).collect() 
  3. result: Array[Int] = Array(1, 2) 

map,flatmap

map對每個元素執行函數,轉換為新的RDD,flatMap和map類似,但會把map的返回結果做flat處理,就是把多個Seq的結果拼接成一個Seq輸出

  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.map(_+1).collect 
  3. result: Array[Int] = Array(0, 1, 2, 3) 
  4.  
  5. scala>var result=input.map(x=>x.to(3)).collect 
  6. result: Array[scala.collection.immutable.Range.Inclusive] = Array(Range(-1, 0, 1, 2, 3), Range(0, 1, 2, 3), Range(1, 2, 3), Range(2, 3)) 
  7.  
  8. scala>var result=input.flatMap(x=>x.to(3)).collect 
  9. result: Array[Int] = Array(-1, 0, 1, 2, 3, 0, 1, 2, 3, 1, 2, 3, 2, 3) 

distinct

RDD去重

  1. scala>var input=sc.parallelize(Array(-1,0,1,2,2)) 
  2. scala>var result=input.distinct.collect 
  3. result: Array[Int] = Array(0, 1, 2, -1) 

Reduce

通過函數聚集RDD中的所有元素

  1. scala> var input=sc.parallelize(Array(-1,0,1,2)) 
  2. scala> var result=input.reduce((x,y)=>{println(x,y);x+y}) 
  3. (-1,1)  //處理-1,1,結果為0,RDD剩余元素為{0,2} 
  4. (0,2)   //上面的結果為0,在處理0,2,結果為2,RDD剩余元素為{0} 
  5. (2,0)   //上面結果為2,再處理(2,0),結果為2,RDD剩余元素為{} 
  6. result: Int = 2 

sample,takeSample

sample就是從RDD中抽樣,***個參數withReplacement是指是否有放回的抽樣,true為放回,為false為不放回,放回就是抽樣結果可能重復,第二個參數是fraction,0到1之間的小數,表明抽樣的百分比 takeSample類似,但返回類型是Array,***個參數是withReplacement,第二個參數是樣本個數

  1. var rdd=sc.parallelize(1 to 20) 
  2.  
  3. scala> rdd.sample(true,0.5).collect 
  4. res33: Array[Int] = Array(6, 8, 13, 15, 17, 17, 17, 18, 20) 
  5.  
  6. scala> rdd.sample(false,0.5).collect 
  7. res35: Array[Int] = Array(1, 3, 10, 11, 12, 13, 14, 17, 18) 
  8.  
  9. scala> rdd.sample(true,1).collect 
  10. res44: Array[Int] = Array(2, 2, 3, 5, 6, 6, 8, 9, 9, 10, 10, 10, 14, 15, 16, 17, 17, 18, 19, 19, 20, 20) 
  11.  
  12. scala> rdd.sample(false,1).collect 
  13. res46: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20) 
  14.  
  15. scala> rdd.takeSample(true,3) 
  16. res1: Array[Int] = Array(1, 15, 19) 
  17.  
  18. scala> rdd.takeSample(false,3) 
  19. res2: Array[Int] = Array(7, 16, 6) 

collectAsMap,countByKey,lookup

collectAsMap把PairRDD轉為Map,如果存在相同的key,后面的會覆蓋前面的。 countByKey統計每個key出現的次數 Lookup返回給定key的所有value

  1. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  2.  
  3. scala> var result=input.collectAsMap 
  4. result: scala.collection.Map[Int,String] = Map(2 -> two, 4 -> four, 1 -> one, 3 -> three) 
  5.  
  6. scala> var result=input.countByKey 
  7. result: scala.collection.Map[Int,Long] = Map(1 -> 2, 2 -> 1, 3 -> 1, 4 -> 1) 
  8.  
  9. scala> var result=input.lookup(1) 
  10. result: Seq[String] = WrappedArray(1, one) 
  11.  
  12. scala> var result=input.lookup(2) 
  13. result: Seq[String] = WrappedArray(two) 

groupBy,keyBy

groupBy根據傳入的函數產生的key,形成元素為K-V形式的RDD,然后對key相同的元素分組 keyBy對每個value,為它加上key

  1. scala> var rdd=sc.parallelize(List("A1","A2","B1","B2","C")) 
  2. scala> var result=rdd.groupBy(_.substring(0,1)).collect 
  3. result: Array[(String, Iterable[String])] = Array((A,CompactBuffer(A1, A2)), (B,CompactBuffer(B1, B2)), (C,CompactBuffer(C))) 
  4.  
  5. scala> var rdd=sc.parallelize(List("hello","world","spark","is","fun")) 
  6. scala> var result=rdd.keyBy(_.length).collect 
  7. result: Array[(Int, String)] = Array((5,hello), (5,world), (5,spark), (2,is), (3,fun)) 

keys,values

  1. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  2. scala> var result=input.keys.collect 
  3. result: Array[Int] = Array(1, 1, 2, 3, 4) 
  4. scala> var result=input.values.collect 
  5. result: Array[String] = Array(1, one, two, three, four) 
  6.  
  7. mapvalues 
  8. mapvalues對K-V形式的RDD的每個Value進行操作 
  9. scala> var input=sc.parallelize(List((1,"1"),(1,"one"),(2,"two"),(3,"three"),(4,"four"))) 
  10. scala> var result=input.mapValues(_*2).collect 
  11. result: Array[(Int, String)] = Array((1,11), (1,oneone), (2,twotwo), (3,threethree), (4,fourfour)) 

union,intersection,subtract,cartesian

union合并2個集合,不去重 subtract將***個集合中的同時存在于第二個集合的元素去掉 intersection返回2個集合的交集 cartesian返回2個集合的笛卡兒積

  1. scala> var rdd1=sc.parallelize(Array(-1,1,1,2,3)) 
  2. scala> var rdd2=sc.parallelize(Array(0,1,2,3,4)) 
  3.  
  4. scala> var result=rdd1.union(rdd2).collect 
  5. result: Array[Int] = Array(-1, 1, 1, 2, 3, 0, 1, 2, 3, 4) 
  6.  
  7. scala> var result=rdd1.intersection(rdd2).collect 
  8. result: Array[Int] = Array(1, 2, 3) 
  9.  
  10. scala> var result=rdd1.subtract(rdd2).collect 
  11. result: Array[Int] = Array(-1) 
  12.  
  13. scala> var result=rdd1.cartesian(rdd2).collect 
  14. result: Array[(IntInt)] = Array((-1,0), (-1,1), (-1,2), (-1,3), (-1,4), (1,0), (1,1), (1,2), (1,3), (1,4), (1,0), (1,1), (1,2), (1,3), (1,4), (2,0), (2,1), (2,2), (2,3), (2,4), (3,0), (3,1), (3,2), (3,3), (3,4)) 
責任編輯:武曉燕 來源: oschina博客
相關推薦

2021-03-04 08:39:21

SparkRDD調優

2016-10-24 09:52:45

SparkRDD容錯

2016-10-24 23:04:56

SparkRDD數據

2019-04-17 15:16:00

Sparkshuffle算法

2017-04-25 09:50:16

SparkRDD核心

2010-08-02 10:50:55

Flex3

2017-04-24 09:20:05

Spark分析分區器

2018-05-28 08:54:45

SparkRDD Cache緩存

2018-04-18 08:54:28

RDD內存Spark

2018-04-17 09:03:01

SparkRDD大數據

2013-08-21 13:26:43

Objective-CNSDate說明

2010-04-28 08:52:59

unixware

2011-03-15 16:19:08

iptables

2017-04-13 13:30:56

SparkSpark MLlib機器學習

2021-09-11 19:04:38

.NetSoapCore協議

2009-11-20 11:28:36

Oracle學習過程

2010-07-07 17:09:24

IP地址協議

2011-08-30 15:32:08

QtQuickQML

2017-07-26 17:25:22

機器學習SparkAPI

2014-04-16 14:50:20

Spark
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲+变态+欧美+另类+精品 | 日韩欧美久久 | 精品国产精品三级精品av网址 | 大象一区 | 国产一区二区三区四区 | 午夜不卡福利视频 | 91久久精品日日躁夜夜躁国产 | 在线观看国产h | 九色在线观看 | 天天插日日操 | 午夜色播 | 人人鲁人人莫人人爱精品 | 一区二区三区视频在线 | 99成人| 久久激情网 | 午夜影院网站 | 国产精品成人69xxx免费视频 | 亚洲欧美中文日韩在线v日本 | 国产精品视频区 | 91精品国产91久久久久久三级 | 色综合激情 | 中文字幕日韩欧美一区二区三区 | 国产高清精品在线 | 欧美精品一级 | 亚洲免费视频在线观看 | 成人片网址 | 插插宗合网 | 成人一区二区三区在线观看 | 日韩精品国产精品 | 免费黄色日本 | 久久精品国产久精国产 | 国产精品18久久久久久白浆动漫 | 一级全黄少妇性色生活免费看 | 91亚洲国产成人久久精品网站 | 91九色在线观看 | 少妇无套高潮一二三区 | 精品国产一区二区三区av片 | 色婷婷综合久久久中文字幕 | 成人精品免费视频 | 久久久久国产一区二区三区 | 国内精品免费久久久久软件老师 |