成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

mapreduce top n實現方式實例

云計算
在最初接觸mapreduce時,top n 問題的解決辦法是將mapreduce輸出(排序后)放入一個集合中,取前n個,但這種寫法過于簡單,內存能夠加載的集合的大小是有上限的,一旦數據量大,很容易出現內存溢出。今天在這里介紹另一種實現方式,雖然也不是最好的方式,但能有效得到top 最大的前n條記錄。

在最初接觸mapreduce時,top n 問題的解決辦法是將mapreduce輸出(排序后)放入一個集合中,取前n個,但這種寫法過于簡單,內存能夠加載的集合的大小是有上限的,一旦數據量大,很容易出現內存溢出。

今天在這里介紹另一種實現方式,當然這也不是***的方式,不過正所謂一步一個腳印,邁好每一步,以后的步伐才能更堅定,哈哈說了點題外話。恩恩,以后還會有更好的方式需求,得到top ***的前n條記錄。

這里只給出一些核心的代碼,其他job等配置的代碼略

Configuration conf = new Configuration(); 

conf.setInt("N"5); 

初始化job之前需要 conf.setInt("N",5); 意在在mapreduce階段讀取N,N就代表著top N。

以下是map

 

  1. package com.lzz.one; 
  2. import java.io.IOException; 
  3. import java.util.Arrays; 
  4. import org.apache.hadoop.io.IntWritable; 
  5. import org.apache.hadoop.io.LongWritable; 
  6. import org.apache.hadoop.io.Text; 
  7. import org.apache.hadoop.mapreduce.Mapper; 
  8.   
  9.   
  10. /** 
  11.  * topN 
  12. *  #orderid,userid,payment,productid 
  13. * [root@x00 hd]# cat seventeen_a.txt 
  14. * 1,9819,100,121 
  15. * 2,8918,2000,111 
  16. * 3,2813,1234,22 
  17. * 4,9100,10,1101 
  18. * 5,3210,490,111 
  19. * 6,1298,28,1211 
  20. * 7,1010,281,90 
  21. * 8,1818,9000,20 
  22. * [root@x00 hd]# cat seventeen_b.txt 
  23. * 100,3333,10,100 
  24. * 101,9321,1000,293 
  25. * 102,3881,701,20 
  26. * 103,6791,910,30 
  27. * 104,8888,11,39 
  28.    
  29. * 預測結果:(求 Top N=5 的結果) 
  30. * 1 9000 
  31. * 2 2000 
  32. * 3 1234 
  33. * 4 1000 
  34. * 5 910 
  35.  * @author Administrator 
  36.  * 
  37.  */ 
  38. public class TopNMapper extends Mapper<LongWritable, Text, IntWritable, IntWritable>{ 
  39.     int len; 
  40.     int top[]; 
  41.     @Override 
  42.     public void setup(Context context) throws IOException,InterruptedException { 
  43.         len = context.getConfiguration().getInt("N"10); 
  44.         top = new int[len+1]; 
  45.     } 
  46.    
  47.     @Override 
  48. public void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException { 
  49.     String line = value.toString(); 
  50.     String arr []= line.split(","); 
  51.     if(arr != null && arr.length == 4){ 
  52.         int pay = Integer.parseInt(arr[2]); 
  53.         add(pay); 
  54.     } 
  55.   
  56.   
  57. public void add(int pay){ 
  58.     top[0] = pay; 
  59.     Arrays.sort(top); 
  60.    
  61. @Override 
  62. public void cleanup(Context context) throws IOException,InterruptedException { 
  63.     for(int i=1;i<=len;i++){ 
  64.         <span></span>context.write(new IntWritable(top[i]),new IntWritable(top[i])); 
  65.     <span></span>} 
  66.  } 
  67.    
  68.   
  69.    
  70.    
  71.    
  72.    
  73.  <div> 
  74.   
  75.   
  76.    
  77.    
  78.    
  79.    
  80.  </div> 

接下來是reduce

  1. package com.lzz.one; 
  2.  
  3. import java.io.IOException; 
  4. import java.util.Arrays; 
  5.  
  6. import org.apache.hadoop.io.IntWritable; 
  7. import org.apache.hadoop.mapreduce.Reducer; 
  8.  
  9. public class TopNReduce extends Reducer<IntWritable, IntWritable, IntWritable, IntWritable>{ 
  10. int len; 
  11. int top[]; 
  12. @Override 
  13. public void setup(Context context) 
  14. throws IOException, InterruptedException { 
  15. len = context.getConfiguration().getInt("N"10); 
  16. top = new int[len+1]; 
  17.  
  18. @Override 
  19. public void reduce(IntWritable key, Iterable<IntWritable> values, 
  20. Context context) 
  21. throws IOException, InterruptedException { 
  22. for(IntWritable val : values){ 
  23. add(val.get()); 
  24.  
  25. public void add(int pay){ 
  26. top[0] = pay; 
  27. Arrays.sort(top); 
  28.  
  29. @Override 
  30. public void cleanup(Context context) 
  31. throws IOException, InterruptedException { 
  32. for(int i=len;i>0;i--){ 
  33. context.write(new IntWritable(len-i+1),new IntWritable(top[i])); 

說一下邏輯,雖然畫圖比較清晰,但是時間有限,畫圖水平有限,只用語言來描述吧,希望能說的明白。

如果要取top 5,則應該定義一個長度為為6的數組,map所要做的事情就是將每條日志的那個需要排序的字段放入數組***個元素中,調用Arrays.sort(Array[])方法可以將數組按照正序,從數字角度說是從小到大排序,比如***條記錄是9000,那么排序結果是[0,0,0,0,0,9000],第二條日志記錄是8000,排序結果是[0,0,0,0,8000,9000],第三條日志記錄是8500,排序結果是[0,0,0,8000,8500,9000],以此類推,每次放進去一個數字如果大于數組里面最小的元素,相當于將最小的覆蓋掉了,也就是說數組中元素永遠是拿到日志中***的那些個記錄。

ok,map將數組原封不動按照順序輸出,reduce接收到從每個map拿到的五個排好序的元素,在進行跟map一樣的排序,排序后數組里面就是按照從小到大排好序的元素,將這些元素倒序輸出就是最終我們要的結果了。

與之前的方式做個比較,之前的map做的事情很少,在reduce中排序后哪前5條,reduce的壓力是很大的,要把所有的數據都處理一遍,而一般設置reduce的個數較少,一旦數據較多,reduce就會承受不了,悲劇了。而現在的方式巧妙的將reduce的壓力轉移到了map,而map是集群效應的,很多臺服務器來做這件事情,減少了一臺機器上的負擔,每個map其實只是輸出了5個元素而已,如果有5個map,其實reduce才對5*5個數據進行了操作,也就不會出現內存溢出等問題了。

原文出自:http://my.oschina.net/u/1378204/blog/343666

責任編輯:Ophira 來源: 壞壞一笑的博客
相關推薦

2010-05-26 13:03:34

MySQL top n

2010-05-26 11:00:57

MySQL top n

2010-05-05 09:03:07

Oracle實現top

2010-05-06 15:38:10

Oracle實現SEL

2010-04-23 10:42:20

Oracle實現

2010-04-21 10:23:13

Oracle實現

2010-04-30 10:40:19

Oracle實現

2013-12-17 10:39:24

命令top

2014-10-15 16:32:43

MapReducehadoop

2021-07-26 08:31:17

算法

2010-06-03 14:33:56

HadoopStudi

2021-11-02 07:44:36

CSS 技巧進度條

2010-06-07 13:35:16

Hadoop簡介

2022-03-18 09:42:54

JavaString

2023-03-06 09:20:33

CSS顏色混合

2009-03-10 10:01:00

WLAN802.11n

2010-06-03 16:18:07

Hadoop MapR

2021-12-06 08:31:18

Oracle數據庫后端開發

2009-09-09 14:40:15

C# XML解析

2010-06-22 13:23:18

Linux at命令詳
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 69av在线视频 | 欧美一级在线 | 免费国产精品久久久久久 | 久久视频精品 | 九色综合网| 夜夜草| 成人一区二区三区在线观看 | 夏同学福利网 | 成人网在线看 | 视频一区 国产精品 | 欧美精品首页 | 成人免费观看男女羞羞视频 | 国产精品99久久久久久久vr | 欧美色综合一区二区三区 | 国产精品特级片 | 五月天婷婷激情 | 欧美久久精品一级c片 | 日韩不卡一区二区 | 日韩免费在线视频 | 91色在线| 女人牲交视频一级毛片 | 日韩黄色小视频 | 在线亚洲精品 | 涩爱av一区二区三区 | 国产偷录视频叫床高潮对白 | 国产精品一区久久久 | 欧美黄色性生活视频 | 国产乱码精品1区2区3区 | 中文字幕一区二区三区精彩视频 | a国产一区二区免费入口 | 伊人精品在线视频 | 日韩一区二区三区在线视频 | 中文字幕精品视频 | 国产精品永久免费观看 | 亚洲成人午夜在线 | 国产不卡在线播放 | 中文字幕一区二区三区四区五区 | 欧美国产精品一区二区三区 | 国产99久久 | 久久久久久久夜 | 成人免费淫片aa视频免费 |