MapReduce-Join操作-初体验

友情提示:更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号:高级大数据架构师

这一篇博客说说mapreduce的join问题,根据join的文件分别的数据量的大小,可以使用以下几种方式可以选择
1.repartition join -- reduce-side join 适用于合并两人个或多个更多的大型数据
2.replication join -- map-side join 适用于数据集小于缓存容量的情形
3.semi join -- 另一种map-side join 适用于数据集太大而不能导入内存的情形,但是经过一些过滤措施可以将其减小
到适合于内存处理的大小
这里先不详细的说明几种join的区别,后面会挨个做一个实例来说明,然后在各自说明,下面就来做一个的是reduce-side join,也是使用最广泛的一种join,他支持多路合并,下面就是今天的需求:
用户数据:
uid,name,phoneid
1,tom,40
2,jack,20
3,seven,30
4,lee,10
5,smith,20
6,张三,10
7,李四,30
8,王五,20

goodid,name
10,苹果
20,三星
30,LG
40,华为

输出结果:
张三 苹果
lee 苹果
王五 三星
smith 三星
jack 三星
李四 LG
seven LG
tom 华为

 

定制Writable可序列化对象:(实现hadoop的序列化,写法同WritableComparable,只是没有比较的功能,不用实现compareTo()方法)

 

如果要了解如何定制WritableComparable可以参考《MapReduce-自定义Key-二次排序》

 

[java] view plain copy

  1. import java.io.DataInput;  
  2. import java.io.DataOutput;  
  3. import java.io.IOException;  
  4. import org.apache.hadoop.io.Writable;  
  5.   
  6. public class User implements Writable {  
  7.     private String uno = "";  
  8.     private String name = "";  
  9.     private String pname = "";  
  10.     private String pno = "";  
  11.     private int flag = 0;  
  12.     public User() {  
  13.     }  
  14.     public User(User u) {  
  15.         super();  
  16.         this.uno = u.uno;  
  17.         this.name = u.name;  
  18.         this.pname = u.pname;  
  19.         this.pno = u.pno;  
  20.         this.flag = u.flag;  
  21.     }  
  22.     public User(String uno, String name, String pname, String pno, int flag) {  
  23.         super();  
  24.         this.uno = uno;  
  25.         this.name = name;  
  26.         this.pname = pname;  
  27.         this.pno = pno;  
  28.         this.flag = flag;  
  29.     }  
  30.     @Override  
  31.     public void readFields(DataInput input) throws IOException {  
  32.         this.uno = input.readUTF();  
  33.         this.name = input.readUTF();  
  34.         this.pname = input.readUTF();  
  35.         this.pno = input.readUTF();  
  36.         this.flag = input.readInt();  
  37.     }  
  38.     @Override  
  39.     public void write(DataOutput output) throws IOException {  
  40.         output.writeUTF(uno);  
  41.         output.writeUTF(name);  
  42.         output.writeUTF(pname);  
  43.         output.writeUTF(pno);  
  44.         output.writeInt(flag);  
  45.     }  
  46.     public String getUno() {  
  47.         return uno;  
  48.     }  
  49.     public void setUno(String uno) {  
  50.         this.uno = uno;  
  51.     }  
  52.     public String getName() {  
  53.         return name;  
  54.     }  
  55.     public void setName(String name) {  
  56.         this.name = name;  
  57.     }  
  58.     public String getPname() {  
  59.         return pname;  
  60.     }  
  61.     public void setPname(String pname) {  
  62.         this.pname = pname;  
  63.     }  
  64.     public String getPno() {  
  65.         return pno;  
  66.     }  
  67.     public void setPno(String pno) {  
  68.         this.pno = pno;  
  69.     }  
  70.     public int getFlag() {  
  71.         return flag;  
  72.     }  
  73.     public void setFlag(int flag) {  
  74.         this.flag = flag;  
  75.     }  
  76.     @Override  
  77.     public String toString() {  
  78.         return name + " " + pname;  
  79.     }  
  80. }  

map阶段:

 

 

[java] view plain copy

  1. import java.io.IOException;  
  2. import org.apache.hadoop.io.IntWritable;  
  3. import org.apache.hadoop.io.LongWritable;  
  4. import org.apache.hadoop.io.Text;  
  5. import org.apache.hadoop.mapreduce.Mapper;  
  6.   
  7. public class JoinMapper extends Mapper {  
  8.     @Override  
  9.     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {  
  10.         String line = value.toString();  
  11.         /** 
  12.          * 判断是否为空行 
  13.          */  
  14.         if(line.trim().length() <= 0) {  
  15.             return;  
  16.         }  
  17.         String[] arr = line.split(",");  
  18.         /** 
  19.          * 如果是用户数据则设置flag=0 
  20.          */  
  21.         if (arr.length == 3) {  
  22.             User u = new User();  
  23.             u.setUno(arr[0]);  
  24.             u.setName(arr[1]);  
  25.             u.setFlag(0);  
  26.             context.write(new IntWritable(Integer.parseInt(arr[2].trim())), u);  
  27.         } else if (arr.length == 2) {  
  28.             /** 
  29.              * 如果是手机数据则把flag=1 
  30.              */  
  31.             User u = new User();  
  32.             u.setPname(arr[1]);  
  33.             u.setPno(arr[0]);  
  34.             u.setFlag(1);  
  35.             /** 
  36.              * 都把要join的字段作为key,这样就可以让其到reduce函数处理时在同一个 
  37.              * 迭代器中,这样就可以在reduce函数中做join的操作 
  38.              */  
  39.             context.write(new IntWritable(Integer.parseInt(arr[0].trim())), u);  
  40.         }  
  41.     }  
  42. }  

reduce阶段:

 

 

[java] view plain copy

  1. import java.io.IOException;  
  2. import java.util.ArrayList;  
  3. import java.util.List;  
  4. import org.apache.hadoop.io.IntWritable;  
  5. import org.apache.hadoop.io.NullWritable;  
  6. import org.apache.hadoop.io.Text;  
  7. import org.apache.hadoop.mapreduce.Reducer;  
  8.   
  9. public class JoinReducer extends Reducer {  
  10.   
  11.     @Override  
  12.     protected void reduce(IntWritable key, Iterable values, Context context)  
  13.             throws IOException, InterruptedException {  
  14.         User phone = null;  
  15.         List users = new ArrayList();  
  16.         /** 
  17.          * 遍历迭代器,找出其中的手机的相关信息并存入指定对象 
  18.          * 这里只是简单的体验一下join操作的基本本方式,而且这 
  19.          * 种写法是肯定不能用于线上的,后面总结部分会做详细的 
  20.          * 分析,而且在后面的博客中会一步步的分享可行的方案 
  21.          */  
  22.         for(User e: values) {  
  23.             if(e.getFlag() == 1) {  
  24.                 phone = new User(e);  
  25.             } else if (e.getFlag() == 0) {  
  26.                 users.add(new User(e));  
  27.             }  
  28.         }  
  29.         /** 
  30.          * 遍历user集合,把手机信息添加到user对象中并输出达到我们的实验目的 
  31.          * 这里就是join操作发生的地方 
  32.          */  
  33.         for( User e: users) {  
  34.             e.setPno(phone.getPno());  
  35.             e.setPname(phone.getPname());  
  36.             context.write(NullWritable.get(), new Text(e.toString()));  
  37.         }  
  38.     }  
  39. }  

启动函数:

 

 

[java] view plain copy

  1. import org.apache.hadoop.conf.Configuration;  
  2. import org.apache.hadoop.fs.FileSystem;  
  3. import org.apache.hadoop.fs.Path;  
  4. import org.apache.hadoop.io.IntWritable;  
  5. import org.apache.hadoop.io.NullWritable;  
  6. import org.apache.hadoop.io.Text;  
  7. import org.apache.hadoop.mapreduce.Job;  
  8. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  9. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  10.   
  11. public class JobMain {  
  12.     public static void main(String[] args) throws Exception{  
  13.         Configuration configuration = new Configuration();  
  14.         Job job = new Job(configuration, "join-job");  
  15.         job.setJarByClass(JobMain.class);  
  16.         job.setMapperClass(JoinMapper.class);  
  17.         job.setMapOutputKeyClass(IntWritable.class);  
  18.         job.setMapOutputValueClass(User.class);  
  19.         job.setReducerClass(JoinReducer.class);  
  20.         job.setOutputKeyClass(NullWritable.class);  
  21.         job.setOutputValueClass(Text.class);  
  22.         FileInputFormat.addInputPath(job, new Path(args[0]));  
  23.         Path outputDir = new Path(args[1]);  
  24.         FileSystem fs  = FileSystem.get(configuration);  
  25.         if(fs.exists(outputDir)) {  
  26.             fs.delete(outputDir, true);  
  27.         }  
  28.         FileOutputFormat.setOutputPath(job, outputDir);  
  29.         System.exit(job.waitForCompletion(true)?0:1);  
  30.     }  
  31. }  

运行结果:
总结:

注释中说明了这个Join的mapreduce的写法是不好的,只是用于我们体验join的流程而用,因为这个写法效率低,资源消耗大而且不能适用于所有的业务,效率低是因为在reduce端遍历了两次集合,资源的消耗大是因为重新创建了List来放几乎所有的迭代器中的数据,不能适用于所有的业务是因为正式环境往往一个reduce的迭代器中的数据量巨大,而List的最大值为Integer.MAX_VALUE,所以 在数据量巨大的时候,会造成List越界的错误,所以后面会分享《hadoop硬实战》和《hadoop in action》中的解决方法来一步步的优化join方案。

你可能感兴趣的:(hadoop,MapReduce)