控制sort和作业提交

控制sort和作业提交

MapReduce过程一共发生了3次排序操作,排序操作属于MapReduce的默认行为,我们不能控制是否发生排序,但可以控制排序的规则。
IntWritable类、Text类等都是WritableComparable的实现类,WritableComparable同时继承了Writable和Comparable接口。
WritableComparable实现类可以通过排序器进行比较Hadoop默认的比较方式即调用WritableComparator的compare方法,参数为两个待比较的WritableComparable类型的实例,我们只需实现WritableComparable接口并重写compare方法即可实现自己想要的排序逻辑。
自定义比较器,排序规则为比较key对5取模后的大小:

package cn.chen.hd.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class MyWritableComparator extends WritableComparator{

    public int compareTo(WritableComparable a, WritableComparable b) {
        IntWritable x = (IntWritable)a;
        IntWritable y = (IntWritable)b;
        return (x.get() % 5 - y.get() % 5) > 0 ? 1 : -1;
    }

}

Hadoop在进行排序操作的时候,会将键值对的键传给比较器的compare方法进行比较。

Configuration类代表了作业的配置,该类会加载mapred-site.xmlhdfs-site.xmlcore-site.xml,而Job类代表了一个作业。如果自定义Paritioner、WritableComparator和Combiner,可以在提交作业的代码之前加上:

job.setPartitionerClass(MyPartioner.class);
job.setSortComparatorClass(MyComparator.class);
job.setCombinerClass(MyCombiner.class);

如果想改变作业的配置,可以通过conf.setXX的方法进行配置,比如Reduce任务的个数(默认为1):

job.setNumReduceTasks(2);

完成作业设置,通过waitForCompletion方法提交作业。

System.exit(job.waitForCompletion(true) ? 0 : 1);

你可能感兴趣的:(Hadoop)