MapReduce(九):开发总结及数据清洗(ETL)

ETL

"ETL"是英文Extract_transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)到目的端的过程。ETL较常见在数据库,但其对象不限于数据仓库。

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清洗过程往往只需要运行Mapper程序,不需要运行Reduce程序。

WebLogMapper.java

public class WebLogMapper extends Mapper {

    @Override
    protected void map(LongWritable key, Text value,
        Mapper.Context context)
        throws IOException, InterruptedException {
        String line = value.toString();
        boolean result = parseLog(line,context);
        if(!result){
            return;
        }
        context.write(value,NullWritable.get());
    }

    private boolean parseLog(String line, Mapper.Context context) {
        if(line.length()>11){
            return true;
        }else{
            return false;
        }
    }
}

WebLogDriver.java

public class WebLogDriver {

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setJarByClass(WebLogDriver.class);
        job.setMapperClass(WebLogMapper.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);

        job.setNumReduceTasks(0);

        FileInputFormat.setInputPaths(job, new Path(System.getProperty("user.dir")+"/input/etl"));
        FileOutputFormat.setOutputPath(job, new Path(System.getProperty("user.dir")+"/output/etl"));

        boolean result = job.waitForCompletion(true);
        System.exit(result ? 0 : 1);

    }
}

MapReduce开发总结

输入数据接口:InputFormat

1)默认使用的实现类是:TextInputFormat

2)TextInputFormat的功能逻辑是:一次读取一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。

3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。

逻辑处理接口:Mapper

用户根据业务需求实现其中三个方法:map()、setup()、cleanup()。

Partitioner分区

1)有默认实现HashPartitioner,逻辑是根据key的hash值和numReduces来返回一个分区号;key.hashCode()^Integer.MAXVALUE%numReduces;

2)如果业务上有特别的需求,可以自定义分区。

Comparable排序

1)当我们用自己义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的CompareTo()方法。

2)部分排序:对最终输出的每一个文件进行内部排序。

3)全排序:对所有数据进行排序,通常只有一个reduce。

4)二次排序:排序的条件有两个。

Combiner合并

Combiner合并可以提高程序执行效率,减少IO传输。但是使用时必须不能影响原油的业务处理结果。

逻辑处理接口:Reducer

用户根据业务需求实现其中三个方法:reducer()、setup()、cleanup()。

输出数据接口:OutputFormat

1)默认实现类时TextOutputFormat,功能逻辑是:将每一行KV对,向目标文本文件输出一行。

2)用户还可以自定义OutputFormat。

小结:

经过MapReduce(三):InputFormat数据输入、MapReduce(四):MapReduce工作流程、MapReduce(五):Shuffle机制、MapReduce(六):OutputFormat数据输出、MapReduce(七):MapReduce内核源码解析、MapReduce(八):Join多种应用等几片文章介绍,大概清楚MR开发中的技术点,理解记忆,并在开发中熟练使用。

你可能感兴趣的:(MapReduce(九):开发总结及数据清洗(ETL))