大数据技术之Hadoop(MapReduce)

2019/12/30 16:03 周一

一、MapReduce概述


1.1、MapReduce定义

MapReduce是一个分布式运算程序的编程框架,是用户开发"基于Hadoop的数据分析应用"的核心框架。

 

MapReduce核心功能是将用户编写的业务逻辑代码自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。

1.2   、MapReduce优缺点

MapReduce优缺点
优点 ①MapReduce易于编程
②良好的扩展性
③高容错性
④适合PB级以上海量数据的离线处理
缺点 ①不擅长实时计算
②不擅长流式计算
③不擅长DAG(有向图)计算

1.3、MapReduce核心思想

①分布式的运算程序往往需要分成至少2个阶段

②第一个阶段的MapTask并发实例,完全并行运行,互不相干。

③第二个阶段的Reduce并发实例互不相干,但是他们的数据依赖上一阶段的所有MapTask并发案例的输出。

④MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。

1.4、MapReduce进程

一个完整的MapReduce程序在分布式运行时有三类实例进程:

MrAppMaster:负责整个程序的过程调度及状态协调。

MapTask:负责Map阶段的整个数据处理流程。

ReduceTask:负责Reduce阶段的整个数据处理流程。

1.5、官方WordCount源码

采用反编译工具反编译源码,发现WordCount案例有Map类、Reduce类和驱动类我。且数据的类型是Hadopo自身封装的序列化类型。

1.6、常用数据序列化类型

常用的数据类型对应的Hadoop数据序列化类型
Java类型 Hadoop序列化类型
Boolean BooleanWritable
Byte ByteWritable
Int IntWritable
Float FloatWritable
Long LongWritable
Double DoubleWritable
String Text
Map MapWritable
Array ArrayWritable 

1.7、MapReduce编程规范

用户编写的程序分成三个部分:MapperReducerDriver

1.Mapper阶段

①用户自定义的Mapper要继承自己的父类。Mapper

②Mapper的输入数据是KV对的形式(KV的类型可自定义)

③Mapper中的业务逻辑写在map()方法中

④Mapper的输出数据是KV对的形式(KV的类型可自定义)

⑤map()方法(MapTask进程)对每一个调用一次

2.Reducer阶段

①用户自定义的Reducer要继承自己的父类。

②Reducer的输入数据类型对应Mapper的输出数据类型,也是KV

③Reducer的业务逻辑写在reduce()方法中。

④ReduceTask进程对每一组相同k的组调用一次reduce()方法

3.Driver阶段

相当于YARN集群的客户端,用于提交我们整个程序到YARN集群,提交的是封装了MapReduce程序相关运行参数的job对象。

1.8、WordCount案例实操   【此处有源代码

Maven项目pom.xml文件依赖:


		
			junit
			junit
			RELEASE
		
		
			org.apache.logging.log4j
			log4j-core
			2.8.2
		
		
			org.apache.hadoop
			hadoop-common
			2.7.2
		
		
			org.apache.hadoop
			hadoop-client
			2.7.2
		
		
			org.apache.hadoop
			hadoop-hdfs
			2.7.2
		

log4j.properties日志配置文件:

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

WcDriver.java源代码


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.CombineTextInputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.NLineInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WcDriver {
    public static void main(String[] args) throws IOException, 
            ClassNotFoundException, InterruptedException {
        //获取一个job实例
        Job job = Job.getInstance(new Configuration());

//      设置inputformat
//      job.setInputFormatClass(NLineInputFormat.class);
//      设置根据行切片,2行切一片
//      NLineInputFormat.setNumLinesPerSplit(job,2);

        //设置CombineTextInputFormat(合并小文件)
//      job.setInputFormatClass(CombineTextInputFormat.class);
//      CombineTextInputFormat.setMaxInputSplitSize(job,4194304);

        //设置Combiner(注意Combiner虽然好,但是一定要在不影响业务结果的前提下使用)
        //Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量。
//      job.setCombinerClass(WcReducer.class);

        //设置本程序的jar包类的路径
        job.setJarByClass(WcDriver.class);

        //设置map类和reduce类
        job.setMapperClass(WcMapper.class);
        job.setReducerClass(WcReducer.class);

        //设置map输出的key和value类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

//        job.setInputFormatClass(NLineInputFormat.class);
//        NLineInputFormat.setNumLinesPerSplit(job,2);

        //设置Reduce的输出的key和value类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        //设置处理文本的输入和输出路径
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        //提交job任务
        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0:1);
    }
}

WcMapper.java源代码

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
//hello word
//hello word
/**
 * KEYIN:LongWritable(偏移量)
 * VALUEIN:Text  (文本中每一行的内容)
 * KEYOUT: Text (某一个单词作为key)
 * VALUEOUT:IntWritable (单词出现的个数)
 */
public class WcMapper extends Mapper {
    //map输出的key值
    private  Text keyText = new Text();
    //map输出的value值
    private IntWritable one = new IntWritable(1);
    //ctrl+o
    @Override
    protected void map(LongWritable key, Text value, Context context) throws 
        IOException, InterruptedException {
//      super.map(key, value, context);
        //获取文件中的行数据
        String line = value.toString();
        //分割字符串(根据空格分割字符串)
        String[] fileds = line.split(" ");
        for (String filed : fileds) {
            keyText.set(filed);
            context.write(keyText,one);
        }
    }
}

WcReducer.java源代码

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * KEYIN: Text map端的输出的key作为reduce的输入key
 * VALUEIN: IntWritable map端的输出作为reduce的输入value
 * KEYOUT: Text 以单词作为输出的key值
 * VALUEOUT:IntWritable 统计单词出现的总数,作为输出的value
 */
public class WcReducer extends Reducer {
    private IntWritable total = new IntWritable();
    @Override
    protected void reduce(Text key, Iterable values, Context context) 
        throws IOException, InterruptedException {
//      super.reduce(key, values, context);
        int sum = 0; //统计单词出现的总数
//    {Text("hadoop"),IntWriter(1),Text("hadoop"),IntWriter(1),Text("hadoop"),IntWriter(1)}
        for (IntWritable value : values) {
            //累加,统计单词出现总次数
            sum += value.get();
        }
        total.set(sum);
        //key,value 写入到上下文中(context)
        context.write(key,total);
    }
}

 

2019/12/30 16:27 周一

二、Hadoop序列化


2.1、序列化概述

什么是序列化

序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。

反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象

为什么要序列化

序列化可以存储"活的"对象,可以将"活的"对象发送到远程计算机。

为什么不用Java的序列化

Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息Header继承体系等),不便于在网络中高效传输。所以,Hadoop自己开发了一套序列化机制(Writable)

Hadoop序列化特点

紧凑:高效使用存储空间。

快速:读写数据的额外开销小。

可扩展:随着通信协议的升级而升级。

互操作:支持多语言的交互。

2.2、自定义bean对象实现序列化接口(Writable)

具体实现bean对象序列化步骤:

①必须实现Writable接口

②反序列化时,需要反射调用空参构造函数,所以必须有空参构造

重写序列化方法

重写反序列化方法

⑤注意反序列化的顺序和序列化的顺序完全一致

⑥要想把结果显示在文件中,需要重写toString(),可用"\t"分开,方便后续用。

⑦如果要将自定义的bean放在key中传输,则还需要实现Comparable接口

因为MapReduce中的Shuffle过程要求对key必须能排序。

2.3、序列化案例实操   【此处待补充源代码

 

 

2019/12/30 16:45 周一

三、MapReduce框架原理


3.1、InputFormat数据输入

3.1.1、切片与MapTask并行度决定机制

1.问题引出

                 MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个job的处理速度。

2.MapTask并行度决定机制

                 数据块:Block是HDFS物理上把数据分成一块一块。

                 数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。

 

3.1.2、Job提交流程源码和切片源码详解

3.1.3、FileInputFormat切片机制

1.切片机制

①简单地按照文件的内容长度进行切片

②切片大小,默认等于Block大小

③切片时不考虑数据集整体,而是逐个针对每一个文件单独切片

3.1.4、CombineTextInputFormat切片机制

框架默认的TextInputFormat切片机制是对任务按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个MapTask,这样如果有大量小文件,就会产生大量的MapTask,处理效率极其低下。

1.应用场景

CombineTextInputFormat用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个MapTask处理。

 

3.1.5、CombineTextInputFormat案例实操 

 

3.1.6、FileInputFormat实现类

FileInputFormat常见的接口实现类包括:

TextInputFormatKeyValueTextInputFormatNLineInputFormat

CombineTextInputFormat自定义InputFormat

 

 

3.1.9、自定义InputFormat

在企业开发中,Hadoop框架自带的InputFormat类型不能满足所有应用场景,需要自定义InputFormat来解决实际问题。

自定义InputFormat步骤如下:

1.自定义一个类继承FileInputFormat。

              ①重写isSplitable( )方法,返回false不可分割。

              ②重写createRecordReader(),创建自定义的RecordReader对象,并初始化

2.改写RecordReader,实现一次读取一个完整文件封装为KV。

              ①采用IO流一次读取一个文件输出到value中,因为设置了不可切片,最终把所有文件都封装到了value中。

              ②获取文件路径信息+名称,并设置key

3.在输出时使用SequenceFileOutputFormat输出合并文件。

              

3.1.10、自定义InputFormat案例实操

 

3.2、MapReduce工作流程

大数据技术之Hadoop(MapReduce)_第1张图片

大数据技术之Hadoop(MapReduce)_第2张图片

 

3.3、Shuffle机制

Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle。

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(大数据)