MapReduce的序列化和分区

流量项目的统计案例

MapReduce的序列化和分区_第1张图片

MapReduce的序列化

  • 序列化:把结构化对象转化为字节流
  • 反序列化:把字节流转换回结构化对象

Java序列化

  • 重量级序列化框架,一个对象被序列化后,会附带很多额外信息(各种校验信息、header、继承体系等),不便在网络中高效传输,所以,Hadoop自己开发了一套序列化机制(Writable)

Hadoop序列化

MapReduce的序列化和分区_第2张图片

Java序列化

  • java对象实现Serializable接口
  • 序列化和反序列化Java对象
    序列化:
  •   创建一个对象输出流
      通过对象输出流的writeObject()方法写对象
    

反序列化:

  •   创建一个对象输入流
      通过对象输入流的readObject()方法读取对象
    

自定义对象实现 MapReduce 框架的序列化

  • 基本思路:自定义bean类,实现Writable接口
    (1)将数据写入到二进制数据流中
    (2)从二进制数据流中读取数据

代码实现步骤

  • 1.自定义 bean 类来封装流量信息,实现 Writable 接口
  • 2.定义成员变量,生成 getter、setter方法
  • 3.添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
  • 4.添加一个有参构造函数,目的是为了方便对象的初始化
  • 5.重写序列化方法:write(DataOutput out )
  • 6.重写反序列化方法:readFields(DataInput in )
  • 7.重写自定义 bean 类的toString()方法,便于输出到文件中去

MapReduce三大组件之Sort

基本思路

自定义 bean 类来封装流量信息,实现 WritableComparable 接口
将 bean 作为 Map 输出的 key 来传输,重写compareTo方法,对 Map 输出的 key 实现自定义排序

代码实现步骤

  • 自定义 bean 类来封装流量信息,实现 WritableComparable 接口,并将 bean 作为 Map 输出的 key 来传输
  • 定义成员变量,生成 getter、setter方法
  • 添加默认的无参构造方法,目的是为了在反序列化时,反射机制调用无参构造方法
  • 添加一个有参构造函数,目的是为了方便对象的初始化
  • 重写序列化方法:write(DataOutput out )
  • 重写反序列化方法:readFields(DataInput in )
  • 重写compareTo方法,对 Map 输出的 key 实现自定义排序
  • 重写自定义 bean 类的toString()方法,便于输出到文件中去

MapReduce三大组件之Partitioner

基本思路

  • 自定义 TelephonePartitioner 类,继承抽象类 Partitioner,然后在 job 对象中,设置自定义partitioner。
    MapReduce 中会将 Map 输出的 kv 对,按照相同 key 分区,然后分发给不同的 ReduceTask。
    默认的分发规则为:根据 key 的 hashcode%ReduceTask 数来分发。
    所以:如果要按照我们自己的需求进行分区,则需要改写数据分发(分区)组件 Partitioner。
  • 重写 getPartition 方法,实现自定义分区

代码实现步骤

  • 自定义 TelephonePartitioner 类,继承抽象类 Partitioner
  • 创建 HashMap 并添加相应值,key为手机号前三位数字,value为对应分区号
  • 重写getPartition 方法,对 Map 输出的 key 实现自定义分区
  • 通过 job.setPartitionerClass( ) 来设置自定义的 Partitioner 类
  • 通过job.setNumReduceTasks( )来设置 Reduce 的数量
    在这里插入图片描述

你可能感兴趣的:(Hadoop)