Hadoop——第三部份 Hadoop3.x之MapReduce

第三部份 Hadoop3.x之MapReduce

一、MapReduce概述

1.1 概念

MapReduce是一个分布式运算程序的编程框架

1.2 优缺点
  1. 优点
  • 易于编程
    只关心业务逻辑,实现框架接口。
  • 高扩展
    动态增加服务器
  • 高空错
  • 海量计算
  1. 缺点
  • 不擅长实时计算 (Mysql)
  • 不擅长流式计算 (Sparkstreaming flink)
  • 不擅长DAG有向无环图计算(迭代) (Spark)

二、Hadoop序列化

  • 序列化和反序列化
    将内存中的信息固定下来以传输并加载到其它服务器内存中。

三、MapReduce框架原理

总流程
Input——InputFormat——Mapper——Shuffle——Reducer——OutputFormat——Output

  • Map阶段
    将计算任务下发给各个节点
  • Reduce阶段
    将各个节点计算的结果汇总
3.1 InputFormat数据输入
  1. 切片与MapTask并行度决定机制
  • Job人Map阶段并行度由客户端在提交Job时的切片数决定
  • 每一个Split切片分配一个MapTask并行实例处理
  • 默认切片大小=Bl

你可能感兴趣的:(#,大数据之Hadoop,hadoop,mapreduce,big,data)