map reduce

map reduce1的任务处理流程
  1. 输入数据
  2. 数据分片
  3. map处理
  4. map shuffle(混淆)
    collector -> 缓冲区 ->到达阈值就sortAndSpill磁盘 ->merge
    5 combine(本地的reduce, 不是什么统计都能用combine)


    map reduce_第1张图片
    图片发自App
  5. reduce shuffle
    复制map输出(先复制到内存,超过阈值就flush磁盘)->排序合并
    map reduce_第2张图片
    图片发自App
  6. reduce
  7. 输出数据

你可能感兴趣的:(map reduce)