深入理解 MapReduce

  • (1)在 Map 阶段的分区阶段,分区的数目(单独一个 Mapper 任务的分支数),同时也决定了 Reducer 的数目;

    这一点在 Java 代码操作时显得尤为明显:

    job.setPartitionerClass(HashPartitioner.class);
    job.setNumReduceTasks(1);
  • (2)基本数据指标的观察

    在 Eclipse 的控制台观察如下的一些信息:

    Map input records=1948789
    Reduce output records=672261
  • (3) 在执行 MapReduce 任务时:

    在某节点上执行 MapReduce 任务时,在该节点的其他终端的其他操作和命令的执行效率会变得很低(这是可以想见的);

你可能感兴趣的:(深入理解 MapReduce)