Hadoop_MapReduce_Partition分区

shuffle是通过分区partitioner 分配给Reduce,一个partition对应一个Reduce,Partitioner是shuffle的一部分。

1.默认Partition分区

Hadoop_MapReduce_Partition分区_第1张图片

默认分区是根据key的hashCode对ReduceTasks个数取模得到的,用户没法控制哪个key存储到哪个分区。

2.自定义Partition分区

因此若要按条件输出到不同文件中(分区),需要自定义类去继承Partitioner。

Hadoop_MapReduce_Partition分区_第2张图片

后两步设置一定要做,否则实现不了!

3.分区总结

Hadoop_MapReduce_Partition分区_第3张图片

Hadoop_MapReduce_Partition分区_第4张图片

你可能感兴趣的:(Hadoop,hadoop,大数据,big,data)