Hadoop之TeraSort

背景:

TeraSort普遍用于参数hadoop的性能,那么他的原理是什么?

原理:

1.利用默认的IdentityMapper和IdentityReducer进行系统的输入输出。

2.利用mapreduce.job.reduces进行partitions数的确定

3.每个partition读取mapreduce.terasort.partitions.sample/mapreduce.terasort.num.partitions个记录

4.对读取的总样本记录进行排序

5.样品按partition进行分割,形成output/_partition.lst存入缓存

6.在Partitioner中进行形成TrieNode

7.基于TrieNode进行partition映射,最终形成有效的排序结果

你可能感兴趣的:(hadoop)