9.2.2 hadoop采样分组源码解析SplitSampler、RandomSampler、IntervalSampler
采样分组为了实现输出的全局排序,可以对温度数据进行分组处理,实现多个reduce处理,组间有序,组内有序,从而实现全局有序。而如何分组才能保证每个reduce分到的数据差不多,这样作业中的任务执行时间也差不多。例如将处理温度数据,要求温度按顺序输出。分成4组个分组,10℃。10℃1%%1029%60%显然这样分区后,每个ruduce获取的数据量相差很大。调整下分区后使每个分区获取到的数据量差不多,