Hadoop Streaming二次排序

由于Hadoop机器内存不足,所以需要把数据mapred进来跑。

这样,就需要,同一个key下的输入数据是有序的,即:对于keyA的数据,要求data1先来,之后data2再来……。所以需要对data进行二次排序。


-D stream.num.map.output.key.fields=2

这个,可以设置在map之后,进行partition时,使用前两个tab的数据进行排序(包括key和data中的第一列)。

具体参考:http://blog.csdn.net/xhu_eternalcc/article/details/47147425

http://www.dreamingfish123.info/?p=1102


你可能感兴趣的:(Hadoop Streaming二次排序)