hadoop 实现二级排序

在 Hadoop 中,默认情况下是按照 key 进行排序,如果要按照 value 进行排序怎么办?
有两种方法进行二次排序,分别为:buffer and in memory sort 和 value-to-key conversion。
buffer and in memory sort
主要思想是:在 reduce()函数中,将某个 key 对应的所有 value 保存下来,然后进行排序。 这种方法最大的缺点是:可能会造成 out of memory。
value-to-key conversion
主要思想是:将 key 和部分 value 拼接成一个组合 key(实现 WritableComparable 接口或者调 setSortComparatorClass 函数),这样 reduce 获取的结果便是先按 key 排序,后按 value 排序的结果,需要注意的是,用户需要自己实现 Paritioner,以便只按照 key 进行数据划分。
Hadoop 显式的支持二次排序,在 Configuration 类中有个 setGroupingComparatorClass()方法,
可用于设置排序 group 的 key 值

你可能感兴趣的:(hadoop,big,data,大数据)