[大数据相关] Hive中的全排序:order by,sort by, distribute by
写mapreduce程序时,如果reduce个数>1,想要实现全排序需要控制好map的输出,详见Hadoop简单实现全排序。现在学了hive,写sql大家都很熟悉,如果一个orderby解决了全排序还用那么麻烦写mapreduce函数吗?事实上,hive使用orderby会默认设置reduce的个数=1,既然reducer的个数都是1了,结果自然全排序!这也违背了充分利用分布式计算进行海量数据排序