[Hive]Hive排序优化

1、从order by 到 sort by
order by:全局排序,大数据集会消耗太过漫长的时间
sort by:只会在每个reducer 中对数据进行排序,也就是执行局部排序过程,只能保证每个reducer的输出数据都是有序的(但并非全局有序)
2、sort by+distribute by
distribute by控制map的输出在reducer中是如何划分的。假设我们希望具有相同股票交易码的数据在一起处理。那么我们可以使用distribute by来保证具有相同股票交易码的记录会分发到同一个reducer中进行处理,然后使用sort by来按照我们的期望对数据进行排序。
3、cluster by 
如果distribute by和sort by涉及到的列完全相同,且采用的是升序排序方式,则相当于cluster by。
注意:使用distribute by 与sort by语句或简化版的cluster by语句会剥夺sort by的并行性,然而可以实现输出文件是全局排序的。

你可能感兴趣的:(Hive)