Hive distribute by sorl by order by 的区别

 


distribute by:控制着在map端如何分区,按照什么字段进行分区,要注意均衡
sort by:每个reduce按照sort by 字段进行排序,reduce的数量按照默认的数量来进行,当然可以指定。
               最终可以进行归并排序得出结果。
                适用于数据量比较大的排序场景。
order by:reduce只有一个,在一个reduce中完成排序,使用于数据量小的场景。


 

 

你可能感兴趣的:(Hive distribute by sorl by order by 的区别)