Hive中排序常用的一些关键字的区别

order by
全局排序,只有一个reducetask,数据量比较大的话排序会比较慢。
sort by
只对每个reduce内部的数据进行排序
distribute by
类似于分桶的功能,或者说MR当中的分区,主要是按照指定的字段,将数据划分到不同
的reduce里面去。
Cluster by
相当于sort by+distribute by.
如果order by排序的字段和distribute by 排序的字段都是id,那么,可以写成
order by id+distribute by id ===cluster by id
也是在每个reduce内部进行排序。
默认只能为升序排序,不能降序排序。

你可能感兴趣的:(Hive)