黑猴子的家：Hive 之 order by、sort by、distribute by、cluster by

在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有3个字段，分别为personId标识某一个人，company标识一家公司名称，money标识该公司每年盈利收入（单位：万元人民币）

company_info.txt

p1  公司1  100
p2  公司2  200
p1  公司3  150
p3  公司4  300

创建表

hive> create table company_info(
    personId string,
    company string,
    money float
)row format delimited fields terminated by "\t"

导入数据

hive> load data local inpath “company_info.txt” into table company_info;

hive中的order by语句会对查询结果做一次全局排序，即，所有的mapper产生的结果都会交给一个reducer去处理，无论数据量大小，job任务只会启动一个reducer，如果数据量巨大，则会耗费大量的时间。

尖叫提示：如果在严格模式下，order by需要指定limit数据条数，不然数据量巨大的情况下会造成崩溃无输出结果。涉及属性：set hive.mapred.mode=nonstrict/strict
例如：按照money排序的例子

hive> select * from company_info order by money desc;

hive中的sort by语句会对每一块局部数据进行局部排序，即，每一个reducer处理的数据都是有序的，但是不能保证全局有序。

hive中（distribute by + “表中字段”）关键字控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。sort by为每一个reducer产生一个排序文件，他俩一般情况下会结合使用。

hive中的distribute by一般要和sort by一起使用，即将某一块数据归给(distribute by)某一个reducer处理，然后在指定的reducer中进行sort by排序。

尖叫提示：distribute by必须写在sort by之前，涉及属性mapreduce.job.reduces，hive.exec.reducers.bytes.per.reducer
例如：不同的人（personId）分为不同的组，每组按照money排序。

hive> select * from company_info distribute by personId sort by personId, money desc;

hive中的cluster by在distribute by和sort by排序字段一致的情况下是等价的。同时，cluster by指定的列只能是降序，即默认的descend，而不能是ascend。

简单说：cluster by 相当于 distribute by 和sort by 的结合，默认只能是升序

例如：写一个等价于distribute by 与sort by的例子

hive> select * from company_info distribute by personId sort by personId;

等价于

hive> select * from compnay_info cluster by personId;