黑猴子的家:Hive 之 order by、sort by、distribute by、cluster by

1、背景表结构

在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下:有3个字段,分别为personId标识某一个人,company标识一家公司名称,money标识该公司每年盈利收入(单位:万元人民币)

personId company money
p1 公司1 100
p2 公司2 200
p1 公司3 150
p3 公司4 300

company_info.txt

p1  公司1  100
p2  公司2  200
p1  公司3  150
p3  公司4  300

创建表

hive> create table company_info(
    personId string,
    company string,
    money float
)row format delimited fields terminated by "\t"

导入数据

hive> load data local inpath “company_info.txt” into table company_info;

2、order by

hive中的order by语句会对查询结果做一次全局排序,即,所有的mapper产生的结果都会交给一个reducer去处理,无论数据量大小,job任务只会启动一个reducer,如果数据量巨大,则会耗费大量的时间。

尖叫提示:如果在严格模式下,order by需要指定limit数据条数,不然数据量巨大的情况下会造成崩溃无输出结果。涉及属性:set hive.mapred.mode=nonstrict/strict
例如:按照money排序的例子

hive> select * from company_info order by money desc;

3、sort by

hive中的sort by语句会对每一块局部数据进行局部排序,即,每一个reducer处理的数据都是有序的,但是不能保证全局有序。

4、distribute by

hive中(distribute by + “表中字段”)关键字控制map输出结果的分发,相同字段的map输出会发到一个reduce节点去处理。sort by为每一个reducer产生一个排序文件,他俩一般情况下会结合使用。

hive中的distribute by一般要和sort by一起使用,即将某一块数据归给(distribute by)某一个reducer处理,然后在指定的reducer中进行sort by排序。

尖叫提示:distribute by必须写在sort by之前,涉及属性mapreduce.job.reduces,hive.exec.reducers.bytes.per.reducer
例如:不同的人(personId)分为不同的组,每组按照money排序。

hive> select * from company_info distribute by personId sort by personId, money desc;

5、cluster by

hive中的cluster by在distribute by和sort by排序字段一致的情况下是等价的。同时,cluster by指定的列只能是降序,即默认的descend,而不能是ascend。

简单说:cluster by 相当于 distribute by 和sort by 的结合,默认只能是升序

例如:写一个等价于distribute by 与sort by的例子

hive> select * from company_info distribute by personId sort by personId;

等价于

hive> select * from compnay_info cluster by personId;

你可能感兴趣的:(黑猴子的家:Hive 之 order by、sort by、distribute by、cluster by)