分区表
Hive中没有复杂的分区类型(List,Range,Hash)、各种复合分区,分区列不是表中的实际字段而是一个伪列,创建表时可以指定PARTITION BY 子句创建一个或多个分区,每个分区在HDFS中会自动创建一个独立的文件夹。
分区键不能和列名同名,不然会报 "FAILED: Error in semantic analysis: Column repeated in partitioning columns,"
Hive中分区表分两类:静态分区、动态分区;
静态分区
Hive默认是静态分区,静态分区在插入数据时需要指定分区键值,好让数据插入指定分区中
CREATE TABLE IF NOT EXISTS part_person
(
id string,
name string
)
PARTITIONED BY (date string)
STORED AS TEXTFILE;
insert into part_person PARTITION(date='2016-11-11') values('2','ss1');
insert into part_person PARTITION(date='2016-11-13') values('3','ss2');
动态分区
如果数据量很大,每条插入语句都要指定键值很麻烦,于是就有了动态分区,让Hive自动根据数据插入到指定分区内。
创建普通表,并插入测试数据
CREATE TABLE IF NOT EXISTS person (id int,name string,dt string,country string) STORED AS TEXTFILE;
insert into person values(1,'dd','2016-11-11','jp');
insert into person values(2,'ee','2016-11-22','cn');
insert into person values(3,'gg','2016-11-14','jp');
insert into person values(4,'ff','2016-11-11','cn');
insert into person values(5,'tt','2016-11-22','jp');
insert into person values(6,'aa','2016-11-14','cn');
insert into person values(7,'bb','2016-11-11','cn');
insert into person values(8,'ss','2016-11-14','jp');
insert into person values(9,'gg','2016-11-11','cn');
insert into person values(10,'sr','2016-11-22','cn');
insert into person values(11,'4e','2016-11-11','jp');
insert into person values(12,'g5','2016-11-14','cn');
insert into person values(13,'1hg','2016-11-14','cn');
insert into person values(14,'haf','2016-11-22','jp');
insert into person values(15,'jhj','2016-11-14','cn');
insert into person values(16,'xc','2016-11-22','cn');
insert into person values(17,'nb','2016-11-11','jp');
insert into person values(18,'2ds','2016-11-22','jp');
insert into person values(19,'jse','2016-11-11','jp');
insert into person values(20,'ngh','2016-11-22','cn');
insert into person values(21,'aw4','2016-11-11','jp');
insert into person values(22,'4st','2016-11-14','cn');
创建一个有两个分区的分区表
CREATE TABLE IF NOT EXISTS person_d_p
(id int,name string)
PARTITIONED BY (dt string,country string)
STORED AS TEXTFILE;
使用INSERT INTO SELECT 插入数据
hive> INSERT INTO person_d_p PARTITION(dt,country) SELECT * FROM person;
FAILED: SemanticException [Error 10096]:
Dynamic partition strict mode requires at least one static partition column.
To turn this off set hive.exec.dynamic.partition.mode=nonstrict
报错说明需要设置动态分区模式,使用动态分区需要设置以下参数:
hive.exec.dynamic.partition
默认值:false
使用动态分区必须设置为true
hive.exec.dynamic.partition.mode
默认值:strict
表示至少需要一个静态分区,一般使用nonstrict,既所有分区都是动态分区
hive.exec.max.dynamic.partitions.pernode
默认值:100
每个MR节点允许创建的最大分区数,如果实际的分区数超过设置的值会报错
Fatal error occurred when node tried to create too many dynamic partitions.
hive.exec.max.dynamic.partitions
默认值:1000
一个动态分区语句,在所有节点允许创建的最大分区数,同上
hive.exec.max.created.files
默认值:100000
所有节点可以创建的最大文件数,根据需要调整
根据需要设置参数
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;
SET hive.exec.max.dynamic.partitions.pernode=1000;
SET hive.exec.max.dynamic.partitions=10000;
INSERT INTO person_d_p PARTITION(dt,country) SELECT * FROM person;
显示所有分区
hive> show partitions person_d_p;
OK
dt=2016-11-11/country=cn
dt=2016-11-11/country=jp
dt=2016-11-14/country=cn
dt=2016-11-14/country=jp
dt=2016-11-22/country=cn
dt=2016-11-22/country=jp
Time taken: 0.034 seconds, Fetched: 6 row(s)
显示指定分区
hive> show partitions person_d_p partition(dt='2016-11-14',country='cn');
OK
dt=2016-11-14/country=cn
动态分区和静态分区还有一点区别就是静态分区不管有没有数据插入一定会创建分区,动态分区只有在插入数据的时候才创建分区;
动态分区会为每个分区创建一个reduce任务,当分区数比较多时,需要设置合理的mapred.reduce.tasks参数,以避免直接把集群搞挂掉
桶
Hive允许对表和分区以bucket的形式进一步划分数据,这在对表进行JOIN操作和数据采样(sampling)时能获得较高的性能,如果两个表的JOIN字段都分桶了,在JOIN时将大大减少读取的数据量;可以对一个以上的列分桶,分桶的方式采用对列值HASH除以桶的个数求余来决定数据落在哪个桶里。
CREATE TABLE IF NOT EXISTS person_bkt
(
id int,
name string,
country string,
dt string
)
CLUSTERED BY(country) SORTED BY (id) INTO 4 BUCKETS
STORED AS TEXTFILE;
创建桶时以CLUSTERED BY 子句指定字段,多个字段以逗号分隔;SORTED BY子句指定桶里的数据以哪个字段排序,默认为升序;INTO 指定分多少个桶。
需要注意的是,SORTED BY并不会在插入数据时进行排序,需要显式指定排序
加载数据需要开启下面参数,
set hive.enforce.bucketing=true;
向桶里载入数据,需要指定order by 子句,且排序字段与建表SORTED BY 字段一致
INSERT INTO person_bkt SELECT id,name,country,dt FROM person order by id;
查看hdfs目录,发现有4个文件
hive> dfs -ls /user/hive/warehouse/person_bkt;
Found 4 items
-rwxrwxrwt 3 root hive 0 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000000_0
-rwxrwxrwt 3 root hive 0 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000001_0
-rwxrwxrwt 3 root hive 200 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000002_0
-rwxrwxrwt 3 root hive 239 2016-11-16 17:41 /user/hive/warehouse/person_bkt/000003_0
但是实际只有两个文件有数据,因为country字段只有两组数据‘cn’和‘jp’
查询数据,数据是以country分组,id升序排列
hive> select * from person_bkt;
OK
1 dd jp 2016-11-11
3 gg jp 2016-11-14
5 tt jp 2016-11-22
8 ss jp 2016-11-14
11 4e jp 2016-11-11
14 haf jp 2016-11-22
17 nb jp 2016-11-11
18 2ds jp 2016-11-22
19 jse jp 2016-11-11
21 aw4 jp 2016-11-11
2 ee cn 2016-11-22
4 ff cn 2016-11-11
6 aa cn 2016-11-14
7 bb cn 2016-11-11
9 gg cn 2016-11-11
10 sr cn 2016-11-22
12 g5 cn 2016-11-14
13 1hg cn 2016-11-14
15 jhj cn 2016-11-14
16 xc cn 2016-11-22
20 ngh cn 2016-11-22
22 4st cn 2016-11-14
Time taken: 0.03 seconds, Fetched: 22 row(s)
桶数据抽样
分桶之后怎么查?Hive提供了tablesample关键字进行数据抽样,可以对桶里的数据进行抽样查询
select * from person_bkt tablesample (bucket 2 out of 4 on id);
2代表从第几个桶开始,4代表取多少个桶,必须是桶总数的倍数,可以使用desc formatted tablename 查看表的桶数量,详细的抽样查询在后面介绍。