Hive分桶概念

  • Hive分区与分桶:
    • Hive分区概念
    • Hive分桶概念
    • Hive同时分区和分桶

1.Hive分桶的概念

相较于分区,分桶的粒度更小,而且与分区不同的是,分区是人为设定分区字段建立一个用于管理的“伪列”,而分桶是按照某列的属性值的Hash计算结果进行区分。
eg.按照id属性分为3个桶,就是对id属性值的hash值对3取摸,按照取模结果对数据分桶。如取模结果为0的数据记录存放到一个文件,取模为1的数据存放到一个文件,取模为2的数据存放到一个文件。


1.建立表并进行分桶

set hive.enforce.bucketing=true;
create table t_test (id int) clustered by (id) into 3 buckets row format delimited fields terminated by '\t';

set hive.enforce.bucketing = true 可以自动控制上一轮reduce的数量从而适配bucket的个数(hummmm嘛意思?)
要使用关键字clustered by 指定分桶依据的列名,并指定分为多少桶,这里指定分为3桶。

2.插入数据

insert into t_test values (1);

reduce数量与桶数量匹配
3.查看结果
1)文件系统中的效果
Hive分桶概念_第1张图片

有三个文件,1mod3=1 所以000001_0的大小变成了2B(清晰明了)
2)查询结果的效果
Hive分桶概念_第2张图片
通过关键词tablesample来选定桶,000001_0是第二个桶,所以2 out of 3.

你可能感兴趣的:(hadoop-hive)