Hive里面有两种数据:1.data(表数据):存储在HDFS
2.metadata(元数据):存储在MySQL
内部表(managed):hive.metastore.warehouse.dir=/use/hive/warehouse #内部表的创建,默认路径
当删除表====》同时删除data+medadata
外部表(external):create external table 表名 location ‘filepath’; #创建表,可以指定任意路径
当删除表====》仅仅删除metadata(MySQL),其中对于表数据(HDFS)上面的数据还是存在的,即HDFS中的路径和文件都存在,只是MySQL中的元数据被删除
这种在生产工作当中用的比较多
表数据:存储在HDFS #内部表会删除,但是外部表上在HDFS中的数据不会被删除
元数据:存储在MySQL #内外表都是删除掉
Hive中的分区其实就是HDFS中的一个目录,相当于把一个大的数据集根据业务需求分割成更小的数据集,在查询的时候使用where子句的表达式选择查询所需要指定的分区,这个查询efficienty will improve
1.创建分区表
create table 表名(字段 字段类型,...)partition by (字段 字段类型) row format delimited fields terminated by '\t';
2.加载数据(将本地数据加载到Hive分区表)
load data loca inpath 'filepath' into table 表名 partiton(字段='value');
3.分区查询
select * from 表名 where 分区字段=‘value’;
如1:
create table emp_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mounth string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
如2:
load data local input '/home/hadoop/tmp/emp.tex' into table emp_partiton partiton(mouth='20200722');
如3:
select * from emp_partiton where mouth='20200722';
1.创建表
create table 表名(字段 字段类型,...)partitoned by(字段1 字段类型,字段2 字段类型) row format delimited fields terminated by '\t';
2.加载数据
load data local inpath 'filepath' into table 表名 partition(字段1='value',字段2='value');
3.分区查询
select * from 表名 where 分区字段1='value' and 分区字段2='value';
如1:
create table emp2_partiton(
empno int,
ename string,
job string,
mgr int,
hiredate string,
sal double,
comm double,
deptno int
)partitioned by(mouth string,day string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
如2:
load data local inpath '/home/hadoop/tmp/emp.txt' into table emp2_partiton partition(mouth='202008',day='22');
如3:
select * from emp2_partiton where mouth='202008' and day='22';
Hive命令行窗口其实也是可以执行操作系统命令
1.手动创建分区目录(HDFS)
dfs -mkdir -p /user/hive/warehouse/表名/分区字段;
2.查找元数据(MySQL)
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS;
----------------------------------
如1:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;
如2:
mysql -uroot -p
use hive;
show tables;
select * from PARTITIONS; #发现分区没有20206
1.问题:
手动创建的HDFS分区目录,在元数据中不能被识别,需要使用Hive命令进行修复
2.Solve:
修复1:
msck repair table emp_partiton;
修复2:
alter table emp_partiton add partition(mounth='202006');
-------------------------
如:
dfs -mkdir -p /user/hive/warehouse/emp_partiton/mounth=202006;
dfs -put /home/hadoop/tmp/emp.txt /user/hive/warehouse/emp_partiton/mounth=202006;
alter table emp_partiton add partition(mounth='202006');或者msck repair table emp_partiton;
备注:企业中常用的是第二种修复方法
select * from 表名 where 分区字段=value; #通过分区字段进行查询
show partitions 表名: #查看表的分区都有哪些