[ 知识点 ] Hive基础知识笔记


  • 一、Hive内、外部表
    •   (一)Hive内、外部表的异同
    •   (二)创建内、外部表
  • 二、Hive分区表
    •   (一)分区表的基本操作
    •   (二)多级分区
    •   (三)动态分区
    •   (四)Hive动态、静态分区的异同
  • 三、Hive分桶表
    •   (一)了解
    •   (二)设置
    •   (三)操作
  • 四、常用命令
    •   (一)操作数据库的一般流程
    •   (二)删除表的操作
    •   (三)修改表的操作
    •   (四)修改表中的列的操作
    •   (五)创建临时表
    •   (六)装载数据
  • 五、Hive中with...as的用法
    •   (一)基础格式
    •   (二)同级格式
    •   (三)嵌套格式
    •   (四)只能在一条SQL语句中使用
  • 六、CTAS
    •   (一)了解
    •   (二)使用CTAS创建表的好处
    •   (三)使用CTAS创建表时需要注意的地方
  • 七、使用CTAS创建表的代码
    •   (一)直接使用CTAS创建表,不指定创建部分的约束
    •   (二)在使用CTAS创建表时,指定表的存储格式等属性
    •   (三)使用CTE (CTAS with Common Table Expression)创建创建表
    •   (四)使用CTAS创建视图
    •   (五)查看使用CTAS建表后的表结构
  • 八、半自动化模式create table like...
    •   (一)了解
    •   (二)操作
  • 九、Storage SerDe











create table if not exists student(
id int, name string
row format delimited fields terminated by '\t'

create external table if not exists employee_external (
    name string,
    work_place ARRAY<string>,
    sex_age STRUCT<sex:string,age:int>,
    skills_score MAP<string,int>,
    depart_title MAP<string,ARRAY<string>>
comment 'This is an external table'
row format delimited fields terminated by '|'
collection items terminated by ','
map keys terminated by ':'
stored as textfile
location '/home/hadoop/hive/warehouse/employee'; 



  分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下
是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业


create table A(
	deptno int,
	dname string,
	loc string
partitioned by (month string)
row format delimited fields terminated by '\t';

load data local inpath 'PATH' into table A partition(month='201909');

# 单分区查询
select * from A where month='201909';

# 多分区联合查询
select * from A where month='201909'
union all
	select * from A where month='201908'
union all
	select * from A where month='201907';


# 创建单个分区
alter table A add partition(month='201906') ;

# 同时创建多个分区
alter table A add

# 删除单个分区
alter table A drop

# 同时删除多个分区
alter table A drop 

show partitions A;

desc formatted A;



create table A2 (
	deptno int,
	dname string,
	loc string
partitioned by (month string, day string)
row format delimited fields terminated by '\t';

load data local inpath 'PATH' into table A2 partition(month='201909', day='13');

select * from A2 where month='201909' and day='13';



  2.动态分区在Hive 2.3.4版本前都是禁用的,所以要将hive.exec.dynamic.partition设置为true。





set hive.exec.dynamic.partition=true			默认为false
set hive.exec.dynamic.partition.mode=nonstrict	默认为strict



alter table TABLE_NAME add [if not exists] partition(FIELD='VALUE'...) location 'PATH';	
load data [local] inpath 'DATA_FILE PATH' [overwrite] into table TABLE_NAME partition(FIELD='VALUE'...)


create table TABLE_NAME ...
load ... into TEST_TABLE
insert into table PARTITION_TABLE partition(PARTITION_FIELDS ...) select ... from TEST_TABLE




  2.可以将 Hive 中的分桶原理理解成 MapReduce 中的 HashPartitioner 的原理,都是基于 hash 值对数据进行分桶。


  1.MR:按照key的hash值除以reduceTask个数进行取余(reduce_id =key.hashcode % reduce.num)。

  2.Hive:按照分桶字段(列)的hash值,除以分桶的个数进行取余(bucket_id=column.hashcode % bucket.num)。

  3.设置 Hive 的分桶开关

  4.打开 Hive 客户端,并在会话终端开启 Hive 分桶的开关:

set hive.enforce.bucketing=true;
(此设置为临时设置,一旦退出会话终端,再打开就会恢复默认设置 false)

  5.此开关打开之后,会自动根据 bucket个数自动分配Reduce task的个数,Reduce个数与bucket个数一致。( 此外, Reduce的个数还可以通过mapred.reduce.tasks进行设置,但是这方法不推荐在Hive分桶中使用)



create table A(
	id int,
	name string,
	age int
clustered by(age) into 4 buckets
row format delimited fields terminated by '|';


insert into table A
select id,name,age from B;





create database if not exists A;			#创建名为A的数据库,加了if not exists,如果创建之前存在此数据库,则会报错。
use A;										#使用数据库A
show databases;								#显示所有数据库
describe database default; 					#可以查看数据库更多的描述信息
alter database A set owner user B;			#将数据库A的所属权给用户B
drop database if exists A cascade;			#如果数据库A里有表,在drop的时候命令末尾要加一个cascade


drop table if exists A[purge];		#purge表示直接删除,否则会放到Trash目录
truncate table A;					#清空表数据


alter table A rename to B;		#将表A重命名为B
alter table A tblproperties('comment'='New name,comments');
alter table A tblproperties('filed.delim'='$');
alter table A set fileformat rcfile;	#修正文件格式


alter table A change old_B new_C;			#修改列名
alter table A add columns (B TYPE);			#添加列
alter table A replace columns (B TYPE);		#替换列


create temporary table TABLE_NAME1;
create temporary table TABLE_NAME2 as ...;
create temporary table TABLE_NAME3 like ...;



load data local inpath 'PATH' into table A;
load data local inpath 'PATH' overwrite into table A;
load data loacl inpath 'PATH' overwrite into table A partition(B,C);

load data inpath 'PATH' into table A partition(B,C);
load data inpath 'PATH' overwrite into table A partition(B,C);





with A as (select * from B)
select * from A;



with A as (selesc B from C),
B as (select D from E)
select * from (select XXX from A) a;


with A as(
	with B as (
		select * from C
	select * fron B
select * from A;



with A as(
	select * from B
select * from A;

select XXX from A; #此处就会报错,一个封号就代表一个with语句结束



  CTAS : create table [view] …as select…。








  4.CTAS不能创建partition, external, bucket table。



create table TABLE_TEST as
	A.1 as a1,
	A.2 as a2,
	A.3 as a3,
	A.4 as a4
	from B b
inner join C c
on b.x=c.y;


create table A
	row format delimited fileds terminated by '|'
	store as textfile
	select * from B;

  (三)使用CTE (CTAS with Common Table Expression)创建创建表

create table A as
with B as (select XXX from C)
select * from B;


create view A as
with B as (select XXX from C)
select * from B;

select * from A;


0: jdbc:hive2://> create table A1 as select * from visit;

0: jdbc:hive2://> show create table A1;

|                   createtab_stmt                   |
| CREATE TABLE `A1`(                                 |
|   `user_id` string,                                |
|   `shop` string)                                   |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'  |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hadoop.mapred.TextInputFormat'       |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' |
| LOCATION                                           |
|   'hdfs://' |
| TBLPROPERTIES (                                    |
|   'COLUMN_STATS_ACCURATE'='true',                  |
|   'numFiles'='1',                                  |
|   'numRows'='0',                                   |
|   'rawDataSize'='0',                               |
|   'totalSize'='0',                                 |
|   'transient_lastDdlTime'='1607834463')            |

八、半自动化模式create table like…


  1.create table 创建表的形似允许您精确地复制现有表的定义(不复制其数据),其除了创建的表名和源表不一样外,其余所有的细节都是医用的,不过没有源表中的数据。

  2.create table like的形式非常适合对源表模式的复制。


0: jdbc:hive2://> create table A2 like select * from visit;

0: jdbc:hive2://> show create table A2;

|                   createtab_stmt                   |
| CREATE TABLE `A2`(                                 |
|   `user_id` string,                                |
|   `shop` string)                                   |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'  |
| WITH SERDEPROPERTIES (                             |
|   'field.delim'='|',                               |
|   'serialization.format'='|')                      |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hadoop.mapred.TextInputFormat'       |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' |
| LOCATION                                           |
|   'hdfs://' |
| TBLPROPERTIES (                                    |
|   'transient_lastDdlTime'='1607834504')            |

0: jdbc:hive2://> show create table visit;

|                   createtab_stmt                   |
| CREATE EXTERNAL TABLE `visit`(                     |
|   `user_id` string,                                |
|   `shop` string)                                   |
| ROW FORMAT SERDE                                   |
|   'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'  |
| WITH SERDEPROPERTIES (                             |
|   'field.delim'='|',                               |
|   'serialization.format'='|')                      |
| STORED AS INPUTFORMAT                              |
|   'org.apache.hadoop.mapred.TextInputFormat'       |
| OUTPUTFORMAT                                       |
|   'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' |
| LOCATION                                           |
|   'hdfs://' |
| TBLPROPERTIES (                                    |
|   'COLUMN_STATS_ACCURATE'='true',                  |
|   'numFiles'='1',                                  |
|   'totalSize'='95',                                |
|   'transient_lastDdlTime'='1605252908')            |

九、Storage SerDe

  SerDe:Serializer and Deserializer,序列化与反序列化。

Hive支持不同类型的Storage SerDe
LazySimpleSerDe: TEXTFILE
BinarySerializerDeserializer: SEQUENCEFILE
ColumnarSerDe: ORC, RCFILE
ParquetHiveSerDe: PARQUET
AvroSerDe: AVRO
OpenCSVSerDe: for CST/TSV
