创建hive表,指定存储和压缩格式

一、指定存储格式是ORC,压缩格式是orc默认的ZLIB压缩

建表语句

create table log_orc_none(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as orc tblproperties ("orc.compress"="NONE");

插入数据

hive (default)> insert into table log_orc_none select * from log_text ;

查看插入后数据

hive (default)> dfs -du -h /user/hive/warehouse/log_orc_none/ ;

7.7 M /user/hive/warehouse/log_orc_none/000000_0

二、指定存储格式是ORC,压缩格式改为SNAPPY压缩

建表语句

create table log_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
row format delimited fields terminated by '\t'
stored as orc tblproperties ("orc.compress"="SNAPPY");

插入数据
注意:每次换压缩格式的时候,把 tblproperties 换了就行

hive (default)> insert into table log_orc_snappy select * from log_text ;

查看插入后数据

hive (default)> dfs -du -h /user/hive/warehouse/log_orc_snappy/ ;

3.8 M /user/hive/warehouse/log_orc_snappy/000000_0

三、存储方式和压缩总结

在实际的项目开发当中,hive表的数据存储格式一般选择:orc或parquet。压缩方式一般选择snappy,lzo

你可能感兴趣的:(#,hive數據倉庫操作,hive,大数据)