Hive学习笔记(4)存储格式

Hive从两个维度对表的存储进行管理:“行格式”(row format)和“文件格式”(file format)。
行格式指行和一行中的字段如何存储。行格式的定义由SerDe定义,SerDe是“序列化和反序列化工具”(Serializer-Deserializer)的合成词。
查询时,DerDe进行反序列化将文件中字节形式的数据行反序列化为Hive内部操作数据行时锁使用的对象形式。
插入时,SerDe会把Hive的数据行内部表示形式序列化成字节形式并写到输出文件中。
文件格式指一行中字段容器的格式。最简单的格式是纯文本文件,但是也可以使用面向行的和列的二进制格式。

Hive存储格式一览表

存储格式 描述
TEXTFILE 存储为纯文本文件。TEXTFILE是默认的文件格式,除非配置了hive.default.fileformat参数。使用DELIMITED子句读取分隔文件。使用ESCAPED BY子句来为分隔符转义。使用NULL DEFINED AS子句指定自定义的null格式。
STORED AS SEQUENCEFILE 存储为压缩序列文件
STORED AS ORC 存储为ORC格式文件
STORED AS PARQUET 存储为parquet列存储格式。
STORED AS AVRO 存储为AVRO格式文件。
STORED AS RCFILE 存储为列存储格式
STORED AS JSONFILE 在hive4.0.0+版本中可以存储为json文件格式
STORED BY 非本机表格式存储,创建或链接到非本机表,例如Hbase,Druid,Accumulo支持的表。
INPUTFORMAT and OUTPUTFORMAT 在file_format中,指定inputFormat和OutputFormat的类名字符串

默认的存储格式:分隔的文本

如果在创建表时没有用ROW FORMAT或STORED AS子句,那么Hive所使用的默认格式是分隔的文本(delimited text),每行(line)存储一个数据行(row)。
默认的行内分隔符不是制表符,而是ASCII控制码集合中的Control-A(ASCII码为1)。选择Control-A(A)是因为在文本中出现的可能性比较小。通常在生产中我们常选用0X05(E)作为分隔符。
“集合”(collection)元素的默认分隔符为字符Control-B。它用于分隔ARRAY或STRUCT或MAP的键值对中的元素。默认的映射键(map key)分隔符为Control-C。它用于分隔MAP的键和值。表中各行之间用换行符分隔。

二进制存储格式:SEQUENCEFILE顺序文件、Avro数据文件以及RCFile

顺序文件

Hadoop的顺序文件格式是一种针对顺序和记录(键值对)的通过二进制格式。在Hive中,可以在create table语句中通过声明stored as sequencefile来使用顺序文件。
使用序列文件的一个主要的优点是它们支持可分割(splittable)的压缩。如果你有一系列在Hive外创建的序列文件,则无须额外设置,Hive也能读取它们。另一方面,如果你想使用压缩顺序文件来存储Hive产生的表,则需要设置几个相应的属性来使用压缩:

hive> create table compressed_table (id int, name string) stored as sequencefile;
hive> insert overwrite table compressed_table select id, name from partition_table;
WARNING: Hive-on-MR is deprecated in Hive 2 and may not be available in the future versions. Consider using a different execution engine (i.e. spark, tez) or using Hive 1.X releases.
Query ID = hadoop_20190402211715_8c1eeb4a-43c2-4764-809f-a56aa56f1a5e
Total jobs = 3
Launching Job 1 out of 3
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_1552651623473_0005, Tracking URL = http://jms-master-01:8088/proxy/application_1552651623473_0005/
Kill Command = /home/hadoop/tools/hadoop-2.7.7/bin/hadoop job  -kill job_1552651623473_0005
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2019-04-02 21:17:25,965 Stage-1 map = 0%,  reduce = 0%
2019-04-02 21:17:31,391 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 2.44 sec
MapReduce Total cumulative CPU time: 2 seconds 440 msec
Ended Job = job_1552651623473_0005
Stage-4 is selected by condition resolver.
Stage-3 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.
Moving data to directory hdfs://jms-master-01:9000/user/hive/warehouse/compressed_table/.hive-staging_hive_2019-04-02_21-17-15_683_1318791344897734210-1/-ext-10000
Loading data to table default.compressed_table
MapReduce Jobs Launched:
Stage-Stage-1: Map: 1   Cumulative CPU: 2.44 sec   HDFS Read: 4378 HDFS Write: 545 SUCCESS
Total MapReduce CPU Time Spent: 2 seconds 440 msec
OK
Time taken: 17.772 seconds

顺序文件时面向行的,也就是说同一行中的字段作为顺序文件中的一条记录被存储在一起。

Avro数据文件

Avro数据文件和顺序文件相似:可分割、可压缩、面向行。不同点是,Avro数据文件支持模式演化以及多种编程语言的绑定。Hive可以使用Haivvreo SerDe读取或写入Avro数据文件。

RCFile格式文件

Hive提供了一种二进制存储格式,称为RCFile,表示按列记录文件(Record Columnar File)。RCFile除了按列方式存储数据以外,其他方面都和序列文件类似。RDFile把表分成行分片(row split),在每一个分片中先存所有行的第一列,再存它们的第二列,以此类推。
面向列的存储布局(column-oriented layout)方式可以是一个查询跳过那些不必访问的列。让我们考虑一个只需要处理某一列的查询。

面向列存储和面向行存储的区别

顺序文件时面向行的存储,即使只需要读取第二列,整个数据行也都会被加载到内存中。而RCFile面向列的存储,只需要把文件中第二列所对应的那部分读入内存。面向列的存储格式对于那些只访问表中一小部分行的查询比较有效;面向行的存储格式适合同时处理一行中很多列的情况。
两种存储格式的查询效率比较:

hive> select name from partition_table;
OK
郭靖
黄蓉
杨康
穆念慈
东邪
西毒
黄老邪
杨铁心
Time taken: 0.411 seconds, Fetched: 8 row(s)
hive> select name from compressed_table;
OK
郭靖
黄蓉
杨康
穆念慈
东邪
西毒
黄老邪
杨铁心
Time taken: 0.112 seconds, Fetched: 8 row(s)

当查询某一列时,面向列的查询比面向行的查询约快4倍;

hive> select * from compressed_table;
OK
1   郭靖
2   黄蓉
3   杨康
4   穆念慈
5   东邪
6   西毒
7   黄老邪
8   杨铁心
Time taken: 0.161 seconds, Fetched: 8 row(s)
hive> select * from partition_table;
OK
1   郭靖  20190402    china
2   黄蓉  20190402    china
3   杨康  20190402    china
4   穆念慈 20190402    china
5   东邪  20190402    china
6   西毒  20190402    china
7   黄老邪 20190402    china
8   杨铁心 20190402    china
Time taken: 0.169 seconds, Fetched: 8 row(s)

当全表查询时,两种存储格式查询效率相当。

你可能感兴趣的:(Hive学习笔记(4)存储格式)