ORC是RCfile的优化版本
1. 关于hive的文件格式
-
TEXTFILE
默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看
-
SEQUENCEFILE
一种Hadoop API提供的二进制文件,使用方便、可分割、可压缩等特点。SEQUENCEFILE将数据以
的形式序列化到文件中。 -
RCFILE
一种行列存储相结合的存储方式。首先,其将数据按行分块。其次,将块数据列式存储,有利于数据压缩和快速的列存取。
HDFS Blocks是16字节的HDFS同步块信息,主要包括该行组内的 储的行数、列的字段信息#等等。
优势 在一般的行存储中 select a from table,虽然只是取出一个字段的值,但是还是会遍历整个表,所以效果和select * from table 一样,在RCFile中,像前面说的情况,只会读取该行组的一行。
在一般的列存储中,会将不同的列分开存储,这样在查询的时候会跳过某些列,但是有时候存在一个表的有些列不在同一个HDFS块上(如下图),所以在查询的时候,Hive重组列的过程会浪费很多IO开销。
劣势 拷贝到本地目录后RCFile并不是真正直接跳过不需要的列,并跳到需要读取的列, 而是通过扫描每一个row group的头部定义来实现的,所以在读取所有列的情况下,RCFile的性能反而没有SequenceFile高。
-
ORC
hive给出的新格式,属于RCFILE的升级版。
Postscripts中存储该表的行数,压缩参数,压缩大小,列等信息
Stripe Footer中包含该stripe的统计结果,包括Max,Min,count等信息
FileFooter中包含该表的统计结果,以及各个Stripe的位置信息
IndexData中保存了该stripe上数据的位置信息,总行数等信息
RowData以stream的形式保存了数据的具体信息
Hive读取数据的时候,根据FileFooter读出Stripe的信息,根据IndexData读出数据的偏移量从而读取出数据。
ORC文件不仅仅是一种列式文件存储格式,最重要的是有着很高的压缩比,并且对于MapReduce来说是可切分(Split)的。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以很大程度的节省HDFS存储资源,而且对数据的查询和处理性能有着非常大的提升,因为ORC较其他文件格式压缩比高,查询任务的输入数据量减少,使用的Task也就减少了。
-
自定义格式
用户的数据文件格式不能被当前 Hive 所识别的时通过实现inputformat和outputformat来自定义输入输出格式,
相关建表语句参见:[http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843318.html]
查看ORC文件信息
建表时指定使用ORC存储方式,注意需要将ORC的表中的NULL取值,由默认的\N改为' '
CREATE TABLE ... STORED AS ORC tblproperties('orc.compress'='SNAPPY')
ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC
SET hive.default.fileformat=Orc
以STORED AS ORC为例介绍相关的实验参数
create table Addresses (
name string,
street string,
city string,
state string,
zip int
) stored as orc tblproperties ("orc.compress"="NONE");
参数(在在Hive QL语句的tblproperties字段里面出现):
Key Default Notes
orc.compress ZLIB high level compression (one of NONE, ZLIB, SNAPPY)
orc.compress.size 262,144 number of bytes in each compression chunk
orc.stripe.size 268435456 number of bytes in each stripe
orc.row.index.stride 10,000 number of rows between index entries (must be >= 1000)
orc.create.index true whether to create row indexes
查看ORC存储方式
hive --orcfiledump
例子:库名,表名:fileformat.db,test_orc
hive --orcfiledump /user/hive/warehouse/fileformat.db/test_orc/000000_0
查询结果如下所示:
将临时表导入到ORC表中
insert overwrite table http_orc partition(dt='2013-09-30') select p_id,tm,idate,phone from tmp_testp where dt='2013-09-30'
直接load文本的方式use search_index; load data local inpath '$data_dir/category_en.txt' into table ${table_name} partition(dt='${table_dt}因为ORC类似于索引的统计结构,不适用。