Hive-文件存储格式+压缩算法

image.png

前置知识点

行存储:适合插入
列存储:适合查询

存储格式

  • textFile 文本
  • sequenceFile二进制
  • parquet 列式存储 二进制(自带索引)
  • orc 格式 (最好)ORC不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储 (自带索引)
  • avro 格式的文件 会产生一份scheam 信息,可以自动化建表

hive表的文件格式是如何指定的呢?

建表的时候通过==STORED AS 语法指定。如果没有指定默认都是textfile==。

你可能感兴趣的:(Hive-文件存储格式+压缩算法)