Hive表的存储格式

Hive表的存储格式

文件格式-概述
在这里插入图片描述

Hive的文件格式-TextFile

  • TextFile 是Hive中默认的文件格式 存储形式为按行存储
  • 工作中最常见的数据文件格式就是TextFile,几乎所有的原始数据生成都是TextFile格式,所以HIve设计时考虑到为了避免各种编码以及数据错乱的问题 选用TextFile为默认的格式
  • 建表时不指定格式即为TextFile 导入数据时把数据文件拷贝HDFS不做任何处理
    Hive表的存储格式_第1张图片
    文件大小在hdfs和本地 没有什么变化
    Hive表的存储格式_第2张图片

Hive的文件格式-SequenceFile

  • SequenceFile 是Hadoop里面用来存储序列化的键值对既二进制的一种文件格式
  • SequenceFile 文件也可以作为MapReduce作业的输入和输出 hive也支持这种格式
    Hive表的存储格式_第3张图片
    Hive表的存储格式_第4张图片

Hive的文件格式-Parquet

  • Parquet是一种支持嵌套结构的列式存储文件格式 最早由Twitter和Cloudera合作开发,2015年5月Apache孵化器里毕业成为Apache顶级项目
  • 是一种支持嵌套数据模型 对列式存储系统,作为大数据系统中OLAP查询的优化方案,他已经被多种查询引擎原生支持,并且部分高性能引擎将其作为默认的文件存储
    Hive表的存储格式_第5张图片
    Hive表的存储格式_第6张图片

Hive表的存储格式_第7张图片
在大数据当中使用Parquet load直接加载数据 并不能编程Parquet格式 只能insert

Hive的文件格式-ORC

  • ORC文件格式也是一种Hadoop生态圈中的列式存储格式
  • 它的产生早在2013年初 最初产生Apache HIve 用于降低Hadoop 数据存储空间和加速HIve查询效率
  • 2015年PRC项目被Apache项目基金会提升为Apache顶级项目
    Hive表的存储格式_第8张图片
    Parquet和ORC 都是推荐使用的 但是优先推荐ORC
    Hive表的存储格式_第9张图片
    153MB-》32MB 压缩率
    底层二进制

你可能感兴趣的:(HIve,hive,hadoop,big,data)