8.4 文件存储布局

行式存储

优点:整行查询不用跨网络
缺点:1. 数据整行存储,不能根据某一特定类型进行压缩,压缩效率不高
     2. 一些查询只需要某些字段,而行式存储只能将所有字段读出才能找到对应字段

列式存储

列族存储方式:
	对于平面型数据,适合采用列族存储方式。所谓列族,是指将经常要一起使用的字段化为一组,这样即
	使是按照列式存储的,也可以将经常使用的数据放到一个数据块中,避免不必要的网络传输。但是依然
	不能避免,下面的混合式存储更好的应对了这个问题。

混合模式

混合式存储布局融合了行式和列式存储各自的优点,首先将记录表按照行进行分组,若干行划分为一组,而对于每组内的所有记录,在实际存储时按照列将同一列内容连续存储在一起。这种存储布局,一方面可以像行式存储一样,保证同一行的记录字段一定是在同一机器节点上的,避免拼合记录的网络传输问题,另一方面可以像列式存储布局那样按照列存储,不同的列采用不同的压缩算法,同时也可以避免读取无关列的数据。常见的列式存储格式有RCFile,ORCFile和Parquet。其中,RCFile和ORCFile已经被集成到了Hive中。

你可能感兴趣的:(#,《大数据日知录》)