Hadoop 数据压缩

文件压缩主要有两个好处,一是减少了存储文件所占空间,另一个就是为数据传输提速。在hadoop大数据的背景下,这两点尤为重要,那么我现在就先来了解一下hadoop的文件压缩。

Hadoop里支持很多种压缩格式,看下表:

Hadoop 数据压缩_第1张图片

DEFLATE是同时使用了LZ77算法与哈弗曼编码(Huffman Coding)的一个无损数据压缩算法,源代码可以在zlib库中找到。gzip是以DEFLATE算法为基础扩展出来的一种算法。

 

所有的压缩算法都是空间和时间的转换,更快压缩时间还是更小压缩比,可以通过参数来指定,-1意味着速度,-9意味着空间。拿gzip做个例子,下面就意味着更快速的压缩:

 

[html]  view plain  copy
 
  1. gzip -1 file  

gzip在时间和空间上的取舍比较折中,bzip2压缩比gzip更有效,但是速度更慢。bzip2的解压速度快于压缩速度。但是和其他压缩格式比又是最慢的,但是压缩效果明显是最好的。snappy和lz4的解压速度比lzo好很多。

 

下图是一些解压缩算法效率的比较:

 

splitable表示压缩格式是否可以被分割,也就是说是否支持随即读。压缩数据是否能被MapReduce使用,压缩数据是否能被分割就很关键了。

举个例子:一个未被压缩的文件有1GB大小,HDFS默认的block大小是64MB,那么这个文件就会被分为16个block作为MapReduce的输入,每一个单独使用一个map任务。如果这个文件是已经使用gzip压缩的呢?如果分成16个块,每一个块做成一个输入,显然是不适合的,因为gzip压缩流的随即读是不可能的。实际上,当MapReduce处理压缩格式的文件的时候它会认识到这是一个gzip的压缩文件,而gzip又不支持随即读,它就会把16块分给一个map去处理,这里就会有很多非本地处理的map任务,整个过程耗费的时间就会相当长。

lzo压缩格式也有同样的问题,但是通过使用hadoop lzo库的索引工具以后,lzo就可以支持splitable。bzip2也是支持splitable。

那么应该如何选择压缩格式呢?这取决于文件的大小,你使用的压缩工具,下面是几条选择的建议,效率由高到低:

1.用一些包含了压缩并且支持splitable的文件格式,比如sequence File,RCFile或者Avro文件,这些文件格式我们之后都会讲到。如果是为了快速压缩可以使用lzo,lz4或者snappy压缩格式。

2.使用提供splitable的压缩格式,比如,bzip2和索引后可以支持splitable的lzo。

3.提前把文件分成几个块,每个块单独压缩,这样就无需考虑splitable的问题了。

4.不要压缩文件。

 

注:以不支持splitable的压缩格式存储一个很大的数据文件是不合适的,非本地处理效率非常之低。

你可能感兴趣的:(Hadoop 数据压缩)