如 果一个文件大小超过400m,小于500m,则分成5个.gz文件来压缩,如果这个是用Java平常的项目和apache的压缩工具api来弄,是一件非 常easy的事情,但是,需求一波三折,最终的最终要求是Spark计算完,结果落地的时候,把数据压缩好保存到hdfs中。恩,领导的想法总是对的,我 一向这样认为。需求定下来,剩下的事情就是实现了。
其实spark是支持结果压缩落地的,具体api是void org.apache.spark.api.java.AbstractJavaRDDLike.saveAsTextFile(String path,Class extends CompressionCodec> codec)
跟saveAsTextFile(String path)相比只是多了一个参数,这个参数就是指定压缩算法的。这里有个问题,就是压缩算法类必须是CompressionCodec接口的实现类Class extendsCompressionCodec>,那么就要看看CompressionCodec是什么以及有哪些实现类了。其实这里有个坑,如果不查看源代码的话,说不定你会一直在哪里问为什么,而且一直死循环。下面说说这个坑,说完了再说具体实现。先上图:
可 以看到这个接口在Hadoop和spark-core都有。但是具体用的是那个呢?毫无疑问,当然是用spark自带的了,但是如果真的这样想也不怪你, 因为自身带有的肯定是最好的,就好像帮亲不帮理一样。首先看看spark自身带的是什么形式的,直接上代码:想详细了解这个类的,可以从头看一遍,不想看 的可以直接略过代码,直接看我啰嗦几句,其实就是定义了一个叫CompressionCodec,然后在里面定义了一些实现类, 如:LZFCompressionCodec(conf: SparkConf) extends CompressionCodec,class LZ4CompressionCodec(conf: SparkConf) extends CompressionCodec,然后你会想:既然已经有了实现类了,那么我直接在maxCallRdd.saveAsTextFile(path, SnappyCompressionCodec.class)就完事收工了,嘻嘻,如果真的是这样,那我还写这篇东东干嘛,你会看到下面的情况:
看 到没,如果你使用spark-core自带的CompressionCodec的实现类是错误的,错误的,错误的。重要的事情说三遍,然后肯定会想打死 spark的开发人员,什么玩意啊,自己写的方法,居然不兼容自己的实现类。这个就是坑了,不知道是我说明还没到家还是怎么样,反正我觉得吧,你自己框架 的方法参数居然不是自己的实现类。找打是吧,也有一个可能是因为我是用java写的api,所以用的不是spark的实现类,因为我查了网上的很多文章都 是用spark的CompressionCodec 实现了,而且用的很欢,一点问题也没有。好,说完了坑了,说说怎么填吧,轻轻跳过下面的代码。
