hadoop SequenceFileOutputFormat与LzopCodec压缩问题

用mahout库做推荐系统,mahout的默认输出格式是SequenceFileOutputFormat,然后对输出进行压缩,集群配置的默认压缩方式是LzopCodec。跑100多G的数据,结果悲剧了,出现“java.io.EOFException: Premature EOF from inputStream”错误。找了N长时间,发现SequenceFileOutputFormat与LzopCodec不匹配,是hadoop自带问题,把压缩方式改为别的就OK。

具体见http://web.archiveorange.com/archive/v/5nvvZ7eWCDGq6ExVf3zX

你可能感兴趣的:(hadoop)