MapReduce之数据清洗(ETL)案例,倒排索引案例,ReduceTask 工作机制,Hadoop 数据压缩简介
一:简介在运行核心业务Mapreduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。二:日志清洗案例之简单解析版需求:去除日志中字段长度小于等于11的日志(每一行按照空格切割,切割后数组长度小于11的日志不要)数据如下:代码实现如下:⑴创建mapper类:packagecom.kgf.mapreduce.web