尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1

第3章 MapReduce框架原理2.1


尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第1张图片

3.9数据清洗(ETL)

在运行核心业务MapReduce程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行Mapper程序,不需要运行Reduce程序。

3.9.1数据清洗案例实操-简单解析版

1.需求

去除日志中字段长度小于等于11的日志。

(1)输入数据


尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第2张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第3张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第4张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第5张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第6张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第7张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第8张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第9张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第10张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第11张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第12张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第13张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第14张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第15张图片
尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1_第16张图片


本教程由尚硅谷教育大数据研究院出品,如需转载请注明来源,欢迎大家关注尚硅谷公众号(atguigu)了解更多。(大数据培训).

你可能感兴趣的:(尚硅谷大数据技术之Hadoop(MapReduce) 第3章 MapReduce框架原理2.1)