Hadoop中Mapreduce的WordCount案例实操

一、MapReduce编程规范

1.1 Mapper阶段

  1. 用户自定义的Mapper要继承自己的父类
  2. Mapper的输入数据时KV对的形式(KV的类型可自定义)
  3. Mapper中的业务逻辑写在map() 方法中
  4. Mapper的输出数据是KV对的形式(KV的类型可自定义)
  5. map() 方法(MapTask进程)对每一个调用一次

2.1 Reduce阶段

  1. 用户自定义的Reducer要继承自己的父类
  2. Reducer的输入数据类型对应Mapper的输出数据类型,也是KV
  3. Reducer的业务逻辑写在reduce()方法中
  4. ReduceTask进程对每一组相同的k的组调用一次reduce()方法

3.1 Driver阶段

相当于Yarn集群的客户端,用于提交我们整个儿程序到Yarn集群,提交的是封装了MapReduce程序相关运行参数的job对象

二、WordCount需求

输入数据:
Hadoop中Mapreduce的WordCount案例实操_第1张图片
输出数据:
Hadoop中Mapreduce的WordCount案例实操_第2张图片

三、WordCount案例实操

3.1 创建Maven并添加依赖

<dependencies>
		<dependency>
			<groupId>junit</groupId>
			<artifactId>junit</artifactId>
			<version>RELEASE</version>
		</dependency>
		<dependency>
			<groupId>org.apache.logging.log4j</groupId>
			<artifactId>log4j-core</artifactId>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-common</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-client</artifactId>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupId>org.apache.hadoop</groupId>
			<artifactId>hadoop-hdfs</artifactId>
			<version>2.7.2</version>
		</dependency>
</dependencies>

3.2 添加日志

在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

3.3 编写Mapper类

WcMapper.java:

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class WcMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    // 对输出数据进行封装
    private Text word = new Text();
    private IntWritable one = new IntWritable(1);

    /**
     *  Map是核心逻辑
     * @param key 行号
     * @param value 行内容
     * @param context 任务对象 job
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        // 这一行内容
        String line = value.toString();

        // 将这一行拆成很多单词
        String[] words = line.split(" ");

        // 将拆好的单词按照(word, 1) 的形式输出
        for (String word :
                words) {
            this.word.set(word);
            context.write(this.word, one);
        }



    }
}

3.4 编写Reducer类

WcReducer.java:

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

public class WcReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    /**
     *
     * @param key 单词
     * @param values 这个单词所有的1
     * @param context
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        // 做累加
        int sum = 0;

        // 将相同的key的值做累加
        for (IntWritable value : values) {

            sum += value.get();
        }

        result.set(sum);

        context.write(key, result);

    }
}

3.5 编写Driver驱动类

WcDriver.java:


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WcDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

        // 1. 新建一个Job
        Job job = Job.getInstance(new Configuration(), "MyWordCount");

        // 2. 设置Job的Jar包
        job.setJarByClass(WcDriver.class);

        // 3. 设置Job的Mapper和Reducer
        job.setMapperClass(WcMapper.class);
        job.setReducerClass(WcReducer.class);

        // combiner
        // job.setCombinerClass(WcReducer.class);

        // 4. 设置Mapper和Reducer的输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        // 5. 设置输入路径和输出路径
        // (FileInputFormat和FileOutputFormat选包名找包名长的)
        // 输入目录里面带有需求的文件
        FileInputFormat.setInputPaths(job, new Path("d:/input"));
        // 输出目录必须不存在
        FileOutputFormat.setOutputPath(job, new Path("d:/output"));

        boolean b = job.waitForCompletion(true);
        System.exit(b ? 0 : 1);
    }

}

四、在本地测试

4.1 添加Hadoop环境

  1. 将win10的hadoop的压缩包解压到非中文路径
  2. 添加HADOOP_HOME
  3. 添加到Path

Hadoop中Mapreduce的WordCount案例实操_第3张图片
Hadoop中Mapreduce的WordCount案例实操_第4张图片

4.2 在IDEA中运行

Hadoop中Mapreduce的WordCount案例实操_第5张图片

  1. 重启计算机

4.3 查看结果

Hadoop中Mapreduce的WordCount案例实操_第6张图片

五、在集群测试

5.1 将Jar上传到HDFS

  1. 设置键入路径
    Hadoop中Mapreduce的WordCount案例实操_第7张图片
  2. 使用Maven的package将程序打包成Jar
    Hadoop中Mapreduce的WordCount案例实操_第8张图片
  3. 启动Hadoop集群
    Hadoop中Mapreduce的WordCount案例实操_第9张图片
  4. 将Jar包上传到Linux
    Hadoop中Mapreduce的WordCount案例实操_第10张图片
  5. 将Jar包上传到HDFS
    Hadoop中Mapreduce的WordCount案例实操_第11张图片
  6. 在本地新建一个文件夹input 将输入数据放入其中,并将文件夹上传到HDFS
    Hadoop中Mapreduce的WordCount案例实操_第12张图片

5.2 执行WordCount程序

hadoop jar mapreduce-1.0-SNAPSHOT.jar com.atguigu.mapreduce.wordcount.WcDriver /input /ouput

Hadoop中Mapreduce的WordCount案例实操_第13张图片

5.3 查看结果

hadoop fs -cat /ouput/*

Hadoop中Mapreduce的WordCount案例实操_第14张图片

六、Life

自己不能胜任的事情,切莫轻易答应别人,一旦答应了别人,就必须实践自己的诺言。——华盛顿

Hadoop中Mapreduce的WordCount案例实操_第15张图片

你可能感兴趣的:(Hadoop模块化学习,mapreduce,java,hadoop,大数据)