Hadoop实战系列之MapReduce 分析 Youtube视频数据

Hadoop实战系列之MapReduce 分析 Youtube视频数据

一、实战介绍
MapReduce 是 Hadoop 的计算框架。
在运行一个 MR 程序时,任务过程被分为两个阶段:Map 阶段和 Reduce 阶段,每个阶段都是用键值对作为输入和输出。

本文知识点:
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行(远程运行)

本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7

二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集,相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下:

字段名 解释及数据类型
video ID 视频ID:每个视频均有唯一的11位字符串
uploader 上传者用户名:字符串类型
age 视频年龄:整数值,代表视频上传时间与2007年2月15日(Youtube创立日)的时间间隔
category 分类:由上传者选择的视频分类,字符串类型
length 视频长度:整数值
views 浏览量:整数值
rate 视频评分:浮点值
ratings 评分次数:整数值
comments 评论数:整数值
related IDs 相关视频ID:数量不超过20个,每一个相关视频的ID均为单独的一列

数据内容如图:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第1张图片

每一行为一条数据,本次实战共1000w条数据。(由于任务量有要求,但是下载的数据只有50w条,因此复制了20份合并成一个数据文件。共1000w条数据。)

每条记录的相关视频数量不尽相同,因此数据不是很整齐。我们需要过滤掉无效字段,稍后会给出项目详细代码注释。

终端下使用 wc -l 命令查看数据文件的行数。

使用 head -n 1 命令查看数据文件的第一条记录。

2.2 环境准备
由于要写 MapReduce 程序,必然要有 eclispe 下的 Hadoop 开发环境。我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中,所以必须安装 Hadoop 。

使用 start-all.sh 命令启动所有服务。

使用 jps 命令可以查看到 NameNode、SecondaryNameNode、NodeManager、ResourceManager 和 DataNode 已启动。

三、项目需求描述
根据已有数据集,编写 MapReduce 程序,实现以下功能:

从视频数据中,分别统计每一个视频类型下的视频数量,数据之间采用”\t”分隔符隔开。

四、项目实现过程
4.1 创建Map/Reducer项目:
双击桌面上的eclipse图标,创建项目:file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名,然后创建名为com.zout的包,接着在包里面创建一个java类,类名为VideoCount,
图示:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第2张图片

Hadoop实战系列之MapReduce 分析 Youtube视频数据_第3张图片

4.2 编写代码
VideoCount.java 代码如下:

package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

 /**
  * 
  * @author zoutao
  * @time 2018/7/3
  * @see 分析Youtube视频数据
  *
  */
public class VideoCount {
    //主函数
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "categories");
       //指定导出的jar包路径  
      job.setJar("/home/gznc/myjar/VideoCount.jar");
        //设置生产 jar 包所使用的类
        job.setJarByClass(VideoCount.class);
        //设置 Map 类的输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置 Reduce 类的输入输出类型    
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置 Map, Reduce 类的 class 参数
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //指定格式化用的类型
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定要分析的数据文件路径--0.txt
        FileInputFormat.addInputPath(job,
            new Path("hdfs://master:9000/inputVideo/0.txt"));
        //指定输出的文件路径--out2文件夹下
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
        //完成任务以后的提示信息
        boolean flag = job.waitForCompletion(true);
        System.out.println("任务完成"+flag);
        System.exit(flag?0:1);
        System.out.println();
    }

  //Map类,封装KV键值对  , k1 是偏移量,v1 是这行数据
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);

        //构造文本类Text对象、IntWritable 对象,也可以直接以匿名函数的方式创建
        private Text tx = new Text();

        //map 的逻辑,使用tab“\ t”分隔符来分割行,并将值存储在String Array中,以使一行中的所有列都存储在字符串数组中
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            //拿到每一行数据
            String line = value.toString();
            String[] str = line.split("\t");

            //过滤掉多余的字段
            if (str.length > 5) {
                tx.set(str[3]);
            }

            //输出key,value
            context.write(tx, one);
        }
    }

    //编写 reduce,接收 map 阶段传来的 kv 键值对,输出的类型和传进来的类型一致
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //reduce????
        public void reduce(Text key, Iterable values,
            Context context) throws IOException, InterruptedException {
            int sum = 0;

            //累加求类别的视频数量
            for (IntWritable v : values) {
                sum += v.get();
            }

            //写入文本文件中输出
            context.write(key, new IntWritable(sum));
        }
    }
}

4.3 导出jar包
编码完成以后,我们可以需要导出jar包。


注意:
1. 在eclipse里面就可以运行MR代码,可以不用导出jar包。
2. 为什么要导出jar包?jar包导出以后,可以以生成 jar 包的形式提交 hadoop yarn 上来运行MR程序,得到数据分析的结果。这样跟在eclipse中运行是一样的。只不过是方式不同。方便一些专门搞linux系统的朋友使用。
3. 如果你是在 Windows 平台写的MR代码,则可以用通过生成 jar 包的方式提交到其他系统的hadoop环境下去运行。


导出jar操作如下:
eclipse中选中项目右键 ,在弹出的菜单中选择 Export

Hadoop实战系列之MapReduce 分析 Youtube视频数据_第4张图片
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第5张图片
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第6张图片
上面的路径需要自己定义成自己的,而且需要跟MR代码里面保持一致。

4.4 开启hadoop集群,上传数据文件

a. 终端下输入start-all.sh,开启hadoop集群环境,输入jps查看进程如下:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第7张图片

b. 数据上传到HDFS文件系统下:
在终端中输入以下命令,将 0.txt 上传到 HDFS 文件系统。

方式一:采用hadoop命令完成上传:
终端下输入:

hadoop fs -mkdir /inputVideo  //创建一个文件夹
hadoop fs -put /home/gznc/0.txt /inputVideo //0.txt上传到文件夹下

方式二:采用eclipse插件完成上传:这个需要自己先去搭建hadoopEclipse插件,出现管理DFS的页面选项才可以。
打开eclipse里面的DFS管理,然后右键选择创建文件夹和上传文件即可,如果出现无法上传或者是删除不了文件夹的情况,请参考:eclipse可以连接显示hdfs文件,但运行程序时却提示拒绝连接
完成以后的图示:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第8张图片

好了,现在已经完成了编写MR程序代码,导出了jar包,上传了0.txt数据。接下来就可以运行代码了。

4.5 运行hadoop数据分析程序
也是可以分为两种方式来运行。
方式一:在eclipse的本程序代码中,直接右键Run AS >> Run on Hadoop ,然后等待任务完成,完成以后打开DFS即可查看:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第9张图片
结果:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第10张图片

方式二:
终端下提交jar包来运行程序:
按照如下方式来写对应代码,回车即可。

hadoop jar 生成的jar包路径 全类名 输入路径input 输出路径output

如下:

hadoop jar xxx/xxx/VideoCount.jar com.zout.VideoCount /inputVideo /out2

完成以后,在终端输入如下命令查看得到的文件分析结果,
命令:

hadoop fs -cat /out2/part-r-00000

如下:
Hadoop实战系列之MapReduce 分析 Youtube视频数据_第11张图片

到这里,整个Hadoop实战系列之MapReduce 分析 Youtube视频数据的第一个任务:从视频数据中,分别统计每一个视频类型下的视频数量就完成了。

需要整个项目源代码或视频数据集的留下邮箱。


You got a dream, you gotta protect it.
如果你有梦想的话,就要去捍卫它 。 ——《当幸福来敲门》

你可能感兴趣的:(hadoop集群,大数据实战系列)