Mapreduce程序 统计文件中每个单词出现次数

mapreduce程序 统计文件中每个单词出现次数

  • 调用MapReduce对文件中各个单词出现次数进行统计
    • 一、安装环境
    • 二、准备工作
    • 1.创建Hadoop账户
    • 2.更新 apt
    • 3.安装vim
    • 4.配置SSH、配置SSH无密码登陆
    • 三.安装Java环境
    • 1.安装JDK
    • 2.验证JDK安装情况
    • 3.设置JAVA坏境变量
    • 四.安装Hadoop
    • 五.Hadoop伪分布式配置
    • 1.修改配置文件
    • 2.格式化 NameNode
    • 3.开启NameNode和DataNode守护进程
    • 4.校验安装
    • 五.调用MapReduce执行WordCount对单词进行计数
    • 六.总结
    • 七.参考材料

调用MapReduce对文件中各个单词出现次数进行统计

一、安装环境

怎么自己搭建服务器,服务器空间、域名;存放的文件。直接购买服务器空间(例如阿里云、京东云、腾讯云空间服务器)或者可以购买后到机房托管(适合大企业)。Linux系统有CentOS和Ubuntu。新手如何选择?当然选择Ubuntu。Ubuntu有一个免费提供帮助的大社区。Ubuntu服务器要简单得多。Ubuntu桌面版比其他任何基于Linux的版本都要流行。企业如何选择?不容置疑的就是CentOS。CentOS是相对来说更稳定和安全的。相关下载文件可获取。

二、准备工作

1.创建Hadoop账户

  • 首先按 ctrl+alt+t 打开终端窗口,输入如下命令创建新用户 :
//这条命令创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。
sudo useradd -m hadoop -s /bin/bash
  • 设置hadoop密码 :
sudo passwd hadoop
  • 为hadoop用户增加管理员权限
sudo adduser hadoop sudo

最后注销当前用户(点击屏幕右上角的齿轮,选择注销),返回登陆界面。在登陆界面中选择刚创建的 hadoop 用户进行登陆。

2.更新 apt

用 hadoop 用户登录后,先更新一下 apt,后续将使用 apt 安装软件,如果没更新可能有一些软件安装不了。按 ctrl+alt+t 打开终端窗口,执行如下命令:

sudo apt-get update

Mapreduce程序 统计文件中每个单词出现次数_第1张图片

3.安装vim

用的是 vim(vi增强版,基本用法相同),相对于vi更有辨识度,编辑起来更好用。

sudo apt-get install vim

在这里插入图片描述

//安装软件时若需要确认,在提示处输入 y 即可。

4.配置SSH、配置SSH无密码登陆

集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server:

sudo apt-get install openssh-server

安装后,可以使用如下命令登陆本机:

ssh localhost

此时会有如下提示(SSH首次登陆提示),输入 yes 。然后按提示输入密码 hadoop,这样就登陆到本机了。

exit                           # 退出刚才的 ssh localhost
cd ~/.ssh/                     # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa              # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys  # 加入授权

此时再用 ssh localhost 命令,无需输入密码就可以直接登陆了,如下图所示。
Mapreduce程序 统计文件中每个单词出现次数_第2张图片

三.安装Java环境

1.安装JDK

jdk-8u162-linux-x64.tar.gz(提取码:99bg)
请把压缩格式的文件jdk-8u162-linux-x64.tar.gz下载到本地电脑,如:“/home/hpf/Downloads/”目录下
在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):
接下来在Linux命令行界面中,执行如下Shell命令(注意:当前登录用户名是hadoop):

cd /usr/lib
sudo mkdir jvm #创建/usr/lib/jvm目录用来存放JDK文件
cd ~ #进入hadoop用户的主目录
cd Downloads  #注意区分大小写字母,刚才已经通过FTP软件把JDK安装包jdk-8u162-linux-x64.tar.gz上传到该目录下
sudo tar -zxvf ./jdk-8u162-linux-x64.tar.gz -C /usr/lib/jvm  #把JDK文件解压到/usr/lib/jvm目录下

2.验证JDK安装情况

JDK文件解压缩以后,可以执行如下命令到/usr/lib/jvm目录查看一下:

cd /usr/lib/jvm
ls

3.设置JAVA坏境变量

cd ~
vim ~/.bashrc

通过vim编辑器。打开环境变量配置.bashrc文件,在文件开头添加如下几行内容:
(vim编辑器中,按“i”进去编辑模式,按“:wq”保存并返回终端)

export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
export JRE_HOME=${
     JAVA_HOME}/jre
export CLASSPATH=.:${
     JAVA_HOME}/lib:${
     JRE_HOME}/lib
export PATH=${
     JAVA_HOME}/bin:$PATH

保存.bashrc文件并退出vim编辑器。然后,继续执行如下命令让.bashrc文件的配置立即生效:

source ~/.bashrc

验证:

java -version

若返回如下信息,则代表JAVA环境配置成功

Mapreduce程序 统计文件中每个单词出现次数_第3张图片

四.安装Hadoop

Hadoop安装文件,可以到Hadoop官网下载hadoop-3.1.3.tar.gz。
也可以直接点击这里从百度云盘下载软件(提取码:lnwl)
我们选择将 Hadoop 安装至 /usr/local/ 中:

sudo tar -zxf ~/下载/hadoop-3.1.3.tar.gz -C /usr/local    # 解压到/usr/local中
cd /usr/local/
sudo mv ./hadoop-3.1.3/ ./hadoop            # 将文件夹名改为hadoop
sudo chown -R hadoop ./hadoop       # 修改文件权限

Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用,成功则会显示 Hadoop 版本信息:

cd /usr/local/hadoop
./bin/hadoop version

Mapreduce程序 统计文件中每个单词出现次数_第4张图片

五.Hadoop伪分布式配置

1.修改配置文件

Hadoop配置伪分布式。

  • Hadoop海量数据存储,需要分布式存储,
  • Namenode:名称节点(NN),存放文件目录和路径,重要节点。有备份辅助节点
  • DataNode:数据节点(DN),存放数据,有副本

Hadoop 的配置文件位于 /usr/local/hadoop/etc/hadoop/ 中,伪分布式需要修改2个配置文件 core-site.xml 和 hdfs-site.xml 。Hadoop的配置文件是 xml 格式,每个配置以声明 property 的 name 和 value 的方式来实现。

cd /usr/local/hadoop/etc/hadoop/

需要在创建对应的文件夹进行存放后再修改配置文件,否则后续操作无法启动Hadoop。

sudo mkdir /usr/local/hadoop/tmp
sudo mkdir /usr/local/hadoop/tmp/dfs/name
sudo mkdir /usr/local/hadoop/tmp/dfs/data

在配置文件中找到下面这个标签对
修改为下面:

<configuration>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr/local/hadoop/tmp</value>
        <description>Abase for other temporary directories.</description>
    </property>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
    </property>
</configuration>

同理修改hdfs-site.xml:

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/usr/local/hadoop/tmp/dfs/data</value>
    </property>
</configuration>

2.格式化 NameNode

配置完core-site.xml 和 hdfs-site.xml,我们需要对NameNode进行格式化:

cd /usr/local/hadoop
./bin/hdfs namenode -format

3.开启NameNode和DataNode守护进程

cd /usr/local/hadoop
./sbin/start-dfs.sh  #start-dfs.sh是个完整的可执行文件,中间没有空格

//若出现如下SSH提示,输入yes即可。

4.校验安装

当程序启动完成后,可以通过命令 jps 来判断是否成功启动,若成功启动则会列出如下进程: “NameNode”、”DataNode” 和 “SecondaryNameNode”。
在这里插入图片描述
成功启动后,可以访问 Web 界面 http://localhost:9870 查看 NameNode 和 Datanode 信息,还可以在线查看 HDFS 中的文件。
Mapreduce程序 统计文件中每个单词出现次数_第5张图片

五.调用MapReduce执行WordCount对单词进行计数

  • 首先准备好的单词文件内容不限,可从各大英语文献网下载(不少于10000英文单词),将ykl.txt上传到/home/hadoop文件夹下,以便实验。

Mapreduce程序 统计文件中每个单词出现次数_第6张图片
在这里插入图片描述

  • 进入hadoop目录并启动hadoop,并将ykl.txt从本机上传至 HDFS:
    在这里插入图片描述
  • 查看hdfs input中的文件,看是否存在上传的文件。
    在这里插入图片描述
  • 完成上传后,我们需要安装Eclipse。我们利用Ubuntu左侧边栏自带的软件中心安装软件,在Ubuntu左侧边栏打开软件中心,在搜索框输入Eclipse找到对应文件下载即可。
    Mapreduce程序 统计文件中每个单词出现次数_第7张图片
  • 下载后执行如下命令,将 Eclipse 安装至 /usr/lib 目录中:
sudo tar -zxf ~/下载/eclipse-java-mars-1-linux-gtk*.tar.gz -C /usr/lib
  • 下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (还提供了 2.2.0 和
    2.4.1 版本)复制到 Eclipse 安装目录的 plugins 文件夹中,运行 eclipse -clean 重启 Eclipse 即可(添加插件后只需要运行一次该命令,以后按照正常方式启动就行了)。
unzip -qo ~/下载/hadoop2x-eclipse-plugin-master.zip -d ~/下载    # 解压到 ~/下载 中
sudo cp ~/下载/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/    # 复制到 eclipse 安装目录的 plugins 目录下
/usr/lib/eclipse/eclipse -clean    # 添加插件后需要用这种方式使插件生效
  • 图中eclipse-java-mars-1-linux-gtk*.tar.gz为文件名,按实际情况输入安装完Eclipse,我们还需要安装 hadoop-eclipse-plugin,用于在 Eclipse 上编译和运行 MapReduce程序,可下载 Github 上的hadoop2x-eclipse-plugin(备用下载地址:http://pan.baidu.com/s/1i4ikIoP)。 下载后,将 release 中的 hadoop-eclipse-kepler-plugin-2.6.0.jar (还提供了 2.2.0 和 2.4.1 版本)复制到 Eclipse 安装目录的 plugins 文件夹中,运行 eclipse -clean 重启 Eclipse即可(添加插件后只需要运行一次该命令,以后按照正常方式启动就行了)。
unzip -qo ~/下载/hadoop2x-eclipse-plugin-master.zip -d ~/下载    # 解压到 ~/下载 中
sudo cp ~/下载/hadoop2x-eclipse-plugin-master/release/hadoop-eclipse-plugin-2.6.0.jar /usr/lib/eclipse/plugins/    # 复制到 eclipse 安装目录的 plugins 目录下
/usr/lib/eclipse/eclipse -clean    # 添加插件后需要用这种方式使插件生效

配置 Hadoop-Eclipse-Plugin

  • 当执行完最后一条命令后,系统会自动打开Eclipse,打开后我们看到左边的Project Explorer里出现了DFS Locations。
    Mapreduce程序 统计文件中每个单词出现次数_第8张图片
    Mapreduce程序 统计文件中每个单词出现次数_第9张图片

  • 接下来我们对插件进行进一步配置。 第一步:选择 Window 菜单下的 Preference。窗口左侧找到 Hadoop Map/Reduce 选项,填入Hadoop 的安装地址/usr/local/hadoop。
    Mapreduce程序 统计文件中每个单词出现次数_第10张图片

  • 切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other,选择 Map/Reduce 选项即可进行切换。

Mapreduce程序 统计文件中每个单词出现次数_第11张图片

  • 建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,单击右键,选择
    New Hadoop Location。
    Mapreduce程序 统计文件中每个单词出现次数_第12张图片
  • General 的设置要与 Hadoop 的配置一致。由于我使用的Hadoop伪分布式配置,设置 fs.defaultFS 为hdfs://localhost:9000,Map/Reduce(V2)Master 的 Port 用默认的即可,Location Name 随意填写。

Mapreduce程序 统计文件中每个单词出现次数_第13张图片

  • 配置好后,在左侧的Project Explorer中找到ykl.txt。
    Mapreduce程序 统计文件中每个单词出现次数_第14张图片

创建MapReduce项目
首先,点击File菜单,选择New——Project,选择Map/Reduce Project,点击Next,填写项目名称,此处用本实验WordCount作为项目名。填写完后点击Finish即可。
Mapreduce程序 统计文件中每个单词出现次数_第15张图片
Mapreduce程序 统计文件中每个单词出现次数_第16张图片
Mapreduce程序 统计文件中每个单词出现次数_第17张图片
到刚刚建好的Wordykl文件夹,右击src选择New-Class创建一个类。
Mapreduce程序 统计文件中每个单词出现次数_第18张图片

  • 配置相应信息。
    Mapreduce程序 统计文件中每个单词出现次数_第19张图片
  • 在exclipse上运行 wordcount程序:
package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;
 
public class WordCount {
     
    public WordCount() {
     
    }
 
    public static void main(String[] args) throws Exception {
     
        Configuration conf = new Configuration();
//        String[] otherArgs = (new GenericOptionsParser(conf, args)).getRemainingArgs();
        String[] otherArgs=new String[]{
     "input","output"};
        if(otherArgs.length < 2) {
     
            System.err.println("Usage: wordcount  [...] ");
            System.exit(2);
        }
 
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(WordCount.TokenizerMapper.class);
        job.setCombinerClass(WordCount.IntSumReducer.class);
        job.setReducerClass(WordCount.IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
 
        for(int i = 0; i < otherArgs.length - 1; ++i) {
     
            FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
        }
 
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[otherArgs.length - 1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }
 
    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
     
        private IntWritable result = new IntWritable();
 
        public IntSumReducer() {
     
        }
 
        public void reduce(Text key, Iterable<IntWritable> values, Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {
     
            int sum = 0;
 
            IntWritable val;
            for(Iterator i$ = values.iterator(); i$.hasNext(); sum += val.get()) {
     
                val = (IntWritable)i$.next();
            }
 
            this.result.set(sum);
            context.write(key, this.result);
        }
    }
 
    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
     
        private static final IntWritable one = new IntWritable(1);
        private Text word = new Text();
 
        public TokenizerMapper() {
     
        }
 
        public void map(Object key, Text value, Mapper<Object, Text, Text, IntWritable>.Context context) throws IOException, InterruptedException {
     
            StringTokenizer itr = new StringTokenizer(value.toString());
 
            while(itr.hasMoreTokens()) {
     
                this.word.set(itr.nextToken());
                context.write(this.word, one);
            }
 
        }
    }
}
  • 执行MapReduce的 wordcount程序进行单词统计:

Mapreduce程序 统计文件中每个单词出现次数_第20张图片
Mapreduce程序 统计文件中每个单词出现次数_第21张图片
Mapreduce程序 统计文件中每个单词出现次数_第22张图片

  • 查看output文件夹是否有运行成功后生成的文件:

在这里插入图片描述

  • 查看运行后生成的output/part-r-00000这个文件
    在这里插入图片描述
  • 文件已将单词统计结果统计好:
    Mapreduce程序 统计文件中每个单词出现次数_第23张图片
  • 输入下面命令,可以把HDFS中文件下载到本地文件系统中的“/home/hadoop/下载/”这个目录下
 ./bin/hdfs dfs -get output/part-r-00000  /home/hadoop/下载  
  • 执行完查看文件:

Mapreduce程序 统计文件中每个单词出现次数_第24张图片

Mapreduce程序 统计文件中每个单词出现次数_第25张图片

六.总结

本次实验使我学到了很多东西,从ubuntu,hadoop,jdk,eclipse的安装再到WordCount执行的完成,也对我今后的学习奠定一定的基础,培养了我的动手能力以及思考,相信对未来有极大的帮助。虽然在途中遇到小插曲,比较粗心浮躁。冷静下来,用心去完成,趣味自然发生。做如何事情都需要有态度、坚持的心,才能到达成功的彼岸!

仅供参考,如果有错误,请留言告诉我!

七.参考材料

[1] http://dblab.xmu.edu.cn/blog/
[2] http://dblab.xmu.edu.cn/blog/631-2/
[3] https://blog.csdn.net/linuxdadada/article/details/77773904
[4] https://blog.csdn.net/Crazyjava_/article/details/105779675

你可能感兴趣的:(Linux,大数据,hadoop)