1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置

1.搭建hadoop环境
这步网上的文章一大堆，下面是简化版的操作步骤
（此处省略一个免密钥登陆的过程，百度上有很多）

第一步：下载java_jdk  下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html，下好之后解压到/usr/local/java/路径下，这时你的/usr/local/java/路径下应该有一个jdk开头的文件。
  接下来将设置bash环境变量
  输入命令：vim  ~/.bashrc
  文件末尾加入 
   export JAVA_HOME=/usr/local/java/jdk1.8.0_151
   export JRE_HOME=$JAVA_HOME/jre
   export CLASSPATH=.:$JAVA_HOME/lib
   export PATH=$PATH:$JAVA_HOME/bin
   接着保存退出
   为了让文件生效需要输入  source ~/.bashrc
   在终端中输入Java -version可以看到java的版本等信息，证明已经安装成功

第二步：下载hadoop-2.7.3  下载地址  https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/   下载hadoop-2.7.3.tar.gz就行了，下载好后，解压hadoop-2.7.3.tar.gz到/usr/local/路径下 ，之后重命名hadoop-2.7.3为hadoop
      接下来继续设置环境变量
      输入命令 vim /etc/profile
      文件末尾加入
      JAVA_HOME=/usr/local/java/jdk1.8.0_151
      PATH=$PATH:$HOME/bin:$JAVA_HOME/bin
      export JAVA_HOME
      export PATH
      export HADOOP_HOME=/usr/local/hadoop
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
      接着保存退出
      输入命令 source /etc/profile 使文件生效
      在终端中输入 hadoop version可以看到hadoop的信息，证明安装成功
第三步：配置hadoop文件
   简单说一下单机环境的原理，hadoop由三个框架组成hdfs + mapreduce + yarn，在hdfs由namenode和datanode组成，文件上传hdfs后会被切块保存在datanode中，namenode的内存中保存着的datanode中文件的目录，单机环境中namenode和datanode都是本机。yarn负责分配计算资源可以不用计较太多，只需要把mapreduce的分配工作交给yarn就行了。
   输入命令 cd  /usr/local/hadoop/etc/hadoop/中，可以看见一堆文件，他们大多都是hadoop的配置文件。
   输入命令 vim hadoop-env.sh   找到JAVA_HOME=${JAVA_HOME}把它改成JAVA_HOME=/usr/local/java/jdk1.8.0_151

   输入命令 vim core-site.xml ，在之间加入
  
     dfs.tmp.dir
     /usr/local/hadoop/tmp
 
 
     fs.defaultFS
      hdfs://localhost:9000
 

  输入命令 vim hdfs-site.xml，在之间加入
    
     dfs.replication
      1
  
  
      dfs.namenode.name.dir
      /usr/local/hadoop/tmp/dfs/name
  
  
      dfs.datanode.data.dir
      /usr/local/hadoop/tmp/dfs/data
  

  输入命令 vim mapre-site.xml.template，在之间加入
  
     mapreduce.framework.name
      yarn
  
  保存退出后，需要将mapre-site.xml.template 重命名为 mapre-site.xml

  输入命令 vim yarn-site.xml，在之间加入
  
      yarn.nodemanager.aux-services
      mapreduce_shuffle
  
  第四步 输入命令 hadoop namenode -format 格式化一下namenode中的信息，之后输入命令start-all.sh，即可打开hadoop的所有服务。
 在命令行中输入jps，可以看到namenode/datanode resourcemanager等各种服务已经起来了，证明单机环境已经配置成功。

2.eclipse环境配置
hadoop环境起来了，但是我们要怎么来使用hadoop呢？hadoop支持很多语言，java就是其中一种（这其实是废话，因为hadoop就是java写的）。hadoop提供了很多原生的api供我们使用，比如FileSystem，Configuration中有很多的接口，但是我们在使用hadoop时还需要对它们进行包装一下，这样比较安全，也能实现更多的功能。
在编写java程序时，我们需要把他打包成jar文件，eclipse能够帮助我们快速的把一个Java项目打包成一个jar包。当然还可以直接在eclipse中进行调试。
首先下载一个eclipse，下载地址：https://www.eclipse.org/downloads/download.php?file=/oomph/epp/oxygen/R2/eclipse-inst-linux64.tar.gz
下载之后直接解压得到一个eclipse文件夹，并且下一个插件hadoop-eclipse-plugin-2.7.3.jar
把下载好的hadoop-eclipse-plugin-2.7.3.jar放到eclipse文件夹中的plugins中。
打开eclipse，点击导航栏里的window的preferences

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第1张图片

在左侧选择hadoop Map/Reduce，在右侧中设置hadoop的文件路径为/usr/local/hadoop

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第2张图片

点击window中的Open perspective，在其中选择Map/Reduce

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第3张图片

然后点击下方的Map/Reduce Location，右键下方的空白，点击New HadoopLocation

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第4张图片

在跳出的对话框中进行如下设置：

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第5张图片

现在在左侧的Project Explorer中的DFSLocations已经连接到了本机的HDFS中，可以在这里管理HDFS中的文件。

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第6张图片

在导航栏中选择File->New->Project，选择Map/ReduceProject。

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第7张图片

点击NEXT

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第8张图片

点击FINISH。右键Project Explorer中的WordCount中的src，点击new，点击class。

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第9张图片

点击FINISH。在MyWordCount中输入下面的代码：

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyWordCount {

public static class TokenizerMapper
extends Mapper{

    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        StringTokenizer itr = new StringTokenizer(value.toString());
        while (itr.hasMoreTokens()) 
        {
            word.set(itr.nextToken());
            context.write(word, one);
        }
    }
}

public static class IntSumReducer extends Reducer 
{
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable values,Context context) throws IOException, InterruptedException 
    {
        int sum = 0;
        for (IntWritable val : values) 
        {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

public static void main(String[] args) throws Exception 
{
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "word count");
    job.setJarByClass(MyWordCount.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class);
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}

在代码中点击右键，点击Run as，选择 Run Configuration，设置Main和Arugments

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第10张图片

保存关掉，之后把文件上传到hdfs，使用命令 hdfs dfs -put 你的文件路径 hdfs://localhost:9000/input/ ，右键点击Run as -> run on hadoop，程序就跑起来了，输出可以在DFSlocation中进行查看，refresh后发现多出一个output文件夹，输出结果就在里面。

我们接下来尝试将Java工程打包成jar文件，通过hadoop jar命令来使用这个Jar包，可以达到同样的效果。首先先把hdfs中的output删掉，在eclipse中删除就可以，也是可以用命令。
之后我们点击导航栏中的file->Export，在弹出的对话框中选择JAVA->JAR file

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置_第11张图片

具体的输出路径自己设置就行了，我自己输出的jar包名字是wc.jar
切换到jar包所在目录，输入命令 hadoop jar wc.jar org.apache.hadoop.examples.MyWordCount hdfs://localhost:9000/input/你的文件 hdfs://localhost:9000/output

OK~大功告成！

1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置

你可能感兴趣的:(1、ubantu16.04 + hadoop2.7.3 + eclipse单机伪分布环境配置)