eclipse搭建hadoop大数据开发环境

 这篇文章是本人刚开始学习hadoop大数据技术的操作步骤,很详细,适合入门的初学者:   

       这2天,先是在windows上装了个虚拟机,在虚拟机里centos下,用docker搭建了一个hadoop大数据开发环境(详见上篇博客),但是用eclipse远程连接过去时,不知道怎么连到docker里面去;所以又在windows下搭建了个hadoop开发环境,中间遇到了些问题,花费了很多时间,现在把经验记录在这里,供入门者参考。

     流程:直接解压官网下载hadoop安装包到本地->最小化配置4个基本文件->执行1条启动命令->启动成功。

1、解压hadoop:出来一个目录,例如:D:\hadoop-2.7.2;

2、新建环境变量到HADOOP_HOME中,值为解压的那个目录,在PATH里加上%HADOOP_HOME%\bin;如下图:

eclipse搭建hadoop大数据开发环境_第1张图片

3、下载hadoop在windows上运行需要winutils支持和hadoop.dll等文件,直接解压后把文件丢到D:\hadoop-2.7.2\bin目录中去,将其中的hadoop.dll在c:/windows/System32下也丢一份;如下图:

4、去D:\hadoop-2.7.2\etc\hadoop找到下面4个文件并按如下最小配置粘贴上去:

core-site.xml


    
        fs.defaultFS
        hdfs://localhost:9000
        

hdfs-site.xml ,格式化namedode时会自动生成这些文件路径,file:/hadoop/data/dfs/namenode,会在hadoop安装目录的根目录下生成这些文件路径, (备注:replication 是数据副本数量,默认为3,salve少于3台就会报错)


    
        dfs.replication
        1
    
        
        dfs.namenode.name.dir    
        file:/hadoop/data/dfs/namenode    
        
        
        dfs.datanode.data.dir    
        file:/hadoop/data/dfs/datanode  
    

mapred-site.xml(没有的话,可以复制这个文件(mapred-site.xml.template)修改下)


    
        mapreduce.framework.name
        yarn
    



    mapreduce.jobhistory.address
    master:10020


    mapreduce.jobhistory.webapp.address
    master:19888


yarn-site.xml


    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
    
        yarn.nodemanager.aux-services.mapreduce.shuffle.class
        org.apache.hadoop.mapred.ShuffleHandler
    

这里注意一点就是,格式化namenode时,只需要首次安装启动时执行一次就可以了,多次执行这个命令会出现问题,下面也会附上这个问题的解决办法。

5、启动windows命令行窗口,进入hadoop-2.7.2\bin目录,执行下面2条命令,先格式化namenode再启动hadoop

(1)格式化namenode,进入目录cd /d D:\hadoop-2.7.2\bin  ,执行:   hadoop namenode -format  ;

(2)启动hadoop,进入sbin目录,接上条,执行:cd ..\sbin 等价于(cd /d D:\hadoop-2.7.2\sbin),执行:start-all.cmd

后续重启的话,无需再格式化namenode,只要stop-all.cmd再start-all.cmd就可以了。

(3)启动后,可以用浏览器到localhost:8088看mapreduce任务,到localhost:50070->Utilites->Browse the file system看hdfs文件。

 

6、照上面的操作安装并启动hadoop后,接下来在eclipse里配置hadoop开发环境:

下载eclipse插件并丢到eclipse的pulgin(有的是:dropins)目录下,重启eclipse,Project Explorer出现DFS Locations;路径如下:

eclipse搭建hadoop大数据开发环境_第2张图片

7、点击Window->点Preferences->点Hadoop Map/Reduce->填D:\hadoop-2.7.2并OK;

8、见截图:

点击Window->点Show View->点MapReduce Tools下的Map/Reduce Locations->点右边角一个带+号的小象图标"New hadoop location"->eclipse已填好默认参数,但以下几个参数需要修改以下,参见上文中的两个配置文件core-site.xml和hdfs-site.xml:

  General->Map/Reduce(V2) Master->Port改为9001

  General->DSF Master->Port改为9000

  Advanced paramters->dfs.datanode.data.dir改为ffile:/hadoop/data/dfs/datanode

  Advanced paramters->dfs.namenode.name.dir改为file:/hadoop/data/dfs/namenode

eclipse搭建hadoop大数据开发环境_第3张图片

eclipse搭建hadoop大数据开发环境_第4张图片

9、点击Finish后在DFS Locations右键点击左边三角图标,出现hdsf文件夹,可以直接在这里操作hdsf,右键点击文件图标选"Create new Dictionery"即可新增,再次右键点击文件夹图标选Reflesh出现新增的结果;此时在localhost:50070->Utilities->Browse the file system也可以看到新增的结果;

通过"Window"菜单并选择"Open Perspective > Other",选择map/reducer,来打开透视图对话框。

10、新建hadoop项目:File->New->Project->Map/Reduce Project->next->输入自己取的项目名如hadoop再点Finish,分别见java包和Java类,如下图:

eclipse搭建hadoop大数据开发环境_第5张图片

11、WordCount代码的例子如下:

package test;
import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 * Hadoop - 统计文件单词出现频次
 * @author antgan
 *
 */
public class WordCount {
    public static class WordCountMap extends
            Mapper {
        private final IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            String line = value.toString();
            StringTokenizer token = new StringTokenizer(line);
            while (token.hasMoreTokens()) {
                word.set(token.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class WordCountReduce extends
            Reducer {
        public void reduce(Text key, Iterable values,
                Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            context.write(key, new IntWritable(sum));
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = new Job(conf);
        job.setJarByClass(WordCount.class);
        job.setJobName("wordcount");
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);   
        job.setMapperClass(WordCountMap.class);
        job.setReducerClass(WordCountReduce.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
     
     
     // 判断output文件夹是否存在,如果存在则删除
     		Path path = new Path(args[1]);// 取第1个表示输出目录参数(第0个参数是输入目录)
     		FileSystem fileSystem = path.getFileSystem(conf);// 根据path找到这个文件
     		if (fileSystem.exists(path)) {
     			fileSystem.delete(path, true);// true的意思是,就算output有东西,也一带删除
     		}
    

        
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        job.waitForCompletion(true);
    }
}

12、点击hadoop(自己起的名),右键:先建文件夹,再上传文件到该目录下:

eclipse搭建hadoop大数据开发环境_第6张图片

eclipse搭建hadoop大数据开发环境_第7张图片

13、运行,arguments里面输入:hdfs://localhost:9000/input   hdfs://localhost:9000/output

eclipse搭建hadoop大数据开发环境_第8张图片

eclipse搭建hadoop大数据开发环境_第9张图片

 

可能会遇到的问题如下:

       初学者可能会遇到这个问题,在第一次格式化dfs后,启动并使用了hadoop,后来又重新执行了格式化命令(hdfs namenode -format),这时namenode的clusterID会重新生成,而datanode的clusterID 保持不变。导致namenode节点无法启动,报错的表现就是:eclipse里可以上传文件到HDFS,但文件内容为空。

例如如下报错:

2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool  (Datanode Uuid unassigned) service to localhost/127.0.0.1:9000
java.io.IOException: Incompatible clusterIDs in /usr/local/hadoop/hdfs/data: namenode clusterID = CID-af6f15aa-efdd-479b-bf55-77270058e4f7; datanode clusterID = CID-736d1968-8fd1-4bc4-afef-5c72354c39ce

eclipse搭建hadoop大数据开发环境_第10张图片

解决办法:

1、windows下:

在windows下,在安装目录的根目录下,启动hadoop后会自动生成一个文件夹,例如,我的hadoop安装在software下面,但hadoop数据文件会生成在hadoop那个文件夹下(在hdfs-site.xml 里配置的),这点可以从日志里面看出来,所以,报错仔细观察日志很重要!!!

eclipse搭建hadoop大数据开发环境_第11张图片

eclipse搭建hadoop大数据开发环境_第12张图片,将这个目录下的文件都删除,可以在hdfs-site.xml里配置修改路径。重新格式化,  hadoop namenode -format  ,再启动,start-all.cmd。

 

2、linux下:(可以通过日志找对应的目录,这个路径是在hdfs-site.xml里配置的

1、停止dfs
$./stop-dfs.sh
2、删除在hdfs中配置的data目录和tmp目录
$ rm -r /home/data
$ rm -r /home/tmp
重新创建data目录和tmp目录
$ mkdir data
$ mkdir tmp
3、重新格式化namenode
$ hadoop namenode -format
4、重新启动dfs
$./start-dfs.sh
5、查看dfs
$  jps
 

 

你可能感兴趣的:(大数据相关)