MapReduce开发笔记(使用Eclipse编写执行Hadoop)

环境搭建

1、测试Hadoop集群环境

首先我们已经成功部署安装了一个hadoop集群,然后本地可以连接到集群的Master节点。
假设集群Master节点IP:192.168.2.144。
这里我们直接在浏览器打开:http://192.168.2.144:50070,如果能访问到HDFS的Web端界面,就可以了。

2、下载安装Eclipse

这里我们在Eclipse官网下载对应版本的Eclipse:https://www.eclipse.org/downloads/packages/release/mars/2/eclipse-ide-java-developers
然后进行安装即可,我安装的是Eclipse IDE for Java Developers。

3、安装配置Eclipse的Hadoop-Eclipse-Plugin插件

3.1、下载Hadoop-Eclipse-Plugin

首先需要下载一个Hadoop的Eclipse插件,可以下载Github 上的 hadoop2x-eclipse-plugin(备用下载地址:http://pan.baidu.com/s/1i4ikIoP)。

3.2、安装Hadoop-Eclipse-Plugin插件

Hadoop-Eclipse-Plugin下载好后,解压出hadoop-eclipse-plugin-2.6.0.jar文件,将该文件放置到Eclipse安装目录的plugins文件夹下即可。
注:如果是macOS系统,需要打开包内容,放置在dropins目录下。


macOS中eclipse插件放置路径.png

4、配置Eclipse连接Hadoop集群

4.1、给Eclipse配置Hadoop安装目录

在Eclipse中配置需要配置好本地的Hadoop安装的目录:


image.png
4.2、给Eclipse配置集群地址

配置好上述步骤后,eclipse工作窗口右上角会出现Hadoop的标志:


Hadoop地址
4.3、给Eclipse配置一个Hadoop集群的location
New Hadoop Location.png

然后填写好需要连接的集群信息:


填写集群信息
4.4、查看HDFS

我们点击eclipse窗口右上角的resource标签:


resource标签

之后就可以在eclipse中访问hdfs中的数据。


eclipse中访问hdfs

至此,eclipse环境基本配置好。

4、配置Eclipse中执行MapReduce任务

4.1、创建WordCount项目

打开eclipse的File -> New -> Other -> Map/Reduce Project,输入项目名称WordCount,后然点击Finish。


image.png
4.2、添加依赖

右键点击项目、依次打开菜单Build Path -> Configure Build Path:


点击Libraries->Add Library,注意依赖包要放置在classpath上:


选择User Library:


4.3、创建一个WordCount类

创建一个类,填写包名称org.apache.hadoop.examples, 类名: WordCount


创建类

并编写好MapReduce程序代码。

4.4、配置MapReduce的输入输出路径

一般我们会将MapReduce的输入输出路径配置到driver类中:


我们首先需要右键点击MapReduce的Driver程序,选择配置菜单:


4.4.1、配置HDFS的输入输出路径

如果执行结果出现Permission denied报错,是由于文件读写权限问题,需要在集群中执行如下命令,修改集群文件读写权限:

hadoop fs -chmod 777 /
4.4.2、配置本地文件的输入输出路径

如果文件的输入输出路径非集群,而是在本地,则路径用file:处理即可。


你可能感兴趣的:(MapReduce开发笔记(使用Eclipse编写执行Hadoop))