Hadoop2.x eclipse下编程环境配置

这个过程,是针对如何在eclipse中编写hadoop2.x对应的MapReduce程序,然后打包并上传到hadoop集群执行的过程。



1. 下载hadoop2.x的tar包,解压到某个目录下(注: 不是源码包,是安装包



2. 将hadoop2x-eclipse插件导入eclipse:

(1) 编译插件。插件源码地址 https://github.com/winghc/hadoop2x-eclipse-plugin

(2) 把编译后的hadoop2x-eclipse*.jar包拷贝到eclipse/plugins目录下

(3) 重启eclipse

(4) eclipse —> windows —> open perspective,打开MapReduce视图

Hadoop2.x eclipse下编程环境配置_第1张图片

(5) eclipse —> windows —>preferences —> Hadoop MapReduce, 配置hadoop安装路径,指向1中解压hadoop tar包后的目录。

Hadoop2.x eclipse下编程环境配置_第2张图片

3. 创建MapReduce项目

(1) 创建项目: eclipse —> File —> New —> Map/Reduce Project。 创建完项目后,会在项目目录下发现一系列依赖的jar包,包括hadoop-hdfs*, hadoop-yarn*等包。如果没有,那么写代码的时候会报错,需要手工导入。

Hadoop2.x eclipse下编程环境配置_第3张图片

项目中会看到的一系列jar包:

Hadoop2.x eclipse下编程环境配置_第4张图片

(2) 然后可以开始开发了。在项目中通过new —> Mapper / Reducer / Driver 创建出的map或reduce文件,会自动把引用,继承和结构都生成,只需要添加实现就好。

Hadoop2.x eclipse下编程环境配置_第5张图片

结构已经自动生成好了的map文件: 

Hadoop2.x eclipse下编程环境配置_第6张图片


4. 打包,上传到集群,运行

(1) eclipse —> File —> Export —> Jar File。 导出jar包

(2) 把jar包上传到集群中,运行:

hadoop jar wordcount.jar org.apache.hadoop.wordcount arg0 arg1 ...





你可能感兴趣的:(Hadoop学习分享)