Eclipse连接Hadoop
1.通过Eclipse连接Hadoop
2.用Eclipse对HDFS进行操作
Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。通过Eclipse的Hadoop插件可以使Eclipse对HDFS进行操作,同时,可以进行程序编写后的对集群进行MepReduce操作。
从Eclipse3.5开始,安装目录下就多了一个dropins目录。只要将插件解压后拖到该目录即可安装插件。
比如安装svn插件subclipse-1.8.16.zip,只需要如下的三步即可:
1、使用winrar等压缩软件将压缩包解压至某一文件夹,比如subclipse-1.8.16
2、将此目录移动/复制至Eclipse安装目录下的dropins目录
3、重启Eclipse。
由于此种安装方式可以将不同的插件安装在不同的目录里,并且不用麻烦地写配置文件,因此管理起来会非常方便,推荐使用
虚拟机数量:3台
操作系统:Ubuntu14.04
Hadoop:Hadoop 2.2.0
hadoop-common-2.2.0-bin-master.zip
Java:java version "1.7.0_51"
Eclipse:eclipse-inst-win64.exe
1. 将下载的hadoop-eclipse-plugin-2.2.0.jar文件放到eclipse的dropins目录下,重启eclipse打开Windows -> Preferences后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置Hadoop(已配置好的Hadoop)安装路径,如下图
图4-1
2. 通过Window-> Open Perspective->Other菜单打开Map Reduce视图,在eclipse控制台出现Map/Reduce Locations
3. 在控制台右击图标,进行配置如图,其中Host配置需要连接的master的IP,若在本机Hosts文件中已配置master IP可直接写master
图4-2
4. 点击DFSLocations-->Hadoop如果能显示文件夹如图所示,说明配置正确
图4-3
5. 新建项目,File-->New-->Other-->Map/ReduceProject,可复制hadoop-2.2.0-src\hadoop-2.2.0-src\hadoop-mapreduce-project\hadoop-mapreduce-examples\src\main\java\org\apache\hadoop\examples下WordCount.java代码
6. 上传模拟数据文件夹,为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。
图4-4
通过hadoop shell命令进行创建输入文件夹hadoop fs -mkdir -p /test/data,之后对文件夹进行权限修改,hadoop fs -chmod -R 777 /test,
在本地创建一个word.txt,输入一些英文单词,右击eclipseDFS Locations进行文件上传
7. 将hadoop-common-2.2.0-bin-master.zip解压,把hadoop-common-2.2.0-bin-master下的bin全部复制放到我们下载的Hadoop2.2的Hadoop2.2/bin目录下
8. Hadoop2.2配置变量环境HADOOP_HOME 和path,如图所示
图4-5
图4-6
9. 将hadoop-common-2.2.0-bin-master下的bin的hadoop.dll放到C:\Windows\System32下,然后重启电脑,否则会出现"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z错误
10. 点击标题栏Run,通过RunConfigurations进行配置如图配置
图4-7
11. 运行,点击output下part-r-00000查看结果,如图所示
图4-8