Hadoop连接HDFS进行API操作

1、概述

Hadoop提供了Java的API用于处理程序的开发及应用,搭建开发环境能够方便大型程序的开发与调试,完成的代码无需部署,通过eclipse就能执行并输出结果,代码直接从HDFS读取并输出数据。

2、所需文件

https://pan.baidu.com/s/1FzT5uZvrC-XR6-rCi_7Seg
提取码:qgej
所需文件

  • 解压“hadoop-2.7.6.tar.gz”安装包
  • 将"winutils.exe"文件放假hadoop-2.7.6的bin目录下
  • 将"hadoop.dll"放在C:\Windows\System32目录下
  • 将hadoop-eclipse-plugin-2.7.5.jar放在eclipse的plugins目录下

有很多人可能要问,虚拟机中的版本和我所给的版本不一样会不会有影响? 小编经过测试发现,只要都是2.x的hadoop版本都是可以成功连上HDFS的;

小编在编写运行wordcount实例的时候,遇到了一种版本异常的报错信息,原因是因为小编eclipse版本中使用的JDK级别是9,而虚拟机中JDK是8版本,故而报错;解决方法:把eclipse中的版本换成8即可成功运行。

3、Windows配置环境变量

  1. 右键此电脑>属性>高级系统设置>高级>环境变量
  2. 配置JAVA_HOME,在系统变量中选择新建,加入自己JDK的路径,请注意不要有空格,如果有,加上双引号进行转译即可。
    Hadoop连接HDFS进行API操作_第1张图片
  3. 配置CLASS_PATH,在系统变量中找到CLASSPATH,在变量值后加上以下内容:
.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar;
  1. 配置PATH,在系统变量中找到Path,加入两行
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin
  1. 测试,win+R键打开运行窗口,输入cmd打开命令行窗口,键入java -version,出现版本信息则成功,如下图(小编机器中有三个JDK可以任意转换,故而请忽略是7版本的,哈哈)Hadoop连接HDFS进行API操作_第2张图片

4.配置HADOOP环境变量

1.配HADOOP_HOME,输入hadoop安装位置路径
Hadoop连接HDFS进行API操作_第3张图片

2.PATH添加两行

%HADOOP_HOME%\bin
%HADOOP_HOME%\sbin

3、测试,win+R键打开运行窗口,输入cmd打开命令行窗口,键入hadoop version,出现版本信息则成功(若报错或不出现,也是可以的)

5.配置eclipse

1.在eclipse工具栏中找到window->show view ->other ->搜索map
Hadoop连接HDFS进行API操作_第4张图片
2.在出现小黄象地方的空白处,右键新建:
Hadoop连接HDFS进行API操作_第5张图片

New Hadoop localtion...

Hadoop连接HDFS进行API操作_第6张图片

3.出现这这种问题不要紧张,只是hadoop集群还没有启动而已,在虚拟机伪分布式或完全分布式下start-all.sh启动进程即可,小编是在完全分布式的环境下进行的操作。
完全分布式环境搭建:https://blog.csdn.net/dj_hanhan/article/details/105688757Hadoop连接HDFS进行API操作_第7张图片
4.之后mapReduce新建项目,导入相应的JAR包即可,JAR包位置在hadoop的安装目录下
Hadoop连接HDFS进行API操作_第8张图片
今天的分享就到此结束吧

你可能感兴趣的:(Hadoop,学习,笔记)