使用Java API远程访问HDFS

概述

在虚拟机中配置好Hadoop环境,通过本地(宿主机)编写Java程序去访问虚拟机中的HDFS,完成基本的读取文件操作。

方法

1.在mavan中添依赖项


    org.apache.hadoop
    hadoop-common
    2.7.7


    org.apache.hadoop
    hadoop-hdfs
    2.7.7


    org.apache.hadoop
    hadoop-client
    2.7.7

2.代码

Configuration conf = new Configuration();
conf.set("fs.defaultFS", "hdfs://master:9000");
conf.set("fs.hdfs.impl", "org.apache.hadoop.hdfs.DistributedFileSystem");

FileSystem fs = null;
fs = FileSystem.get(conf);
Path file = new Path(path + fileName);

FSDataInputStream getIt = fs.open(file);
BufferedReader d = new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //读取文件一行
fs.close();

遇到的问题

  • 问题一
    java.lang.NoSuchMethodError: org.apache.hadoop.ipc.RPC.getProxy(....)
    解决办法:手动导入hadoop的依赖包。将虚拟机中hadoop安装目录下的share/hadoop文件夹中的comon hdfs mapreduce tools yarn这几个文件夹,加入到项目的依赖中。
IntellJ IDEA设置Hadoop依赖1.jpg
IntellJ IDEA设置Hadoop依赖2.jpg
  • 问题二
    No FileSystem for scheme:hdfs and Classorg.apache.hadoop.DistributedFileSystem not found
    解决办法:添加如下依赖项。

    org.apache.hadoop
    hadoop-core
    1.2.1

其实,我是先遇到了这个问题,找到了解决方法后,再出现了上面的那个问题。但奇怪的是,我按上面那个问题的解决方法操作后,依然报错,而当我把这里添加的hadoop-core依赖项删除后,这两个问题都消失了。(应该是第一个解决方法所导入的文件,已经包含了这里给出的依赖)

参考资料

  • win7下通过intellij idea对hadoop2.7.3进行访问操作的实践
  • java-lang-nosuchmethoderror-org-apache-hadoop-ipc-rpc-getproxy-while-creating-h
  • no-filesystem-for-schemehdfs-and-class-org-apache-hadoop-distributedfilesystem

你可能感兴趣的:(使用Java API远程访问HDFS)