Hadoop HDFS 的 Java API 操作方式

想要使用Java API 的方式操作 Hadoop,尤其是hdfs(hadoop file system),必然需要引入jar包(jar包提供了丰富的API)。

  • 点中工程名,
  • alt+enter,进入工程属性页,
  • 点击【Java Build Path】,点击【Libraries】,
  • 我们要引入外部的Jar包,点击【Add External JARs …】。

导入的外部Jar包分为两部分(避免出现依赖,我们全部导入),

  • 分别为hadoop根目录下的jar包,
  • 和lib里的jar包。

导入完成之后,我们发现在Eclipse的【Package Explorer】当前项目,存在两部分的Library,如下图所示:


这里写图片描述

获取/查看 hdfs 上的文件

方式一:URL的方式解析hdfs中的文件

public class App{
    public static void main(String[] args){
        static final String path = "hdfs://hadoop0:9000/hello";
                    // hello 是 hdfs 上的文件而非路径
        URL.setURLStreamHandlerFactory(new FsFsUrlStreamHandlerFactory());
                    // 不执行这一步操作的话
                    // url对象无法解析hdfs协议
                    // 会报 unknown protocol: hdfs 异常
        URL url = new URL(path);
                    // URL 表示资源定位符,
                    // 自然是文件在hdfs服务器上的位置
        InputStream in = url.openStream();
                    // URL 对象以文件流的形式将文件解析
        IOUtils.copyBytes(in, System.out, 1014, true);
                    // IOUtils 取hadoop的相关实现
                    // 将in中的内容读入到输出流(这里是控制台输出)
    }
}

显然这里的url,能力有限,因为它来自 jdk 中的 api,属于一种通用的API。

FileSystem:hadoop API

你可能感兴趣的:(hadoop,Java)