hadoop java 读写入文件_Hadoop文件系统操作之读取写入数据

一.从hadoop文件系统hdfs读取文件

读取hdfs文件有两种方法:

1.使用java.net.URL对象打开数据流,从中读取代码

importjava.io.IOException;importjava.io.InputStream;importjava.net.MalformedURLException;importjava.net.URL;importorg.apache.commons.compress.utils.IOUtils;importorg.apache.hadoop.fs.FsUrlStreamHandlerFactory;public classURLCat

{static{

URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());

}public static void main(String [] args) throwsMalformedURLException, IOException

{try(InputStream in = new URL(args[0]).openStream();)

{

IOUtils.copy(in, System.out);

}

}

}

要想让java程序能识别Hadoop的hdfs URL必须通过FsUrlStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法,然而每个java虚拟机只能调用一次这个方法,这意味着如果如果程序的其他组件已经声明了一个URLStreamHandlerFactory对象,将无法用这种方法从hadoop读取文件

2.通过调用FileSystem API 读取数据

import java.io.*;importjava.net.URI;importorg.apache.commons.compress.utils.IOUtils;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FSDataInputStream;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;public classFileSystemCat

{public static void main(String [] args) throwsIOException

{

String uri= args[0];

Configuration conf= newConfiguration();

FileSystem fs=FileSystem.get(URI.create(uri),conf);try(InputStream in = fs.open(newPath(uri)))

{

IOUtils.copy(in,System.out);//((FSDataInputStream) in).seek(0);//IOUtils.copy(in, System.out);

}

}

}

Configuration 对象封装了客户端或者服务端的配置

public static FileSystem.get(URI uri,Configuration conf)通过给定的URL来确定要使用的文件系统

Public FSDateInputStream open(Path f) throws IOException用来获取文件的输入流

FSDateInputStream类继承了Seekable接口和PositionedReadable接口,因此可以从流的随意位置读取数据,Seelable接口提供的seek()类是一个相对高开销的操作,需要谨慎使用

二.向hadoop文件系统hdfs写入数据

importjava.io.BufferedInputStream;importjava.io.FileInputStream;importjava.io.IOException;importjava.io.InputStream;importjava.io.OutputStream;importjava.net.URI;importorg.apache.commons.compress.utils.IOUtils;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.util.Progressable;public classFileCopyWithProgress

{public static void main(String[] args) throwsIOException

{

String localsrc= args[0];

String dst= args[1];

InputStream in= new BufferedInputStream(newFileInputStream(localsrc));

Configuration conf= newConfiguration();

FileSystem fs=FileSystem.get(URI.create(dst),conf);try (OutputStream out = fs.create(new Path(dst),newProgressable(){public voidprogress()

{

System.out.print(".");//用于显示文件复制进度

}

}))

{

IOUtils.copy(in, out);

}

}

}

使用运行参数:"/home/hadoop/Desktop/1.txt"     "hdfs://localhost/user/hadoop/output/1.txt"

程序在运行时可能会出现错误:

Exception in thread "main" java.net.ConnectException: Call From thewolf/127.0.1.1 to localhost:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

原因:是没有指定访问分布式文件系统的端口号:即配置文件里面设定的文件系统端口,执行程序会根据默认的8020端口去访问文件系统,而访问不到出现上述错误。

解决方法:指定访问hdfs的端口号(自己配置的端口号,我配置的是9000):更改运行参数为:"/home/hadoop/Desktop/1.txt"     "hdfs://localhost:9000/user/hadoop/output/1.txt"

public FSDataOutputStream create(Path f) throws IOException 能够为需要写入切当前不存在的文件创建父文件目录,可先用exists()方法检查父目录是否存在;append()方法用于在一个已经存在的文件末尾追加数据

FSDataInputStream继承了借口Syncable,可用getPos()方法查询文件当前位置,但是FSDataInputStream类不允许在文件中定位,因为HDFS只允许对一个已打开文件顺序写入,或者在现有文件后面追加数据。

Progressable用于传递回调接口,每次Hadoop将64KB数据写入datanode管线后都会调用Progressable接口的progress

public interfaceProgressable

{public voidprogress();

}

你可能感兴趣的:(hadoop,java,读写入文件)