IO流操作HDFS

写在前面:

我的博客已迁移至自建服务器:博客传送门,CSDN博客暂时停止,如有机器学习方面的兴趣,欢迎来看一看。

此外目前我在gitHub上准备一些李航的《统计学习方法》的实现算法,目标将书内算法全部手打实现,欢迎参观并打星。GitHib传送门

上传文件Demo

@Test
public void putFileToHDFS() throws IOException, InterruptedException, URISyntaxException {
	//1.获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");
	
	//2.获取输入流
	FileInputStream fis = new FileInputStream(new File("e:/hello.txt"));
	
	//3.获取输出流
	FSDataOutputStream fos = fs.create(new Path("/hello3.txt"));
	
	//4.流对拷
	IOUtils.copyBytes(fis, fos, configuration);
	
	//5.关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
	
	if(fs != null) {
		try {
			fs.close();
		}catch (IOException ex) {
			System.out.println("文件关闭失败");
		}
	}
}

下载文件Demo

@Test
public void getFileFromHDFS() throws IOException, InterruptedException, URISyntaxException {
	//1.获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");
	
	//2.获取输入流
	FSDataInputStream fis = fs.open(new Path("/hello3.txt"));
	
	//3.获取输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/hello1.txt"));
	
	//4.流对拷
	IOUtils.copyBytes(fis, fos, configuration);
	
	//5.关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
	if(fs != null) {
		try {
			fs.close();
		}catch(IOException ex){
			System.out.println(ex.getMessage());
		}
	}
}

定位文件读取

本Demo中,在/user/atguigu中有文件hadoop-2.7.2.tar.gz,其大小为188.5M,由于HDFS文件块大小为128M,所以该文件在HDFS系统中分两块存。
正常下载时,HDFS会将整个文件下载至本地。本Demo通过将文件分开定位的方式,按照块的大小来分两次读取文件。

//下载第一部分
@Test
public void getHDFSSeek1() throws IOException, InterruptedException, URISyntaxException {
	//1.获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");
	
	//2.获取输入流
	FSDataInputStream fis = fs.open(new Path("/user/atguigu/hadoop-2.7.2.tar.gz"));
	
	//3.获取输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part1"));
	
	//4.文件定位对拷
	byte[] buf = new byte[1024];
	for(int i = 0; i < 1024 * 128; i++) {
		fis.read(buf);
		fos.write(buf);
	}
	
	//5.关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
	IOUtils.closeStream(fs);
}

//下载第二部分
@Test
public void getHDFSSeek2() throws IOException, InterruptedException, URISyntaxException {
	// 1.获取文件系统
	Configuration configuration = new Configuration();
	FileSystem fs = FileSystem.get(new URI("hdfs://hadoop102:9000"), configuration, "atguigu");
	// 2.获取输入流
	FSDataInputStream fis = fs.open(new Path("/user/atguigu/hadoop-2.7.2.tar.gz"));

	// 3.获取输出流
	FileOutputStream fos = new FileOutputStream(new File("e:/hadoop-2.7.2.tar.gz.part2"));
	
	// 4.文件定位对拷
	fis.seek(1024 * 1024 * 128);
	IOUtils.copyBytes(fis, fos, configuration);
	
	// 5.关闭资源
	IOUtils.closeStream(fis);
	IOUtils.closeStream(fos);
	IOUtils.closeStream(fs);
}

你可能感兴趣的:(大数据类)