目录
一、HDFS Java API的了解
1、HDFS常见类与接口
二、编写Java程序访问HDFS
1、在IEDA上创建Maven项目
2、添加相关依赖
3、创建日志属性文件
4、启动集群HDFS服务
5、在HDFS上创建文件
6、写入HDFS文件
7、读取HDFS文件
8、重命名目录或文件
9、显示文件列表
9.1、显示指定目录下文件全部信息
9.2、显示指定目录下文件路径和长度信息
10、获取文件块信息
11、创建目录
12、判断目录或文件是否存在
13、判断Path指向目录还是文件
14、删除目录或文件
14.1、删除文件
14.2、删除目录
14.3、删除目录或文件
三、课后复习
类或接口 | 功能描述 |
org.apache.hadoop.fs.FileSystem | 一个通用文件系统的抽象基类,可被分布式文件系统继承。 |
org.apache.hadoop.fs.FileStatus | 文件状态接口,用于向客户端展示系统中文件和目录的元数据。具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。 |
org.apache.hadoop.fs.FileDataInputStream | 文件输入流,用于读取Hadoop文件。 |
org.apache.hadoop.fs.FileDataOutputStream | 文件输出流,用于写Hadoop文件。 |
org.apache.hadoop.fs.Configuration | 访问配置项,所有配置项的值,如果在core-site.xml中有对应的配置,则以core-site.xml为准。 |
org.apache.hadoop.fs.Path | 路径,用于表示Hadoop文件系统中的一个文件或一个目录的路径。 |
org.apache.hadoop.fs.PathFilter | 路径过滤器接口,通过实现方法PathFilter.accept(Path path)来判断是否接收路径path表示的文件或目录。 |
FileSystem对象的一些方法可以对文件进行操作
方法名 | 功能描述 |
copyFromLocalFile(Path src, Path dst) | 从本地磁盘复制文件到HDFS |
copyToLocalFile(Path src, Path dst) | 从HDFS复制文件到本地磁盘 |
mkdirs(Path f) | 建立子目录 |
rename(Path src, Path dst) | 重命名文件或文件夹 |
delete(Path f) | 删除指定文件 |
pom.xml
文件里添加hadoop
和junit
依赖
org.apache.hadoop
hadoop-client
3.3.4
junit
junit
4.13.2
hadoop
hadoop-client
超链接3.3.4
超链接resources
目录里创建log4j.properties
文件log4j.rootLogger=stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/hdfs.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n
start-dfs.sh
hdfs dfs -touchz
命令可以创建时间戳文件/ied01
目录创建hadoop.txt
文件net.hw.hdfs
包,在包里创建CreateFileOnHDFS
类create1()
方法import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import java.net.URI;
public class CreateFileOnHDFS {
@Test
public void create1() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 定义统一资源标识符(uri: uniform resource identifier)
String uri = "hdfs://master:9000";
// 创建文件系统对象(基于HDFS的文件系统)
FileSystem fs = FileSystem.get(new URI(uri), conf);
// 创建路径对象(指向文件)
Path path = new Path(uri + "/ied01/hadoop.txt");
// 基于路径对象创建文件
boolean result = fs.createNewFile(path);
// 根据返回值判断文件是否创建成功
if (result) {
System.out.println("文件[" + path + "]创建成功!");
} else {
System.out.println("文件[" + path + "]创建失败!");
}
}
}
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.io.IOException;
import java.net.URI;
public class CreateFileOnHDFS_ {
public static void main(String[] args) throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
//定义uri字符串
String uri="hdfs://192.168.219.75:9000";
//创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf);
// 创建路径对象
Path path = new Path(uri + "/ied01/hadoop.txt");
//判断路径对象指向的文件是否存在
if(fs.exists(path)){
//提示用户文件已经存在
System.out.println("文件["+path+"]已经存在!");
}else {
try {
//基于路径对象创建文件
boolean result =fs.createNewFile(path);
//根据返回值判断文件是否创建成功
if (result) {
System.out.println("文件[" + path + "]创建成功!");
} else {
System.out.println("文件[" + path + "]创建失败!");
}
} catch (IOException e) {
System.out.println("异常信息:"+e.getMessage());
}
}
}
}
hdfs dfs -put
命令net.hw.hdfs
包里创建WriteFileOnHDFS
类/ied01
目录里创建hello.txt
文件public class WriteFileOnHDFS {
@Test
public void write1() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf);
// 创建路径对象(文件或目录)
Path path = new Path(uri + "/ied01/hello.txt");
// 创建文件输出流
FSDataOutputStream out = fs.create(path);
// 写数据
out.write("hello hadoop world".getBytes());
// 提示用户写文件成功
System.out.println("文件[" + path + "]写入成功!");
// 关闭输出流
out.flush();
// 关闭文件
fs.close();
}
hello.txt
文件test.txt
write2()
方法@Test
public void write2() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象(指向目录或文件)
Path path = new Path(uri + "/ied01/exam.txt");
// 创建文件系统数据字节输出流对象
FSDataOutputStream out = fs.create(path);
// 创建文件字符输入流对象
FileReader fr = new FileReader("test.txt");
// 创建缓冲字符输入流对象
BufferedReader br = new BufferedReader(fr);
// 定义行字符串
String nextLine = "";
// 通过循环读取缓冲字符输入流
while ((nextLine = br.readLine()) != null) {
// 在控制台输出读取的行
System.out.println(nextLine);
// 通过文件系统数据字节输出流对象写入指定文件
out.write(nextLine.getBytes());
}
// 关闭文件系统字节输出流
out.close();
// 关闭缓冲字符输入流
br.close();
// 关闭文件字符输入流
fr.close();
// 提示用户写入文件成功
System.out.println("本地文件[test.txt]成功写入[" + path + "]!");
}
WriteFileOnHDFS里面的所有包,注意不要导错了
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import org.apache.hadoop.io.IOUtils;
import java.io.BufferedReader;
import java.io.FileReader;
import java.net.URI;
import java.io.FileInputStream;
write2()
测试方法,查看结果write2_()
方法@Test
public void write2_() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义统一资源标识符(uri: uniform resource identifier)
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象(基于HDFS的文件系统)
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象(指向文件)
Path path = new Path(uri + "/ied01/test.txt");
// 创建文件系统数据字节输出流(出水管:数据从程序到文件)
FSDataOutputStream out = fs.create(path);
// 创建文件字节输入流(进水管:数据从文件到程序)
FileInputStream in = new FileInputStream("test.txt");
// 利用IOUtils类提供的字节拷贝方法在控制台显示文件内容
IOUtils.copyBytes(in, System.out, 1024, false);
//再次读取文件数据到文件字节输入流
in=new FileInputStream("test.txt");
// 利用IOUtils类提供的字节拷贝方法来复制文件
IOUtils.copyBytes(in, out, conf);
// 关闭文件字节输入流
in.close();
// 关闭文件系统数据字节输出流
out.close();
// 提示用户写入文件成功
System.out.println("本地文件[test.txt]成功写入[" + path + "]!");
}
write2_()
测试方法,查看结果/ied01/test.txt
内容,文件是存在的,但是没有内容IOUtils.copyBytes(in, out, conf);
,因此输出流肯定也没有数据可以写入文件,那该怎么办呢?再次读取文件,让字节输入流有数据。 write2_()
方法,查看结果/ied01/test.txt
文件hdfs dfs -cat
和hdfs dfs -get
net.hw.hdfs
包里创建ReadFileOnHDFS
类hdfs://master:9000/ied01/test.txt
文件read1()
方法 read1()
测试方法,查看结果/ied01/test.txt
下载到项目的download
目录里download
目录read2()
方法@Test
public void read2() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义统一资源标识符(uri: uniform resource identifier)
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象(基于HDFS的文件系统)
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象(指向文件)
Path path = new Path(uri + "/ied01/test.txt");
// 创建文件系统数据字节输入流(进水管:数据从文件到程序)
FSDataInputStream in = fs.open(path);
// 创建文件字节输出流(出水管:数据从程序到文件)
FileOutputStream out = new FileOutputStream("download/exam.txt");
// 利用IOUtils工具类读取HDFS文件(靠输入流),写入本地文件(靠输出流)
IOUtils.copyBytes(in, out, conf);
// 关闭文件字节输出流
out.close();
// 关闭文件系统数据字节流输入流
in.close();
// 关闭文件系统
fs.close();
// 提示用户文件下载成功
System.out.println("文件[" + path + "]下载到本地文件[download/exam.txt]!");
}
read2()
测试方法,查看结果hdfs dfs -mv
命令net.hw.hdfs
包里创建RenameDirOrFile
类/ied01
目录更名为/lzy01
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import java.net.URI;
@Test
public void renameDir() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义统一资源标识符(uri: uniform resource identifier)
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象(基于HDFS的文件系统)
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建源路径对象(指向目录)
Path sourcePath = new Path(uri + "/ied01");
// 创建目标路径对象(指向目录)
Path destinationPath = new Path(uri + "/lzy01");
// 利用文件系统对象重命名目录
fs.rename(sourcePath, destinationPath);
// 关闭文件系统
fs.close();
// 提示用户目录更名成功
System.out.println("目录[" + sourcePath.getName() + "]更名为目录[" + destinationPath.getName() + "]!");
}
renameDir()
方法,查看结果lzy01
目录下的hello.txt
重命名为hi.txt
renameFile()
方法@Test
public void renameFile() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义统一资源标识符(uri: uniform resource identifier)
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象(基于HDFS的文件系统)
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建源路径对象(指向文件)
Path sourcePath = new Path(uri + "/lzy01/hello.txt");
// 创建目标路径对象(指向文件)
Path destinationPath = new Path(uri + "/lzy01/hi.txt");
// 利用文件系统对象重命名文件
fs.rename(sourcePath, destinationPath);
// 关闭文件系统
fs.close();
// 提示用户文件更名成功
System.out.println("文件[" + sourcePath.getName() + "]更名为文件[" + destinationPath.getName() + "]!");
}
renameFile()
测试方法,查看结果net.hw.hdfs
包里创建ListHDFSFiles
类import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.LocatedFileStatus;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.RemoteIterator;
import org.junit.Test;
import java.net.URI;
/lzy01
目录下的文件列表list1()
方法@Test
public void list1() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建远程迭代器对象,泛型是位置文件状态类(相当于`hdfs dfs -ls -R /lzy01`)
RemoteIterator ri = fs.listFiles(new Path("/lzy01"), true);
// 遍历远程迭代器
while (ri.hasNext()) {
System.out.println(ri.next());
}
}
list1()
测试方法,查看结果list2()
方法list2()
测试方法,查看结果/lzy01/hadoop-3.3.4.tar.gz
文件块信息net.hw.hdfs
包里创建GetBlockLocations
类hadoop-3.3.4.tar.gz
被hadoop物理切分成6
块,前5
块长度均为134217728
字节(128
MB),第6
块长度为24369142
字节(23.24
MB)/ied01
目录net.hw.hdfs
包里创建MakeDirOnHDFS
类import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.net.URI;
public class MakeDirOnHDFS {
public static void main(String[] args) throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象,指向目录
Path path = new Path("/ied01");
// 利用文件系统创建指定目录
boolean result = fs.mkdirs(path);
// 判断目录是否创建成功
if (result) {
System.out.println("目录[" + path + "]创建成功!" );
} else {
System.out.println("目录[" + path + "]创建失败!" );
}
}
}
/ied01
目录是否存在,判断/ied01/hadoop.txt
文件是否存在net.hw.hdfs
包里创建DirFileExistsOrNot
类编写dirExists()
方法
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import java.net.URI;
public class DirFileExistsorNot {
@Test
public void dirExists() throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象,指向目录
Path path = new Path("/ied01");
// 判断目录是否存在
if (fs.exists(path)) {
System.out.println("目录[" + path + "]存在!");
} else {
System.out.println("目录[" + path + "]不存在!");
}
}
}
net.hw.hdfs
包里创建PathToFileOrDir
类 import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import java.net.URI;
public class PathToFileOrDir {
public static void main(String[] args) throws Exception {
// 创建配置对象
Configuration conf = new Configuration();
// 设置数据节点主机名属性
conf.set("dfs.client.use.datanode.hostname", "true");
// 定义uri字符串
String uri = "hdfs://192.168.219.75:9000";
// 创建文件系统对象
FileSystem fs = FileSystem.get(new URI(uri), conf, "root");
// 创建路径对象,指向目录
Path path1 = new Path("/ied01");
if (fs.isDirectory(path1)) {
System.out.println("[" + path1 + "]指向的是目录!");
} else {
System.out.println("[" + path1 + "]指向的是文件!");
}
// 创建路径对象,指向文件
Path path2 = new Path("/lzy01/test.txt");
if (fs.isFile(path2)) {
System.out.println("[" + path2 + "]指向的是文件!");
} else {
System.out.println("[" + path2 + "]指向的是目录!");
}
}
}
/lzy01/test2.txt
文件net.hw.hdfs
包里创建DeleteFileOrDir
类import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.junit.Test;
import java.net.URI;
deleteFile()
方法@Test
public void deleteFile1() throws Exception {
Configuration conf = new Configuration();
String uri = "hdfs://192.168.219.75:9000";
FileSystem fs = FileSystem.get(new URI(uri), conf);
Path path = new Path("/lzy01/hadoop.txt");
boolean result = fs.delete(path, true);
if (result) {
System.out.println("文件[" + path + "]删除成功!");
} else {
System.out.println("文件[" + path + "]删除失败!");
}
}
deleteFile()
测试方法,查看结果deleteFile2()
方法 //判断文件是否存在,在进行删除
@Test
public void deleteFile2() throws Exception {
Configuration conf = new Configuration();
String uri = "hdfs://192.168.219.75:9000";
FileSystem fs = FileSystem.get(new URI(uri), conf);
Path path = new Path("/lzy01/hadoop.txt");
if (fs.exists(path)) {
boolean result = fs.delete(path, true);
if (result) {
System.out.println("文件[" + path + "]删除成功!");
} else {
System.out.println("文件[" + path + "]删除失败!");
}
} else {
System.out.println("文件[" + path + "]不存在!");
}
}
deleteFile()
测试方法,查看结果/ied01
目录/ied01
目录deleteDir()
方法,查看结果再运行deleteDir()
方法,查看结果
/lzy01
目录下的test.txt
delete()
方法//删除/lzy01目录下的test1.txt 判断类型(目录或文件)、判断是否存在、判断删除是否成功。
@Test
public void delete() throws Exception {
Configuration conf = new Configuration();
String uri = "hdfs://192.168.219.75:9000";
FileSystem fs = FileSystem.get(new URI(uri), conf);
Path path1 = new Path("/lzy01/test.txt");
String type = "";
if (fs.isFile(path1)) {
type = "文件";
} else {
type = "目录";
}
if (fs.exists(path1)) {
boolean result = fs.delete(path1, true);
if (result) {
System.out.println(type + "[" + path1 + "]删除成功!");
} else {
System.out.println(type + "[" + path1 + "]删除失败!");
}
} else {
System.out.println(type + "[" + path1 + "]不存在!");
}
Path path2 = new Path("/lzy01");
if (fs.isFile(path1)) {
type = "文件";
} else {
type = "目录";
}
if (fs.exists(path2)) {
boolean result = fs.delete(path1, true);
if (result) {
System.out.println(type + "[" + path2 + "]删除成功!");
} else {
System.out.println(type + "[" + path2 + "]删除失败!");
}
} else {
System.out.println(type + "[" + path2 + "]不存在!");
}
}
delete()
测试方法,查看结果