分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群。
分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类:
HDFS的优势
HDFS的局限性
存储块
HDFS默认一个块64MB,一个文件被分成多个块,以块作为存储单位块的大小远远大于普通文件系统,可以最小化寻址开销。
名称节点
在HDFS中,名称节点(NameNode)负责管理分布式文件系统的命名空间(Namespace),保存了两个核心的数据结构,即FsImage和EditLog
第二名称节点
第二名称节点是HDFS架构中的一个组成部分,它是用来保存名称节点中对HDFS 元数据信息的备份,并减少名称节点重启的时间。SecondaryNameNode一般是单独运行在一台机器上
在名称节点运行期间,HDFS的所有更新操作都是直接写到EditLog中,久而久之, EditLog文件将会变得很大,所以这时可以使用SecondaryNameNode进行解决。
工作流程
数据节点
概述
命名空间
通信协议
客户端
局限性
命名空间的限制
:名称节点是保存在内存中的,因此,名称节点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制。性能的瓶颈
:整个分布式文件系统的吞吐量,受限于单个名称节点的吞吐量。隔离问题
:由于集群中只有一个名称节点,只有一个命名空间,因此,无法对不同应用程序进行隔离。集群的可用性
:一旦这个唯一的名称节点发生故障,会导致整个集群变得不可用。冗余数据保存
作为一个分布式文件系统,为了保证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储,通常一个数据块的多个副本会被分布到不同的数据节点上。
数据存取策略
存放
读取
当客户端读取数据时,从名称节点获得数据块不同副本的存放位置列表,列表中包含了副本所在的数据节点,可以调用API来确定客户端和这些数据节点所属的机架ID,当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时,就优先选择该副本读取数据,如果没有发现,就随机选择一个副本读取数据
数据错误恢复
HDFS具有较高的容错性,可以兼容廉价的硬件,它把硬件出错看作一种常态,而不是异常,并设计了相应的机制检测数据错误和进行自动恢复。
名称节点出错
名称节点保存了所有的元数据信息,其中,最核心的两大数据结构是FsImage和Editlog,如果这两个文件发生损坏,那么整个HDFS实例将失效。因此,HDFS设置了备份机制,把这些核心文件同步复制到备份服务器SecondaryNameNode上。当名称节点出错时,就可以根据备份服务器SecondaryNameNode中的FsImage和Editlog数据进行恢复。
数据节点出错
由于一些数据节点的不可用,会导致一些数据块的副本数量小于冗余因子,名称节点会定期检查这种情况,一旦发现某个数据块的副本数量小于冗余因子,就会启动数据冗余复制,为它生成新的副本。
数据出错
当客户端读取文件的时候,会先读取该信息文件,然后,利用该信息文件对每个读取的数据块进行校验,如果校验出错,客户端就会请求到另外一个数据节点读取该文件块,并且向名称节点报告这个文件块有错误,名称节点会定期检查并且重新复制这个块。
读数据
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl",
"org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
Path file = new Path("test");
FSDataInputStream getIt = fs.open(file);
BufferedReader d =
new BufferedReader(new InputStreamReader(getIt));
String content = d.readLine(); //读取文件一行
System.out.println(content);
d.close(); //关闭文件
fs.close(); //关闭hdfs
} catch (Exception e) {
e.printStackTrace();
}
}
}
写数据
public class Chapter3 {
public static void main(String[] args) {
try {
Configuration conf = new Configuration();
conf.set("fs.defaultFS","hdfs://localhost:9000");
conf.set("fs.hdfs.impl",
"org.apache.hadoop.hdfs.DistributedFileSystem");
FileSystem fs = FileSystem.get(conf);
byte[] buff = "Hello world".getBytes(); // 要写入的内容
String filename = "test"; //要写入的文件名
FSDataOutputStream os = fs.create(new Path(filename));
os.write(buff,0,buff.length);
System.out.println("Create:"+ filename);
os.close();
fs.close();
} catch (Exception e) {
e.printStackTrace();
}
}
}
安装好 hadoop 环境并启动 hdfs 服务之后,可以执行 hdfs shell 命令进行对 hdfs 的空间进行操作。
查看所有基础命令
hdfs dfs -help
查看所有管理命令
hadoop dfsadmin -help
查看文件内容
hdfs dfs -cat /文件路径
查看目录列表
hdfs dfs -ls /目录
创建目录
hdfs dfs -mkdir -p /目录
创建文件
hdfs dfs -touchz /文件路径
下载文件
hdfs dfs -get /文件路径 /本地保存路径
移动文件
hdfs dfs -mv /文件路径 /新的路径
删除文件
hdfs dfs -rmr /文件路径
上传文件
hdfs dfs -put /本地文件路径 /hdfs保存路径
内容追加
hdfs dfs -appendToFile /新的文件路径 /需要添加内容的文件路径
修改文件所属组
hdfs dfs -chgrp -R root /文件路径
修改文件的权限
hdfs dfs -chmod -R 777 /文件路径
设置好 hadoop 以及 hdfs 环境所需要的Jar包依赖之后,可以通过代码的方式对 hdfs 的空间进行操作。
创建目录
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 创建目录
*/
@Test
public void testMkdir() throws Exception {
boolean flag = fs.mkdirs(new Path("/目录"));
System.out.println(flag ? "创建成功" : "创建失败");
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
显示目录列表
public class HdfsTest {
private FileSystem fs = null;
private List<String> hdfsPathsLists;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 显示目录列表
*/
@Test
public void getDirList() throws Exception{
hdfsPathsLists = new ArrayList<>();
getHdfsPaths(new Path("/目录"));
for(String p : hdfsPathsLists){
System.out.println(p);
}
}
/**
* 采用递归获取目录及目录下文件
*/
private void getHdfsPaths(Path path) throws Exception{
FileStatus[] dirs = fs.listStatus(path);
for (FileStatus s : dirs){
hdfsPathsLists.add(s.getPath().toString());
if(s.isDirectory()){
getHdfsPaths(s.getPath());
}
}
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
删除目录
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 删除目录
*/
@Test
public void testRMdir() throws Exception {
boolean flag = fs.deleteOnExit(new Path("/目录"));
System.out.println(flag ? "删除成功" : "删除失败");
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
判断文件是否存在
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 判断文件是否存在
*/
@Test
public void testexistsFile() throws Exception{
String src = "hdfs://IP地址:9000/文件路径";
boolean flag = fs.exists(new Path(src));
if(flag){
System.out.println("文件存在");
}else {
System.out.println("文件不存在");
}
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
判断是否是文件或目录
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 判断是否是文件或目录
*/
@Test
public void testfilesFile() throws Exception {
String src = "hdfs://IP地址:9000/文件路径或目录";
boolean flag = fs.isDirectory(new Path(src));
if(flag){
System.out.println("是目录");
}else if(fs.isFile(new Path(src))){
System.out.println("是文件");
}else{
System.out.println("不存在");
}
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
文件重命名
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 文件重命名
*/
public void testrenameFile() throws Exception{
String oldname = "hdfs://IP地址:9000/原文件路径";
String newname = "hdfs://IP地址:9000/新文件路径";
fs.rename(new Path(oldname), new Path(newname));
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
文件移动
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* HDFS上的文件移动到本地
*/
@Test
public void testmovetolocalFile() throws Exception {
String src = "hdfs://IP地址:9000/文件路径";
String desc = "/本地路径";
fs.moveToLocalFile(new Path(src), new Path(desc));
}
/**
* 本地文件移动到HDFS上
*/
@Test
public void testmovetohdfsFile() throws Exception {
String src = "/本地文件路径";
String desc = "hdfs://IP地址:9000/路径";
fs.moveFromLocalFile(new Path(src), new Path(desc));
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
上传文件
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 上传文件
*/
public void testUploadFile()throws Exception {
String src="/本地文件路径";
String desc= "/HDFS上的路径";
fs.copyFromLocalFile(new Path(src), new Path(desc));
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
下载文件
public class HdfsTest {
private FileSystem fs = null;
/**
* 连接HDFS
*/
@Before
public void init() throws Exception {
fs = FileSystem.get(new URI("hdfs://IP地址:9000"),new Configuration(),"root");
}
/**
* 下载文件
*/
public void testDownloadFile() throws Exception{
String src= "/HDFS上的文件路径";
String desc="/本地路径";
fs.copyToLocalFile(new Path(src), new Path(desc));
}
/**
* 关闭HDFS
*/
@After
public void close()throws Exception{
fs.close();
}
}
文件合并
public class HdfsTest {
public static void main(String[] args) {
Configuration conf = new Configuration();
try {
// 获得hdfs文件系统的对象
FileSystem hdfs = FileSystem.get(conf);
// 获得本地文件系统对象
FileSystem local = FileSystem.getLocal(conf);
// 设定输入目录
Path inputDir = new Path("HDFS上的路径");
// 设定输出目录
Path hdfsFile = new Path("/本地路径");
// 获得目录中的文件列表
FileStatus [] inputFiles = local.listStatus(inputDir);
// 生成HDFS输出流
FSDataOutputStream out = hdfs.create(hdfsFile);
for(int i= 0;i<inputFiles.length;i++){
System.out.println(inputFiles[i].getPath().getName());
FSDataInputStream in = local.open(inputFiles[i].getPath());
byte[] buffer = new byte[256];
int bytesRead = 0;
while((bytesRead = in.read(buffer))>0){
out.write(buffer,0,bytesRead);
}
in.close();
}
out.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
文件内容追加
public class HdfsTest {
public static void main(String[] args) throws Exception {
Configuration con = new Configuration();
con.setBoolean("dfs.support.append", true);
// 初始化 FileSystem
FileSystem fs = FileSystem.get(new URI("hdfs://IP地址:9000"),con,"root");
// 定义本地文件输入文件路径
String inpath = "本地文件路径";
// 定义追加到hadoop上的文件路径
String hdfsFilePath="/HDFS上的文件路径";
// 判断是否在hdfs上存在该文件
boolean isFile=fs.isFile(new Path(hdfsFilePath));
if(!isFile){
fs.createNewFile(new Path(hdfsFilePath));
}
// 定义输入流
InputStream in = new BufferedInputStream(new FileInputStream(inpath));
OutputStream out = fs.append(new Path(hdfsFilePath));
// 开始传输
IOUtils.copyBytes(in, out, 4096, true);
}
}