HDFS分布文件系统(Hadoop Distributed File System)

目录

一.HDFS的本质

二.HDFS的架构与原理

三、HDFS特性

四.HDFS的常用命令 

1.显示HDFS指定路径下的所有文件

2.在HDFS上创建文件夹

3.上传本地文件到HDFS 

4.查看文件

5.删除HDFS上的文件或者目录

6.修改指定文件的权限信息(读、写、执行)

一般语法:chmod [可选项]

五、HDFS实战应用

六、总结


一.HDFS的本质

Hadoop Distributed File System(HDFS)是Hadoop的核心组件之一,它是一个高度容错性的分布式文件系统,能够处理超大规模数据集。HDFS被设计成运行在廉价硬件上,能够自动检测并处理硬件故障,从而提供高可用性和高可靠性。HDFS采用主/从(Master/Slave)架构,主要由NameNode和DataNode两类节点组成。它本质还是程序,主要还是以树状目录结构来管理文件(和linux类似,/表示根路径),且可以运行在多个节点上(即分布式)。

二.HDFS的架构与原理

  1. NameNode:即是master:
    • 管理HDFS的命名空间
    • 配置副本策略
    • 惯例数据块Blocks的映射欣喜
    • 处理客户端读写请求
  2. DataNode:即是slave:
    • master下达命令,DataNode执行操作
    • 存储实际的数据块
    • 执行数据块的读/写操作
  3. Clinet:客户端
    • 文件切分。文件上传HDFS时,Client将文件切分成一个个Block后上传
    • 与NameNode交互,获取文件的位置信息
    • 与DataNode交互,读取或写入数据
    • Client提供一些命令来管理HDFS,如NameNode语法化
    • Client通过一些命令来访问HDFS,如HDFS增删改查操作
  4. Secondary NameNode
    • 辅助NameNode,分单其工作量,如定期合并simage和Edits,并推送给NameNode
    • 在紧急情况下,可以辅助恢复NameNode

HDFS分布文件系统(Hadoop Distributed File System)_第1张图片 

 

三、HDFS特性

高可靠性

HDFS通过数据块的冗余存储和NameNode的元数据备份机制来实现高可靠性。当某个DataNode出现故障时,HDFS可以从其他DataNode中读取相同的数据块来恢复数据。同时,NameNode的元数据也会被定期备份到多个节点上,以防止单点故障导致数据丢失。

高可扩展性

HDFS采用分布式架构,可以方便地添加新的DataNode来扩展存储容量。同时,HDFS的元数据管理也支持水平扩展,可以通过增加NameNode的数量来提高元数据的处理能力。

高性能

HDFS通过数据块的并行处理和传输来提高数据处理效率。同时,HD

你可能感兴趣的:(hdfs,hadoop,大数据)