HDFS 的架构

1.什么是HDFS

HDFS(Hadoop Distributed File System):分布式系统,类似于其他的分布式文件系统,HDFS支持 高度容错,可以部署在廉价的硬件设备上,特别适宜大型的数据集的分布式存储。

2.HDFS的架构

HDFS 的架构_第1张图片

HDFS采⽤用master/slave架构。⼀一个HDFS集群是由⼀一个Namenode和⼀一定数⽬目的Datanodes组成。Namenode是一个中心服务器器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,⽤用户能够以文件的形式在上⾯面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在⼀一组Datanode上。Namenode执行行文件系统的名字空间操作,比如打开、关闭、重命名文件或⽬目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理理⽂文件系统客户端的读写请求。在Namenode的统⼀一调度下进⾏行行数据块的创建、删除和复制。

  1. Namenode:存储系统元数据、namespace 、管理datanode 、接受datanode状态汇报 。
  2. Datanode:存储块数据、响应客户端的块的读写、接收namespace的块管理指令。
  3. Block: HDFS 存储数据的基本单位,默认128MB,实际块大小 0-128MB。
  4. Rack:机架、对datanode所在主机的物理标识、标识主机的位置,优化存储和计算。
  5. 元数据按类型和形式划分
    1. 文件、目录自身的属性信息,例如文件名、目录名、修改信息等。
    2. 文件记录的信息的存储相关信息,例如存储块信息、分块情况、副本个数等。
    3. 记录HDFS的DataNode的信息,用于DataNode的管理。
    4. 按形式分为内存元数据和元数据文件,分别存在内存和磁盘上。

3.HDFS 的存储流程

HDFS 的架构_第2张图片

  1. 业务应用调用HDFS Client 提供的API创建文件,请求写入。
  2. HDFS Client 联系NameNode,NameNode 在元数据中创建文件节点。
  3. 业务应用调用write API 写入文件。
  4. HDFS Client 收到业务数据后,从NameNode获取数据库编号、位置信息后,联系DateNode,并将要写入数据的DateNode j建立起流水线。完成后,客户端再通过自有协议写入数据到DateNode1,再由DataNode1复制到DateNode2,DataNode3.
  5. 写完的数据,将返回确认信息给HDFS Client.
  6. 所有的数据确认完成后,业务调用HDFS Client关闭文件。
  7. 业务调用close ,flush后 HDFS Client 联系NameNode,确认数据写完成,NameNode持久化数据。

4.HDFS 读取流程

HDFS 的架构_第3张图片

  1. 业务调用HDFS Client 提供的API打开文件。
  2. HDFS Client 联系NameNode,获取到文件信息(数据块、DataNode位置信息)。
  3. 业务应用调用read API读取文件。
  4. HDFS Client根据从NmaeNode获取到的信息,联系DateNode,获取相应的数据块。(Client采用就近原则读取数据)。
  5. HDFS Client会与多个DateNode通讯获取数据块。
  6. 数据读取完成后,业务调用close关闭连接。

5.HDFS常见问题

1.为什么HDFS不适合小文件存储

HDFS 的架构_第4张图片
由图可以看出:小文件过多,会过多的占用namenode的内存,并浪费block; HDFS适用于高吞吐量,而不适合低时间延迟的访问,文件过小 ,寻址时间大于数据读取时间,不符合HDFS的设计原则。

你可能感兴趣的:(Hadoop)