Hadoop系列--Hadoop基本架构之HDFS架构

1 Hadoop基本架构

Hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce。
在Hadoop中,MapReduce底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单的配置后,存储在该文件系统上的数据便可以被MapReduce处理。
Hadoop默认使用的分布式文件系统是HDFS(Hadoop Distributed File System)。

2 HDFS架构

HDFS是一个具有高容错性的分布式文件系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问。

2.1 HDFS基本组成

HDFS的架构如下图所示:
Hadoop系列--Hadoop基本架构之HDFS架构_第1张图片

2.2 各部分详解

1.Client
Client代表用户,通过与NameNode和DataNode交互访问HDFS中的文件。Client提供了一个文件系统接口供用户调用。
2.NameNode
在整合Hadoop集群中,NameNode只有一个,它是整个系统的“大大管家”,
它的主要功能如下:

  • 负责管理HDFS的目录树和相关文件元数据信息

这些信息以fsimage(HDFS元数据镜像文件)和editlog(HDFS文件改动日志)两种文件的形式存放在本地磁盘,当HDFS重启时重新构造出来。

  • 负责监控各个DataNode的健康状态

3.Secondary NameNode
Secondary NameNode,字如其名,它作为NameNode的得力“助手”,作用于本地磁盘与NameNode之间,负责定期将NameNode管理的两个文件–fsimage和editlog合并,并将它们传输给NameNode。
4.DataNode
从master/slave的角度来看,每一个slave节点上都会安装一个DataNode,它负责实际的、具体的数据存储,并将数据定期传输给NameNode。
即DataNode是数据存储的基本单位。

你可能感兴趣的:(Hadoop系列--Hadoop基本架构之HDFS架构)