HDFS架构--Hadoop技术内幕读书笔记

HDFS架构--Hadoop技术内幕读书笔记

HDFS的架构如上图,总体采用master/slave架构,主要有Client、NameNode、DataNode、SecondaryNameNode组成。

1、Client

Client代表用户,通过与NameNode和DataNode交互从而访问HDFS中的文件。Client提供了一个类似POSIX的文件系统接口供用户调用。

2、NameNode

整个Hadoop集群中只有一个NameNode。负责管理HDFS的目录树和相关文件的元数据信息。

NameNode还负责监控各个DataNode的健康状态,一旦发现某个DataNode宕机,则将该DataNode移出HDFS并重新备份其上面的数据。

3、Secondary NameNode

Secondary NameNode最重要的任务不是为NameNode元数据进行热备份,而是定期合并fsimage和edits日志,并传输给NameNode。这里需要注意的是,为了减小NameNode压力,NameNode自己并不会合并fsimage和edits,并将文件存储到磁盘上,而是交友Secondary Namenode完成。

4、DataNode

每个Slave节点上安装一个DataNode,它负责实际的数据存储,并将数据信息定期的汇报给NameNode。

当用户上传一个文件到HDFS上时,该文件会被切分成若干个block,分别存储到不同的DataNode.。为了保证数据可靠,会将同一个block以流水线的方式写到若干个不同的DataNode。


你可能感兴趣的:(HDFS架构--Hadoop技术内幕读书笔记)