大数据生态圈之HDFS的基本原理

HDFS集群分为两大角色:NameNode、DataNode (Secondary Namenode)
其中,NameNode负责管理整个文件系统的元数据,DataNode 负责管理用户的文件数据块,本文就分别介绍这2个角色的工作原理。

文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上,每一个文件块可以有多个副本,并存放在不同的datanode上.Datanode会定期向Namenode汇报自身所保存的文件block信息(心跳机制),而namenode则会负责保持文件的副本数量。
HDFS的内部工作机制对客户端保持透明,客户端请求访问HDFS都是通过向namenode申请来进行,也就是说客户端不能直接对datanode进行操作。

HDFS写数据流程

大数据生态圈之HDFS的基本原理_第1张图片
hdfs传文件.png

你可能感兴趣的:(大数据生态圈之HDFS的基本原理)