HDFS介绍

HDFS(Hadoop Distributed File System)是一个可扩展、容错、高性能的分布式文件系统,异步复制,一次写入多次读取,主要负责存储。
对外部客户端而言,HDFS就像是一个传统的分级文件系统,可以进行创建、删除、移动或重命名文件或文件夹等操作。但是HDFS的架构是根据一组特定的节点构建,这些节点包括:NameNode(在HDFS中提供元数据服务),Secondary NameNode(NameNode的帮助节点,主要是为了整合元数据操作),DateNode(为HDFS提供存储块)
存储在HDFS中的数据被分成块,然后这些块被复制到多个DateNode中,HDFS内部的所有通信都基于标准的TCP/IP协议。
NameNode: 负责管理文件系统名称空间和控制外部客户机的访问。
DateNode: DateNode通常以机架的形式组织,机架通过一个交换机将所有系统连接起来,数据节点响应来自客户机的读写请求。DateNode和NameNode之间通过定期心跳来传输消息。
Secondary NameNode: 为HDFS中的NameNode提供一个Checkpoint。
HDFS内部运作:
HDFS介绍_第1张图片
文件在客户端时会被分块,这里可以看到文件被分为5个块,分别是A,B,C,D,E。同时为了负载均衡,所以每个节点有三个块。
1. 客户端将要上传的文件按128MB的大小分块
2. 客户端向名称节点发送写数据请求
3. 名称节点记录各个DataNode信息,并返回可用的DateNode列表
4. 客户端直接向DataNode发送分割后的文件块,发送过程以流式写入
5. 写入完成后,DataNode向NameNode发送消息,更新元数据

你可能感兴趣的:(Hadoop,HDFS,Hadoop,基础)