大数据-第03章 文件管理系统结构原理图(HDFS)

大数据-第03章 文件管理系统结构原理图(HDFS)_第1张图片
一.HDFS流程图解:

(1).HDFS数据写入:存入HDFS文件系统要进行以下几步:
①.客户端向namenode发送请求存入数据
②.namenode开始创建其文本信息(文本存储位置、文本大小、文本各blockID,文本时间等信息)
③.DataNode开始根据NameNode的文件大小信息,分别随机在各空闲的Datanode建立起block块。
④,DataNode向NameNode发送其创建的block块的ID,以及自身的健康状态和使用情况
⑤NameNode更新自己文本信息,并向客户端反应其存储情况。

(2).HDFS数据读取:读取一份HDFS文件系统要进行以下几步
①.客户端向NameNode发送读取请求
②.NameNode向客户端反应请求数据的block的ID
③.客户端根据block块的ID在各DataNode中查找
④.若block块ID相同,则DataNode向客户反应请求数据,若block块的ID在当前DataNode找不到,HDFS会自动查找相邻的DataNode。

二.第二节点的执行步骤
①.SecondaryNameNode定期向NameNode发送请求合并fslmage和editlog(60s一次)。
②.NameNode接收请求,暂停editlog(当editlog的操作记录超过100w条时,我们会默认SecondaryNameNode强制执行③步骤)的写入,并同时生成new editlo,这时客户端的访问操作,全部写入新的editlog。
③. SecondaryNameNode通过HTTP的get方法获取fslmage和editlog
④合并fslmage和editlog生成新的new fslmage.ckpu(检查点文件,当新的检查文件时间与旧的检查文件时间超过1h时,我们一般会默认SecondaryNameNode强制执行③步骤)
⑤通过HTTP的post方法将new fslmage.ckpu与fslmage替换生成新的fslmage
⑥将新的fslmage和editlog加载进入NameNode里面,完成数据的更新。

三.名词解释
1.分布式管理系统
答:分布式管理系统就是使用一个系统来管理多个机器上的文件,这种系统可以成为分布式系统。HDFS就是其中一种。采用主从(Master/Slave)结构模型,一个集群包括一个名称节点和多个数据节点。
2.HDFS系统的支持
答:①支持多次查询,一次写入;②不支持小文件;③不支持并发情况
3. HDFS系统的优势以及局限
答:优势:①兼容廉价的硬件设备;②流数据的读写;③大数据集;④简单的文件模型;⑤强大的跨平台兼容性
局限:①不适合低延迟数据访问;②无法高效存储大量小文件;③不支持多用户写入及任意文件的修改
4.NameNode和DataNode
答:NameNode:主节点也称为数据管理节点/名称节点,存储元数据,数据保存于内存之中,同时保存文件,block,datanode之间的映射关系;接收用户的操作请求,并保存于Fslmage和EditLog中
DataNode:从节点也称为数据节点/工作节点,存储文件内容,保存于磁盘中,维护block id到datanode本地文件的映射关系;并定期向名称节点发送自己所存储的块的列表。
例如:将一份文件存入c盘中,那么namenode里面只是记载文件的名称、大小、以及c盘的文件地址、时间,datanode记载就是c盘文件本身的内容,以及文件位置变化、大小变换的信息返回给namenode。
5. Fslmage和EditLog
答:Fslmage:用于维护文件系统数以及文件数中所有的文件和文件夹的元数据;EditLog:记录了所有针对文件的创建、删除、重命名操作,节点:记录了每一个文件中各个块所在的数据节点的位置信息。
6.NameNode持久化
答:NameNode在运行时,信息一般存储于内存中,其数据也可以存储与磁盘中,存储于磁盘中就称为NameNode持久化。在持久化过程中,editlog会个flsmage合并,从而得到一个新的快照,维护数据,使数据一直处于最新状态中。
7. SecondaryNameNode(第二名称节点)
答:第二名称节:用于保存名称节点中对HDFS元数据信息的备份,并减少名称节点的重启时间,一般是单独运行与一台机器。(NameNode一旦重启,用户无法访问,会出现数据崩溃或者遗失,因此需要第二名称节点来维护数据,是数据一直处于最新状态,避免或者减少NameNode重启。)
8.block(文本块)
答:block:最基本存储单位,HDFS默认大小为:128M,一般默认为3个block块。为HDFS抽象出来的,具有以下好处:①支持大规模文件存储;②简化系统设计;③适合数据备份。
9. HDFS系统概述
答:HDFS:采用主从(Master/Slave)结构模型,一个集群包括一个名称节点和多个数据节点。名称节点作为中心服务器,负责管理文件系统的命名空间及客户端对文件的访问。集群中的数据节点一般是一个节点运行一个数据节点进程,负责处理文件系统客户端的读/写请求,在名称节点的统一调度下进行数据块的创建、删除和复制等操作。每个数据节点的数据实际上是保存在本地Linux文件系统中的
10. HDFS局限性
答:①命名空间的限制;②性能的瓶颈;③隔离的问题;④集群的可用性。
11. 冗余数据保存优势
答:分布式文件系统,为了保证系统数据的容错性和可用性,HDFS采用多副本方式对数据进行冗余存储。其具有以下优势:①加快数据传输速度;②容易检查数据错误;③保证数据的可靠性

你可能感兴趣的:(大数据)