漫画解读HDFS机制

原文http://www.cstor.cn/textdetail_10211.html?ref=myread

根据Maneesh Varshney的漫画改编,以简洁易懂的漫画形式讲解HDFS存储机制与运行原理。

 

  一、角色出演

  

漫画解读HDFS机制_第1张图片

  如上图所示,HDFS存储相关角色与功能如下:

 

  Client:客户端,系统使用者,调用HDFS API操作文件;与NN交互获取文件元数据;与DN交互进行数据读写。

 

  Namenode:元数据节点,是系统唯一的管理者。负责元数据的管理;与client交互进行提供元数据查询;分配数据存储节点等。

 

  Datanode:数据存储节点,负责数据块的存储与冗余备份;执行数据块的读写操作等。

 

  二、写入数据

 

  1、发送写数据请求

  

漫画解读HDFS机制_第2张图片

  HDFS中的存储单元是block。文件通常被分成64或128M一块的数据块进行存储。与普通文件系统不同的是,在HDFS中,如果一个文件大小小于一个数据块的大小,它是不需要占用整个数据块的存储空间的。

 

  2、文件切分

  

漫画解读HDFS机制_第3张图片

  3、DN分配

  

漫画解读HDFS机制_第4张图片

  

漫画解读HDFS机制_第5张图片

  4、数据写入

  

漫画解读HDFS机制_第6张图片

  

漫画解读HDFS机制_第7张图片

  5、完成写入

  

漫画解读HDFS机制_第8张图片

  

漫画解读HDFS机制_第9张图片

  

漫画解读HDFS机制_第10张图片

  6、角色定位

  

漫画解读HDFS机制_第11张图片

  三、HDFS读文件

 

  1、用户需求

  

漫画解读HDFS机制_第12张图片

  HDFS采用的是“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题,并且使高吞吐量的数据访问成为可能。

 

  2、先联系元数据节点

  

漫画解读HDFS机制_第13张图片

  

漫画解读HDFS机制_第14张图片

  

漫画解读HDFS机制_第15张图片

  3、下载数据

  

漫画解读HDFS机制_第16张图片

  前文提到在写数据过程中,数据存储已经按照客户端与DataNode节点之间的距离进行了排序,距客户端越近的DataNode节点被放在最前面,客户端会优先从本地读取该数据块。

 

  4、思考

  

漫画解读HDFS机制_第17张图片

  四、HDFS容错机制——第一部分:故障类型及监测方法

 

  1、三类故障

 

  (1)第一类:节点失败

  

漫画解读HDFS机制_第18张图片

  (2)第二类:网络故障

  

漫画解读HDFS机制_第19张图片

  (3)第三类:数据损坏(脏数据)

  

漫画解读HDFS机制_第20张图片

  2、故障监测机制

 

  (1)节点失败监测机制

  

漫画解读HDFS机制_第21张图片

  

漫画解读HDFS机制_第22张图片

  

漫画解读HDFS机制_第23张图片

  (2)通信故障监测机制

  

漫画解读HDFS机制_第24张图片

  (3)数据错误监测机制

  

漫画解读HDFS机制_第25张图片

  

漫画解读HDFS机制_第26张图片

  

漫画解读HDFS机制_第27张图片

  3、回顾:心跳信息与数据块报告

  

漫画解读HDFS机制_第28张图片

  HDFS存储理念是以最少的钱买最烂的机器并实现最安全、难度高的分布式文件系统(高容错性低成本),从上可以看出,HDFS认为机器故障是种常态,所以在设计时充分考虑到单个机器故障,单个磁盘故障,单个文件丢失等情况。

 

  五、容错第二部分:读写容错

 

  1、写容错

  

漫画解读HDFS机制_第29张图片

  

漫画解读HDFS机制_第30张图片

  

漫画解读HDFS机制_第31张图片

  

漫画解读HDFS机制_第32张图片

  2、读容错

  

漫画解读HDFS机制_第33张图片

  

漫画解读HDFS机制_第34张图片

  六、容错第三部分:数据节点(DN)失效

  

漫画解读HDFS机制_第35张图片

  

漫画解读HDFS机制_第36张图片

  

漫画解读HDFS机制_第37张图片

  

漫画解读HDFS机制_第38张图片

  

漫画解读HDFS机制_第39张图片

  

漫画解读HDFS机制_第40张图片

  七、备份规则

  

漫画解读HDFS机制_第41张图片

  1、机架与数据节点

  

漫画解读HDFS机制_第42张图片

  2、副本放置策略

  

漫画解读HDFS机制_第43张图片

  数据块的第一个副本优先放在写入数据块的客户端所在的节点上,但是如果这个客户端上的数据节点空间不足或者是当前负载过重,则应该从该数据节点所在的机架中选择一个合适的数据节点作为本地节点。

 

  如果客户端上没有一个数据节点的话,则从整个集群中随机选择一个合适的数据节点作为此时这个数据块的本地节点。

  

漫画解读HDFS机制_第44张图片

  HDFS的存放策略是将一个副本存放在本地机架节点上,另外两个副本放在不同机架的不同节点上。

 

  这样集群可在完全失去某一机架的情况下还能存活。同时,这种策略减少了机架间的数据传输,提高了写操作的效率,因为数据块只存放在两个不同的机架上,减少了读取数据时需要的网络传输总带宽。这样在一定程度上兼顾了数据安全和网络传输的开销。

  

漫画解读HDFS机制_第45张图片

  

漫画解读HDFS机制_第46张图片

你可能感兴趣的:(漫画解读HDFS机制)