HDFS写读文件

一.HDFS - 写文件

    HDFS写读文件_第1张图片

   1.客户端将文件写入本地磁盘临时目录中.                                                                                                                                         2,当文件达到一个block的大小时便向namenode发送写入请求.                                                                                                         3,.NameNode在HDFS的文件系统中创建一个文件,并把该block id和要写入的DataNode的列表返回给客户端.                               4.客户端收到这些信息后,将临时文件写入DataNodes                                                                                                                          

Rack aware(机架感知)

通过配置文件指定机架名和DNS的对应关系

假设复制参数是3,在写入文件时,会在本地的机架保存一份数据,然后在另外一个机架内保存两份数据(同机架内的传输速度快,从而提高性能)

整个HDFS的集群,最好是负载平衡的,这样才能尽量利用集群的优势

二.HDFS - 读文件

HDFS写读文件_第2张图片

 

  1. 客户端向NameNode发送读取请求
  2. NameNod返回回文件的所有block和这些block所在的DataNodes(包括复制节点)
  3. 客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)

三.Hadoop 可靠性

  1. DataNode可以失效

    DataNode会定时发送心跳到NameNode。如果一段时间内NameNode没有收到DataNode的心跳消息,则认为其失效。此时NameNode就会将该节点的数据(从该节点的复制节点中获取)复制到另外的DataNode中

  2. 数据可以毁坏

    无论是写入时还是硬盘本身的问题,只要数据有问题(读取时通过校验码来检测),都可以通过其他的复制节点读取,同时还会再复制一份到健康的节点中

  3. NameNode不可靠

你可能感兴趣的:(Hadoop)