HDFS上传文件的流程

HDFS上传文件的流程_第1张图片


  • 1 客户端通过Distributed FileSystem模块向NameNode请求上传文件,namenode会进行校验
  • 2 namenode返回可以上传
  • 3 客户端请求上传第一个block 到哪几个DataNode上
  • 4 datanode返回三个节点 分别为d1,d3,d6
  • 5 客户端请求d1上传数据 ,d1收到请求会调用d3, d3继续调用d6 ,将这个通信管道建立完成
  • 6 开始传输文件信息,以packet为单位进行传输,以chunk为单位进行校验
  • 7 d1,d3,d6 逐级相应客户端
  • 8 当第一个block传输完成之后,客户端再次请求namenode上传第二个block的服务器(重复3-7步)

上传文件中的一些细节

  • namenode 校验的内容:
    • 1 hdfs的目录结构
    • 2 权限检查
    • 3 集群的状态
    • 4 租约检查

  • click
    • namenode 知道文件分成几块,每次click要求上传block的时候,namenode知道要上传的是哪个block
    • click只负责读数据到缓冲区,click没有分配block的概念
    • namenode知道要上传哪个block,但是知道数据是什么,click知道数据是什么,但是用管这个block叫什么
    • 步骤4 就是把block的名称和实际数据进行映射

三级缓存

  • 1 读取文件
  • 2 把chunk放入packet packet默认是64K chunk默认是512B
  • 3 把packet放入数据队列
  • 4 给到datanode,以packet为单位
  • 5 确认上传 (如果上传成功,ackqueue里面的packet就会被移除)

如果传输过程中,d3断电了

  • d3 ,d6数据都会有问题,默认确认队列中的packet只有在三个datanode全部都确认成功的时候才会被清除
  • 特发状况的容错机制
    • namenode可以动态的调整副本个数
    • namenode可以基于少于副本数,多余最小副本数(1个) 的数据块进行调整
    • 从管道的目标队列中剔除d3,把要传递的packet改一个标识,和之前传的产生区别,所有确认队列中的packet重新加入到数据队列中,重新传输数据

机架感知

  • 与客户端相同机架的不同节点d1
  • 不同机架的节点A d3
  • 与A同机架的节点B d6

你可能感兴趣的:(HDFS)