第3章 Hadoop分布式文件系统 学习笔记(二)

3.6 数据流

3.6.1 剖析文件读取

客户端读取HDFS数据.png
  • 1、客户端调用DistributedFileSystem.open方法以打开希望读取的文件,DistributedFileSystem初始化的时候(参见:java.util.ServiceLoader加载服务实现类)创建了一个DFSClient实例,DFSClient通过RPC向namenode发送请求获取文件块位置,对于每个数据块,namenode返回该块所有复本datanode地址,这些datanode根据它们与客户端的距离排序,若客户端本身就是一个datanode,那么该客户端会从本地读取数据。
  • 2、DistributedFileSystem.open返回一个FSDataInputStream对象,该对象封装了一个DFSInputStreamDFSInputStream封装了DFSClient、Datanode、LocatedBlock
  • 3、FSDataInputStream.read,反复调用,达到块末端,DFSInputStream关闭与datanode连接,寻找下一个块的最佳datanode。若DFSInputStream与datanode通信时发生错误,会尝试从邻近datanode读取数据。

可以将namenode理解为服务发现组件,datanode为真正服务响应组件。

  • 带宽很稀缺,将两节点间带宽作为距离的衡量标准。
    如下场景,可用带宽依次递减:
    distance(/d1/r1/n1, /d1/r1/n1) = 0(同一节点上进程)
    distance(/d1/r1/n1, /d1/r1/n2) = 2(同机架不同节点)
    distance(/d1/r1/n1, /d1/r2/n3) = 4(同数据中心不同机架)
    distance(/d1/r1/n1, /d2/r3/n4) = 6(不同数据中心)

3.6.2 剖析文件写入

HDFS文件写入.png
  • 1、DistributedFileSystem.create创建文件,DistributedFileSystem向namenode发送文件创建RPC请求,namenode检查文件是否存在及用户是否有创建文件权限,若不通过,抛出IO异常
  • 2、DistributedFileSystem返回一个FSDataOutputStream,其封装了一个DFSOutputStream,该对象负责datanode与namenode间通信
  • 3、客户端写入数据时,DFSOutputStream将它分成一个个数据包,并写入内部队列(数据队列data queue),DataStreamer处理数据队列,先挑选一组适合存储数据复本的datanode,并据此要求namenode分配新的数据块,这组datanode构成一个管线,DataStreamer将数据包流式传输到第一个datanode,该datanode存储数据包并将它发送到第二个datanode,同样第二个往第三个datanode传输数据。
  • 4、DFSOutputStream维护一个内部数据包队列(确认队列ack queue),管道中所有datanode发送ack消息后,数据包才从队列移除。

复本存放

  • 1、运行客户端的节点存放第一个复本,若客户端运行于集群之外,则随机选择一个节点,系统会尽量避免选择磁盘太满或太忙节点;
  • 2、第2个复本存放于不同机架随机节点(离架)
  • 3、第3个复本与第2个复本同一个机架,不同节点
  • 4、其他节点随机存放,尽量不在同一机架存放太多复本

3.6.3 一致模型(coherency model)

  • 1、新建文件,立即可见
  • 2、写入文件内容(即使已刷新并存储,out.flush()),不保证立即可见,当写入的数据超过一个块,第一个块对新reader可见,正在写入的块对其他reader不可见。

两种强刷缓存至所有datanode手段

  • FSDataInputStream.hflush()后,FSDataInputStream.close()隐含执行了hflush()方法,HDFS保证文件中到目前为止写入的数据均到达所有datanode写入管道并对所有reader可见,不保证数据写入磁盘,可能丢失;
  • FSDataInputStream.hsync()后,刷新到磁盘。

调用hflush存在额外性能开销,hsync性能开销更大,需要在数据鲁棒性和性能之间取得平衡。

你可能感兴趣的:(第3章 Hadoop分布式文件系统 学习笔记(二))