第3章 Hadoop分布式文件系统学习笔记（二）

3.6 数据流

3.6.1 剖析文件读取

客户端读取HDFS数据.png

1、客户端调用DistributedFileSystem.open方法以打开希望读取的文件，DistributedFileSystem初始化的时候（参见：java.util.ServiceLoader加载服务实现类）创建了一个DFSClient实例，DFSClient通过RPC向namenode发送请求获取文件块位置，对于每个数据块，namenode返回该块所有复本datanode地址，这些datanode根据它们与客户端的距离排序，若客户端本身就是一个datanode，那么该客户端会从本地读取数据。

2、DistributedFileSystem.open返回一个FSDataInputStream对象，该对象封装了一个DFSInputStream，DFSInputStream封装了DFSClient、Datanode、LocatedBlock；

3、FSDataInputStream.read，反复调用，达到块末端，DFSInputStream关闭与datanode连接，寻找下一个块的最佳datanode。若DFSInputStream与datanode通信时发生错误，会尝试从邻近datanode读取数据。

可以将namenode理解为服务发现组件，datanode为真正服务响应组件。

带宽很稀缺，将两节点间带宽作为距离的衡量标准。
如下场景，可用带宽依次递减：
distance(/d1/r1/n1, /d1/r1/n1) = 0(同一节点上进程)
distance(/d1/r1/n1, /d1/r1/n2) = 2(同机架不同节点)
distance(/d1/r1/n1, /d1/r2/n3) = 4(同数据中心不同机架)
distance(/d1/r1/n1, /d2/r3/n4) = 6(不同数据中心)

3.6.2 剖析文件写入

HDFS文件写入.png

1、DistributedFileSystem.create创建文件，DistributedFileSystem向namenode发送文件创建RPC请求，namenode检查文件是否存在及用户是否有创建文件权限，若不通过，抛出IO异常

2、DistributedFileSystem返回一个FSDataOutputStream，其封装了一个DFSOutputStream，该对象负责datanode与namenode间通信

3、客户端写入数据时，DFSOutputStream将它分成一个个数据包，并写入内部队列（数据队列data queue），DataStreamer处理数据队列，先挑选一组适合存储数据复本的datanode，并据此要求namenode分配新的数据块，这组datanode构成一个管线，DataStreamer将数据包流式传输到第一个datanode，该datanode存储数据包并将它发送到第二个datanode，同样第二个往第三个datanode传输数据。

4、DFSOutputStream维护一个内部数据包队列（确认队列ack queue），管道中所有datanode发送ack消息后，数据包才从队列移除。

复本存放

1、运行客户端的节点存放第一个复本，若客户端运行于集群之外，则随机选择一个节点，系统会尽量避免选择磁盘太满或太忙节点；

2、第2个复本存放于不同机架随机节点（离架）

3、第3个复本与第2个复本同一个机架，不同节点

4、其他节点随机存放，尽量不在同一机架存放太多复本

3.6.3 一致模型(coherency model)

1、新建文件，立即可见

2、写入文件内容（即使已刷新并存储，out.flush()），不保证立即可见，当写入的数据超过一个块，第一个块对新reader可见，正在写入的块对其他reader不可见。

两种强刷缓存至所有datanode手段

FSDataInputStream.hflush()后，FSDataInputStream.close()隐含执行了hflush()方法，HDFS保证文件中到目前为止写入的数据均到达所有datanode写入管道并对所有reader可见，不保证数据写入磁盘，可能丢失；

FSDataInputStream.hsync()后，刷新到磁盘。

调用hflush存在额外性能开销，hsync性能开销更大，需要在数据鲁棒性和性能之间取得平衡。

第3章 Hadoop分布式文件系统 学习笔记（二）

3.6 数据流

3.6.1 剖析文件读取

3.6.2 剖析文件写入

3.6.3 一致模型(coherency model)

你可能感兴趣的:(第3章 Hadoop分布式文件系统 学习笔记（二）)

第3章 Hadoop分布式文件系统学习笔记（二）

你可能感兴趣的:(第3章 Hadoop分布式文件系统学习笔记（二）)