HDFS

Client与DataNode分析:写数据

原文链接:http://blog.csdn.net/liuhong1123/article/details/9564447?utm_source=tuicool&utm_medium=referral

纯属为了自己阅读

1)  Client执行create方法,调用NameNode的create方法,同时在Client端启动datastream线程;

2)  Client调用write方法,write不断地写入字节,写入字节的时候,以chunk大小作为生成校验和的单位;当写的字节数量达到一个包大小,就将这些字节封装成一个包,并加入dataqueue队列;

3)  datastream线程读取dataqueue队列,如果读取到包数据,则首先判断是否需要创建块文件,如果需要,则需要有如下步骤:

a)  创建与DataNode的socket连接,DataNode接受到创建连接的请求,就初始化一个dataxceiver线程对象;

b)  Client发送块头信息到DataNode;

c)  DataNode接受到该头信息后,读取操作码,根据操作码调用方法writeBlock,在该方法中,会通过调用BlockReceiver构造函数,创建块文件,元数据文件,并打开这两个文件,完成后向Client发送初始化是否成功的状态码,如果有多个DataNode,要等;

d)  Client接受到连接成功的状态码;

e)  Client发送包,并把包信息加入到ackqueue;

f)  DataNode接受到数据包,并将包的seqno加入到PacketResponder的ack队列,然后对数据进行校验,同时将包,及其校验和写入到块文件,元数据文件;

g)  Client写完数据包后,将会发送一个空包;

h)  DataNode读取到空包,判断该数据块已经上传完成,就将块文件转换为finalize状态的块;

i)   Client发送完最后一个包后,等待ackqueue为空,为空代表数据发送完成,并且收到DataNode的每个seqno响应;

4)  Client调用close方法,调用NameNode的complete方法,及其停止与该块相应的服务;

读数据


1)  Client通过查询NameNode获取文件的块的位置,及其长度(由NameNode与DataNode共同决定);

2)  Client通过读取的起始偏移量,判断应该从某个块的某个位置开始读取文件;

3)  Client选择一个DataNode(DataNode不能被标记为dead状态)作为读取块的节点;

4)  Client向DataNode发起连接请求,DataNode收到该请求后,初始化一个DataXceiver线程;

5)  连接创建成功后,Client向DataNode写头信息(包含操作码),DataNode收到头信息后,根据操作码调用readBlock方法,在该方法中,会初始化BlockSender对象,其中包含打开相应的块文件及其相应的元数据文件,同时文件指针seek到相应位置,准备提供读服务;

6)  DataNode初始化完成BlockSender对象后,向Client发送链接成功的相应码;

7)  Client接受到成功链接的相应码后,会初始化RemoteBlockReader2对象,为读取做准备;

8)  一切准备工作完成后,DataNode从磁盘上读取块文件,并进行校验,校验成功后,将相应的包发送给Client,数据包发送完成后会发送一个空包,以让客户端知道该块文件已经发送完成;

9)  Client读取到数据包后,会对数据进行校验,校验完成后,就等待被应用读取;

10)  所有目标块读取完成后,向客户端返回-1,表示读取完毕;

你可能感兴趣的:(HDFS)