HDFS写入过程

HDFS写入过程分析:

0、相关概念:

(1)chunk:小块,hdfs文件系统中的最小单位,大小为512字节

(2)packet:包,基础数据会切割成很多packet,通过数据队列进行数据发送,block是由packet组成的,packet=(chunk+checksum) x 126

(3)checksum:默认校验算法是CRC32C算法,每隔512字节进行校验,产生4字节的校验和

1、通过两个配置文件(core-site.xml和core-default.xml)初始化configuration

2、通过配置文件中的fs.defaultFS指定的值初始化文件系统

3、在namenode中写入元数据信息

(1)DFSOutputStream:dfsClient.namenode.create();

(2)ClientNamenodeProtocolTranslatorPB:rpcProxy.create();

4、在datanode中写入真实数据

(1)创建包:读取数据到内存中,每隔512字节(1个chunk)进行校验,校验和数据为4字节,每隔4608字节(9个chunk),会将数据flush到packet中,packet添加一个序列号并放在数据队列末尾

(2)写包:从数据队列中获取一个包,然后选择一个datanode,在其中创建一个块,通过此datanode向其他datanode架设管线(socket),使用protobuf串行化技术,在块中写入数据(以packet形式写入),写完此datanode后会通过管线向其他datanode进行数据的二次写入,每写完一个datanode,datanode会将packet发到确认队列(ackQueue)中,ackQueue达到副本数量的包后清空,证明数据写入成功

 

你可能感兴趣的:(HDFS写入过程)