原创 转载请注明出处 http://baishuo491.iteye.com/blog/1958649 作者邮箱:
[email protected]
Create操作
1.String clientMachine = getClientMachine();
2.namesystem.startFile(src,new PermissionStatus(UserGroupInformation.getCurrentUser().getShortUserName(),
null, masked),clientName, clientMachine, overwrite, createParent, replication, blockSize);
开始startFileInternal函数,写文件的重要过程
判断目标是否以路径的形式存在
clientNode:override-toString-DNDES:ubuntu|/default-rack|/default-rack|blockList实际上是个blockinfo:|null 参考5.6.2.1.2.3
全局的genstamp:1003
创建一个INodeFileUnderConstruction
开始调用leaseManager.addLease
结束调用leaseManager.addLease
put操作,最终会调用IOutils.copyBytes(in,out,buffersize) in.readbuf里面调用了read1,
如果读到的长度大于0,就把读到的数据,写入到一个输出流里面,接着继续in.readbuf,继续写入到输出流,如此循环。正常情况下,一次readBuf可以读4096字节,然后把这些字节传给out.write(buf, 0, bytesRead)后,则要循环8次,每次读入512字节数据,并生成4字节checksum
in.readbuf 调用 FSInputChecker(继承了FSInputStream)的read(byte[] b, int off, int len)函数
里面循环调用read1,如果read1返回 -1,表示读到了结尾
for (;;) {
int nread = read1(b, off + n, len - n);
if (nread <= 0)
return (n == 0) ? nread : n;
n += nread;
if (n >= len)
return n;//注意packet的切换
}
在read1里面,如果len>=buf.length,就调用readChecksumChunk(b, off, len); 返回读入的字节数nRead, 这样len每次就减去nread
在readChecksumChunk(byte b[], int off, int len) 中()
ChecksumFileSystem$ChecksumFSInputChecker(FSInputChecker).readChecksumChunk(byte[], int, int)
调用read = readChunk(chunkPos, b, off, len, checksum);//read 可以是4096 也可以是2 和 -1
ChecksumFileSystem$ChecksumFSInputChecker.readChunk里面
int nread = readFully(datas, buf, offset, len);
FSInputChecker. readFully里面
for (;;) {
int nread = stm.read(buf, offset + n, len - n);
......................
}
最终调用RawLocalFileSystem$TrackingFileInputStream.read(byte[], int, int)
写入到输出流的过程如下
会调用FSDataOutPutStream$Positionache$write
循环调用write1 (DFSClient$DFSOutputStream(FSOutputSummer).write1(byte[], int, int))
1.先计算crc值
2.调用writeChecksumChunk
2.1 生成一个Checksum数组 4byte
2.2 writeChunk 传入buffer offset length checksum (要注意写 -1 那次)writeChunk每次写入512个字节
2.2.1 一系列检查
2.2.2 如果currentPacket是null(currentPacket在2.4.1.2被设置成null) 创建一个新的Packet,传入packetSize chunksperPacket byteCurBlock (65557,12, 0)
设置了一堆值 -----返回
2.3 写入系列操作
2.3.1向currentpacket 写入数据,先writeCheckSum 再writeData,都是用arraycopy拷贝到buf中
修改numChuncks和bytesCurBlock
2.3.3执行完2.3.1的写入,要把修改两个参数
currentPacket.numChunks++;
bytesCurBlock += len;//每次写入正常就是512
2.4 相关的临界操作
2.4.1根据2.3.3
修改过得参数作判断if (currentPacket.numChunks == currentPacket.maxChunks || bytesCurBlock == blockSize)
2.4.1.1 特别的,如果满足第二个条件,表明一个块已经写满了
要更新如下的参数
currentPacket.lastPacketInBlock = true;//标明这是最后一个Packet
bytesCurBlock = 0; lastFlushOffset = 0;
2.4.1.2 无论是满足第一个条件,还是第二个条件,都要调用
enqueueCurrentPacket();
dataQueue.addLast(currentPacket);
dataQueue.notifyAll();**** 在DataStreamer的run函数里,会调用one = dataQueue.getFirst();标记01
lastQueuedSeqno = currentPacket.seqno;
currentPacket = null;
处理是否写满一个块 返回2,结束一个writeCheck
返回write1,返回length//512 (用作write1,修改传入参数用)
如果write结束,Position + = len incCount 更新 written
3转到DataNode上
3.1DataXReciever的run函数,读DFSClient通过createBlockOutputStream传过来的流,读到OP,如果是writetoblock指令,就调用DataXceiver的writeblock方法(每次这个函数被调用完,就会六大关闭)
3.1.1这个函数里面,
3.1.1.1首先通过DataXceiver的成员变量Socket s,创建一个DataOutputStream replyout,它对应的是createBlockOutputStream里面的blockReplyStream DataXceiver writetoblock里replyOut.writeShort(mirrorInStatus)对应 Client端 pipelineStatus = blockReplyStream.readShort();参考5.6.4.4
3.1.1.2 创建了一个blockReciever,在创建的过程中,Streams = datanode.data.writetoblock(......),这个stream里包含out和checksumout
writetoblock(FSDataSet)的过程:
3.1.1.2.1先设blocksize(调用 b.getNumBytes ) 然后检查ongoingcreates,如果有进程在创建这个block,就停掉它。
3.1.1.2.2 然后得到FSVolumn, 调用createTmpFile创建临时文件(在hdfs/data/blocksbeingWritt........下面)
然后volumeMap.put(b,new DataNodeBlockInfo(v,f))
ongoingCreates.put(b,new ActiveFile(f,threads))
3.1.1.2.3 调用File metafile = getMetaFile(f, b);//里面调用getGS,加上了GS 创建.meta文件
3.1.1.2.4 调用 createBlockWriteStreams( f , metafile)(FSDataSet); 这里面用FileOutPutStream,封装了RandomAccessFile
return new BlockWriteStreams(new FileOutputStream(new RandomAccessFile( f , "rw" ).getFD()),
null /*new FileOutputStream( new RandomAccessFile( metafile , "rw" ).getFD() )*/);
返回
从writetoblock返回后,得到一个Streams,通过Stream,可以给out和checksumout赋值(在这里可以做一些对应lun的修改)返回到创建blockReciever的地方
3.1.1.3 结束创建blockReciever后,replyOut会写两个东西,client端会收到(参考3.1.1.1)
replyOut.writeShort(mirrorInStatus);//0 Text.writeString(replyOut, firstBadLink);//firstBadLink =“”
3.1.1.4 blockReceiver.receiveBlock(mirrorOut, mirrorIn, replyOut, mirrorAddr, null, targets.length);//会长时间阻塞
这是一个有可能会长时间阻塞的函数,如果里面的流没有读到数据的话,这里面除了replyout,都是null
数据来自客户端,参考5.9,实际上,5.9的数据,被datanode接收到,是从3.1 一路传到这里的。
3.1.1.4.1 调用BlockMetadataHeader.writeHeader(checksumOut, checksum);//已经被注销掉了
主要写了这样一些东西
3.1.1.4.1.1 out.writeShort(header.getVersion());
3.1.1.4.1.2 header.getChecksum().writeHeader(out);
3.1.1.4.1.2.1 out.writeByte( type );//1
3.1.1.4.1.2.2 out.writeInt( bytesPerChecksum );//512
3.1.1.4.2 创建一个PacketResponder线程,并启动
new PacketResponder(this, block, mirrIn, replyOut, numTargets,Thread.currentThread())
3.1.1.4.3 再继续,blockReciever开始不停地调用receivePacket
while (receivePacket() > 0) {}//会因为blockStream.writeInt(0) 而结束(对应3.1.1.4.4)
3.1.1.4.3.1 payloadLen = readNextPacket();//1036
3.1.1.4.3.1.1 计算 chunksize = 516 (512 + 4)
3.1.1.4.3.1.2 计算 chunksperPacket(65536 -21 -4 + 516 -1)/516 约等于127
3.1.1.4.3.1.3 然后分配buf,容量为 21+4 +127*516 = 65557
.................................................
3.1.1.4.3.1.5 然后,在readToBuf(-1) 这个地方,开始读数据
......................................................
3.1.1.4.3.1.5.2 int nRead = in.read(buf.array(), buf.limit(), toRead);//如果输入流没有东西会阻塞,3.1.1.4的阻塞,就是在这里引起的,解除这里的阻塞,来自客户端发送的数据,参考5.9
3.1.1.4.3.1.5.3 bufRead = buf.limit() + nRead;//0 + 1057
3.1.1.4.3.1.5.4 buf.limit(bufRead);//表示这个位置之前的东西是有效的
3.1.1.4.3.1.5.5 return nRead;
3.1.1.4.3.1.6
3.1.1.4.3.2 buf.mark();
//read the header
buf.getInt(); // packet length 前4个 bytes
offsetInBlock = buf.getLong(); //得到当前packet,在block里面的offset 8个字节
long seqno = buf.getLong(); // get seqno 8个字节
boolean lastPacketInBlock = (buf.get() != 0);//buf读了一个字节 表明读到了设置的标记0了(对应5.10)
int endOfHeader = buf.position();//21(4+8+8+1) 原来21是这么来的?
buf.reset();//buf.position回归到mark的位置,回归的原因是3.1.1.4.6
3.1.1.4. 3.3 setBlockPosition(offsetInBlock);//FIXME offsetInBlock 来自前面的buf.getLong()
3.1.1.4. 3.4 先把packet写入mirror(只有一个副本不走这里)
3.1.1.4. 3.5 跳过21个字节,利用buf.position(endOfHeader); //21
然后读入一个int,得到的是文件的长度len(满的应该是65024)
3.1.1.4.3.7 先修改offsetInblock offsetInBlock += len;//len = 65024
3.1.1.4.3.8 计算checkSumOff = 508 ((65024 + 512 -1)/512) * 4
3.1.1.4.3.9 计算dataOff
checksumOff = buf.position();//25
int dataOff = checksumOff + checksumLen;//508 + 25
3.1.1.4.3.10 备份一份buff 到变量pktBuf
3.1.1.4.3.11 把buff的position设置成limit,使前面的数据不会被写入(为了下次写入?) buf.position(buf.limit());
3.1.1.4.3.12 调用verifyChunks 需要传入的参数 pktBuf(3.1.1.4.7.4),dataOff(3.1.1.4.7.3),len(3.1.1.4.6),和
checksumoff(3.1.1.4.7.2)
verifyChunks里,以512字节为长度,循环计算crc32校验,比如,如果这个文件有1024个字节,那么,数据前面crc占据的长度,就是1024/512 *4 = 8字节
3.1.1.4.3.13 如果还没有finalized,就写入磁盘
//写数据到磁盘!!! 底层调用 临时文件里的block里面的内容就增加了
out.write(pktBuf, dataOff, len);pktBuf这个buffer里面,dataOff后面,len个字节长度里的内容,全都是数据,
写入out
3.1.1.4.3.14 如果checksumOut不是null checksumOut.write(pktBuf, checksumOff, checksumLen);
把pktBuf中,checksumOff开始,checksumLen长度的部分,写入checksumOut
通过3.1.1.4.3.13 和3.1.1.4.3.14,可以看到,数据和checksum都是连续存放的,数据紧接着校验来存放
3.1.1.4.3.15 调用flush,里面包括out的flush和checksum的flush
3.1.1.4.3.16 之后更新datanode上的block的长度 datanode.data.setVisibleLength(block, offsetInBlock);//FIXME
从ongoingCreate里,拿到activeFile,更新之
3.1.1.4.3.17 ((PacketResponder)responder.getRunnable()).enqueue(seqno, lastPacketInBlock);
把seqno和lastPacketInBlock 加入到ackQueue(这会使3.1.1.4.2 创建的PacketResponder线程的run方法解除阻塞,参考3.1.1.4.2 参考6.1 )
3.1.1.4.3.18 返回 payloadLen // 65536 应该是数据加 校验的长度
返回到3.1.1.4.3的while (receivePacket() > 0)循环
如果返回的payloadLen>0 ,继续while循环
3.1.1.4.4 mirrorOut.writeInt(0); //标记块的结尾 mirrorOut.flush();
3.1.1.4.5 关闭responder(3.1.1.4.2创建)
3.1.1.4.6 block.setNumBytes(offsetInBlock);设置block的真实大小
3.1.1.4.7 datanode.data.finalizeBlock(block);和6.4.3是相同的调用,详情在那里看
3.1.1.5 datanode.notifyNamenodeReceivedBlock(block, DataNode.EMPTY_DEL_HINT);
3.1.1.5.1 receivedBlockList.add(block);
3.1.1.5.2 delHints.add(delHint);
3.1.1.6 datanode.blockScanner.addBlock(block);
从3.1.1 writeblock 返回到3.1
回到DataXReciever的run里继续循环
在recievepacket里面
读出前面那21个字节,得到offsetInBlock,
5 在DataStreamer线程里DFSClient$DFSOutputStream$DataStreamer.run()
5.6 在标记01的后面nodes = nextBlockOutputStream(src); src是在DFSOutputStream的构造函数中传入的
这个位置是nextBlockOutputStream的唯一调用,也就是每次分配块,都是在这里弄的
nextBlockOutputStream基本上所有的操作都在一个有限次的while循环里,(retry && --count >= 0);其中retry默认是false,
count默认是3,来自配置文件
5.6.1一系列的初始化活动
5.6.2lb = locateFollowingBlock(startTime, excluded.length > 0 ? excluded : null);//远程调用namenode.addBlock(src,
clientName)
5.6.2.1 if (serverSupportsHdfs630) {
//可以支持Hdfs630,包含excludedNodes
return namenode.addBlock(src, clientName, excludedNodes);
}
转到NameNode端
在LocatedBlock addBlock(String src, String clientName, DatanodeInfo[] excludedNodes)
5.6.2.1.1 创建excludedNodeList
5.6.2.1.2 locatedBlock = namesystem.getAdditionalBlock(src, clientName, excludedNodeList);
5.6.2.1.2.1 checkFsObjectLimit(); 判断maxFsObjects <= dir.totalInodes() + getBlocksTotal()
5.6.2.1.2.2pendingFile = checkLease(src, clientName);创建一个UnderConstruction的pendingfile
5. 6.2.1.2.2.1 INodeFile file = dir.getFileINode(src);//在dir里找到src对应的节点,这个节点是在create的过
程中被放进去的
5. 6.2.1.2.2.2 checkLease(src, holder, file);//如果file是underconstruction的,不会去map里检查lease
其实上面这个函数,如果不是underconstruction的,会报异常。只有是underconstruction的,
才会正常的执行完,最终只是简单的进行一下类型转换,和下面5. 6.2.1.2.2.3是重复的
5. 6.2.1.2.2.3 return (INodeFileUnderConstruction)file;
5.6.2.1.2.3
fileLength = pendingFile.computeContentSummary().getLength();//计算所有blk.getNumBytes()得到已有的
block的长度之和
blockSize = pendingFile.getPreferredBlockSize();
clientNode = pendingFile.getClientNode();//这也是一种拿到node的方法
replication = (int)pendingFile.getReplication();
5.6.2.1.2.4 replicator.chooseTarget
.chooseTarget的过程,和clusterMap有关
后面的过程是 Allocate 一个block,并把它记录在INode上
5.6.2.1.2.5. INode[] pathINodes = dir.getExistingPathINodes(src); 得到文件路径中所有path的INode,其中最后一个是新添加的文件对应的INode,状态为under construction
5.6.2.1.2.6 checkLease(src, clientName, pathINodes[inodesLen-1]);//注意上面还有一次checklease
5.6.2.1.2.7 得到最后一个节点,INodeFileUnderConstruction pendingFile = (INodeFileUnderConstruction)
pathINodes[inodesLen - 1];
5.6.2.1.2.8 检查是不是 checkFileProgress
5.6.2.1.2.9 为文件分配block newBlock = allocateBlock(src, pathINodes); (这个不能全部照搬)
5.6.2.1.2.9.1
5.6.2.1.2.9.2里面的GS,对应create时创建的GS b.setGenerationStamp(getGenerationStamp());
5.6.2.1.2.9.3调用FSDirectory.addBlock(String, INode[], Block)
waitForReady();
锁住 rootDir
INodeFile fileNode = (INodeFile) inodes[inodes.length-1];
检查quota限制并更新了占用空间updateCount(inodes, inodes.length-1, 0,
fileNode.getPreferredBlockSize()*fileNode.getReplication(), true);
//建立block和file的关联? associate the new list of blocks with this file
namesystem.blocksMap.addINode(block, fileNode);//numbyte是0吗?
BlockInfo blockInfo = namesystem.blocksMap.getStoredBlock(block);
fileNode.addBlock(blockInfo);//fileNode的blocks增加了一个元素,这时仍然是
上面这句就是5.6.2.1.2.10里面blocks里已经有这个block的原因
return block;
5.6.2.1.2.9.4
AllocStruct allocStruct = allocBlock(32); b.setLunind(allocStruct.getLunid());
Integer[] blocks = allocStruct.getBlocks();
。。。。。。。。
5.6.2.1.2.9.5 返回block到5.6.2.1.2.9
5.6.2.1.2.10 设置写到哪个datanode上, 这个时候pendingFile 的blocks变量里已经有上面那个block了
pendingFile.setTargets(targets);
5.6.2.1.2.11 for (DatanodeDescriptor dn : targets) {//不太理解用途
dn.incBlocksScheduled();
}
5.6.2.1.2.12 LocatedBlock b = new LocatedBlock(newBlock, targets, fileLength);//第三个参数,表示fileoffset
5.6.2.1.2.13 设置写到哪个datanode上, 这个时候blocks变量里已经有上面那个block了
5.6.2.1.2.14 安全检查
5.6.2.1.2.15 返回5.6.2.1.2.12创建的b
返回5.6.2.1.2 namesystem.getAdditionalBlock
返回5.6.2.1 这时候已经返回到客户端
返回5.6.2 locateFollowingBlock
5.6.3
block = lb.getBlock();
accessToken = lb.getBlockToken();
nodes = lb.getLocations();//192.168.0.122:50010
5.6.4 连接到DataNodeList的第一个DataNode上
success = createBlockOutputStream(nodes, clientName, false);//在这个函数里面写数据,发出写入指令
5.6.4.1 InetSocketAddress target = NetUtils.createSocketAddr(nodes[0].getName());//创建和第一个datanode的连接
nodes[0].getName()=192.168.0.122:50010
通过target,建立socket,再通过socket,建立输出流
5.6.4.2 发出写入指令
5.6.4.3 checksum.writeHeader( out );
out.flush();
5.6.4.4 pipelineStatus = blockReplyStream.readShort();//这是一个阻塞的函数,对应DataXceiver writetoblock里replyOut.writeShort(mirrorInStatus);参考 3.1.1.1
5.6.4.5 blockStream = out;//把out赋给blockStream,后面的全都是数据了
result = true; //返回是否写入成功 success
5.6.4.6 处理各种异常,返回result
5.6.5 如果5.6.4返回的success是false,说明创建失败
5.6.5.1 namenode.abandonBlock(block, src, clientName);
5.6.5.2 excludedNodes.add(nodes[errorIndex]);
retry = true;更改while循环的条件,是为了出来连接断掉的情况
5.6.7 跳出循环外,如果success仍然是false,抛出异常
5.6.8 返回nodes到5.6
5.7 以5.6得到的nodes为参数,启动一个ResponseProcessor(nodes)线程
5.8 从标记01处得到的one里面得到buf,如果one不是心跳packet,就从dataQueue中去掉,加入ackQueue
5.9 利用5.8得到的buf,想远端的datanode写数据blockStream.write(buf.array(), buf.position(), buf.remaining())
这个过程,可以激活阻塞的ReadNextPacket函数里的ReadToBuf,返回的nRead,正是这里传入的buf.remaining()
参考3.1.1.4.3.1.5.2
5.10如果one是块里最后一个packet(根据one.lastPacketInBlock来判断),则向远端发送一个结束标志blockStream.writeInt(0)(对应3.1.1.4.4?)
blockStream.flush();
lastPacket = System.currentTimeMillis();
5.11如果one是块里最后一个packet(重新判断了一遍,同5.10)
5.11.1 阻塞等待ackQueue的消息 ackQueue.wait();
5.11.2 等5.11.1通过以后,关闭5.7创建的线程
response.close(); // ignore all errors in Response
response.join() 等待,直到结束
5.11.3 IOUtils.cleanup(LOG, blockStream, blockReplyStream);
nodes = null;
response = null;
blockStream = null;//标明要新建一个block写入流
blockReplyStream = null;
5.11.4 if (progress != null) { progress.progress(); }
5的run方法结束
6 对于blockreciever 的内部类PacketResponder(DN ,blockreciever)来说(创建于3.1.1.4.2):
几个关键的成员变量
//packet waiting for ack
private LinkedList<Packet> ackQueue = new LinkedList<Packet>();
private volatile boolean running = true;
private Block block;
DataInputStream mirrorIn; // input from downstream datanode
DataOutputStream replyOut; // output to upstream datanode
private int numTargets; //下游节点的数目,非分布式是0 number of downstream datanodes including myself
private BlockReceiver receiver; //这个responder的所有者 The owner of this responder.
private Thread receiverThread; // the thread that spawns this responder
在PacketResponder的run函数里
所有的操作都在一个while循环里,循环条件是 running && datanode.shouldRun && !lastPacketInBlock
在这个循环里
6.1 ackQueue在被放入东西后,可以通过wait阻塞(对应BlockReciever中,recievePacket函数里
((PacketResponder)responder.getRunnable()).enqueue(seqno, lastPacketInBlock); 参考3.1.1.4.3.17 )
6.2通过wait之后,得到一个pkt,因而得到seqno,赋给expected,然后notifyall()
6.3如果numTargets>0,还要很多操作,(暂时不用)
6.4 lastPacketInBlock = pkt.lastPacketInBlock;//判断是不是最后一个包
如果是最后一个包,并且receiver没有finalized 进行关闭文件操作 (lastPacketInBlock && !receiver.finalized)
6.4.1 receiver.close();关闭checksumout和out
6.4.2设置block的真正大小block.setNumBytes(receiver.offsetInBlock);// receiver的offsetInBlock在receivepacket里
设定
6.4.3 datanode.data.finalizeBlock(block);
6.4.3.1 finalizeblockInteranal
从ongoingCreates和VolumeMap里得到临时文件
File dest = null;
dest = v.addBlock(b, f);
FSDataSet$FSDir.addBlock(b,f) (其中,f是tmpfile,返回的时候,就是正式文件了)
首先尝试在不创建子目录的情况下addBlock,File file = addBlock(b, src, false, false);
如果创建失败,则调用创建子目录的addBlock addBlock(b, src, true, true);
在函数addBlock(Block b, File src, boolean createOk, boolean resetIdx)里
先判断if (numBlocks < maxBlocksPerDir) 如果成立,就不用创建新目录
File dest = new File(dir, b.getBlockName());//在正式文件目录,创建一个同名
block文件,得到一个BlockName(),其实是为了得到rename的名称
同理,在得到一个正式文件目录下的meta文件的同名文件名
利用rename,实现block文件和meta文件向正式文件目录的迁移
numBlocks += 1;
返回dest
如果需要创建subdir,就创建maxBlocksPerDir个subdir
new FSDir[maxBlocksPerDir];
然后随机选择一个subdir,继续执行addblock操作(类似递归调用)
返回
返回FSDataSet$FSVolumn.addBlock(b,f)中,
得到metaFile,然后重新计算磁盘使用的空间
dfsUsage.incDfsUsed(b.getNumBytes()+metaFile.length());
返回dest = v.addBlock(b, f);
volumeMap.put(b, new DatanodeBlockInfo(v, dest));dest是返回的正式block
ongoingCreates.remove(b);移除ongoingCreates里面的对应信息
返回
返回finalizeblockInteranal
返回到PacketResponder的run函数里
datanode.myMetrics.incrBlocksWritten();
datanode.notifyNamenodeReceivedBlock(block, DataNode.EMPTY_DEL_HINT);//通知namenode收到了一个块
receivedBlockList.add(block);
delHints.add(delHint);
receivedBlockList.notifyAll();//receivedBlockList是需要关注的
把offset设置为0
开始创建应答
replies[0] = DataTransferProtocol.OP_STATUS_SUCCESS;
PipelineAck replyAck = new PipelineAck(expected, replies);//expected 其实是一个seqno
然后通过replyOut向前一个节点发送
这个应答应该被DFSClient$DFSOutPutStream$ResponseProcessor 里面的run方法接受到
run循环继续运行,正常情况应该到块结束
内存中的文件节点,是在create的过程中被加进去的
注意INodeFile的移位操作
DatanodeDescriptor clientNode = 得到node的方式
host2DataNodeMap.getDatanodeByHost(clientMachine);
LunStatus luns = lunid2blockBitMap.get(block.getLunind());
luns.setTailposition(luns.getTailposition() + block.getNumBytes());//更新尾部的位置,为了下次allocateBlock作准备
if (block != storedBlock) {
if (block.getNumBytes() >= 0) {
long cursize = storedBlock.getNumBytes();
INodeFile file = storedBlock.getINode();
if (cursize == 0) {
storedBlock.setNumBytes(block.getNumBytes());
addStoredBlock(FsnameSystem)在系统的两个位置被调用blockReceived(DatanodeID, Block, String) 和processReport(DatanodeID, BlockListAsLongs)
前者是在offerService函数中被远程调用的namenode.blockReceived
后者同样是被offerService中间接调用 namenode.blockReport 返回DatanodeCommand
namenode.complete 上追溯可以到DFSOutPutStream.close, 这个函数在系统里有50个调用处
主要关注两个
datanode上blockreciever里的close
Dfsclient 里,leaseChecker的 close
8在addStoredBlock里
8.1 从fsnamesys里,拿到storedBlock BlockInfo storedBlock = blocksMap.getStoredBlock(block);
8.1.1正常情况下storedBlock是不应该为null的,非正常情况下的处理很复杂,需仔细研究
8.1.2在不为null的情况下
8.1.2.1 可以设置一些lunid或者lunoffset
8.1.2.2 拿到对应的fileINode INodeFile fileINode = storedBlock.getINode();//StoredBlock.inode.blocks[0].inode
8.1.2.3 向blocklist里面insert,实际上是插入到triple链表的头上 boolean added = node.addBlock(storedBlock); //回
到这个点,看看node->blocklist->triplets
8.1.2.4 判断这个将要报告的block,是不是这个underconstruction file的当前的最后一个block
最后得到一个boolean值:blockUnderConstruction = last.equals(storedBlock);
8.1.2.5 如果block != storedBlock,要作一些处理 需仔细研究
8.1.2.6 如果8.1.2.3 的added 是真,判断一下是否是在安全模式,如果不是安全模式,记录一条log(原因在程序的注释里)
8.1.2.7 计算一下numCurrentReplica ,然后更新一下和safemode相关的安全块数(需要继续研究)
8.1.2.8 如果8.1.2.4的blockUnderConstruction为真,
INodeFileUnderConstruction cons = (INodeFileUnderConstruction) fileINode;
cons.addTarget(node);
return block;
8.1.2.9 如果8.1.2.8的条件没有满足,还有很多操作,需要继续研究
DFSClient$DFSOutputStream.closeInternal() line: 4035
DFSClient$DFSOutputStream.close() line: 3952
FSDataOutputStream$PositionCache.close() line: 61
FSDataOutputStream.close() line: 86
IOUtils.copyBytes(InputStream, OutputStream, int, boolean) line: 50
IOUtils.copyBytes(InputStream, OutputStream, Configuration, boolean) line: 100
FileUtil.copy(FileSystem, Path, FileSystem, Path, boolean, boolean, Configuration) line: 230
FileUtil.copy(FileSystem, Path[], FileSystem, Path, boolean, boolean, Configuration) line: 176
DistributedFileSystem(FileSystem).copyFromLocalFile(boolean, boolean, Path[], Path) line: 1183
FsShell.copyFromLocal(Path[], String) line: 139
FsShell.run(String[]) line: 2157
ToolRunner.run(Configuration, Tool, String[]) line: 65
ToolRunner.run(Tool, String[]) line: 79
FsShell.main(String[]) line: 2311
{
copyBytes(in, out, buffSize);
} finally {
if(close) {
out.close(); //这句里面,调用了namenode.complete
in.close();
}
RawLocalFileSystem.getFileStatus(Path) line: 393
LocalFileSystem(FilterFileSystem).getFileStatus(Path) line: 251
public FileStatus getFileStatus(Path f) throws IOException {
File path = pathToFile(f);
if (path.exists()) {
return new RawLocalFileStatus(pathToFile(f), getDefaultBlockSize(), this);
} else {
throw new FileNotFoundException( "File " + f + " does not exist.");
}
}