HDFS源码分析——格式化

HDFS NameNode保存了两个元数据文件fsimage和edits。如果想要对文件系统进行格式化,应该进行哪些操作呢?按照我们的理解,首先要把已有的fsimage和edits全部删除;其次,重新建立新的fsimage和edits;最后,通知所有的datanode,命令其删除相应的数据。通过阅读HDFS的源程序,我们得知,前两部是HDFS已经实现的;但是,其好像没有通知datanode进行数据删除。为什么会这样,需要进一步阅读程序。下面看一下,HDFS具体是如何进行格式化的。

我们可以看到,HDFS文件系统的格式化是在整个集群启动的时候进行的。在启动的时候,如果用户用户进行格式化操作(命令行-format选项)。NameNode首先根据配置文件,获取fsimage和edits的存放目录(如果hdfs-site.xml没有指定dfs.name.dir的值,则HDFS硬编码默认路径是/tmp/hadoop/dfs/name)。获取元数据保存路径成功后,对用户进行确认是否格式化相应存储目录下的元数据文件。当用户确认后,调用FSNamesystem.StorageDirectory(其实是整个文件系统的层次化存储,目录树).FSImage进行具体的格式化。

private static boolean format(Configuration conf,

boolean isConfirmationNeeded) throws IOException {

Collection<File> dirsToFormat = FSNamesystem.getNamespaceDirs(conf);

Collection<File> editDirsToFormat = FSNamesystem.getNamespaceEditsDirs(conf);

for (Iterator<File> it = dirsToFormat.iterator(); it.hasNext();) {

File curDir = it.next();

if (!curDir.exists())

continue;

if (isConfirmationNeeded) {

System.err.print("Re-format filesystem in "+curDir+ " ? (Y or N) ");

if (!(System.in.read() == 'Y')) {

System.err.println("Format aborted in " + curDir);

return true;

}

while (System.in.read() != '\n')

; // discard the enter-key

}

}

FSNamesystem nsys = new FSNamesystem(new FSImage(dirsToFormat,

editDirsToFormat), conf);

nsys.dir.fsImage.format();

return false;

}

FSImage首先产生新的layoutVersion(给fsimage文件赋予的一个版本号)、namespaceID(给fsimage赋予的一个id)和cTime(fsimage创建时的时间戳),然后遍历每一个存储目录进行格式化。

public void format() throws IOException {

this.layoutVersion = FSConstants.LAYOUT_VERSION;

this.namespaceID = newNamespaceID();

this.cTime = 0L;

this.checkpointTime = FSNamesystem.now();

for (Iterator<StorageDirectory> it = dirIterator(); it.hasNext();) {

StorageDirectory sd = it.next();

format(sd);

}

}

对于每一个存储目录,FSImage首先删除已有的文件,并创建新的文件。

void format(StorageDirectory sd) throws IOException {

sd.clearDirectory(); // create currrent dir

sd.lock();

try {

saveCurrent(sd);

} finally {

sd.unlock();

}

LOG.info("Storage directory " + sd.getRoot()+ " has been successfully formatted.");

}

最终,FSImage保存新的fsimage和edits文件。

protected void saveCurrent(StorageDirectory sd) throws IOException {

File curDir = sd.getCurrentDir();

NameNodeDirType dirType = (NameNodeDirType) sd.getStorageDirType();

// save new image or new edits

if (!curDir.exists() && !curDir.mkdir())

throw new IOException("Cannot create directory " + curDir);

if (dirType.isOfType(NameNodeDirType.IMAGE))

saveFSImage(getImageFile(sd, NameNodeFile.IMAGE));

if (dirType.isOfType(NameNodeDirType.EDITS))

editLog.createEditLogFile(getImageFile(sd, NameNodeFile.EDITS));

// write version and time files

sd.write();

}

最终,我们看一下FSImage是如何保存fsimage文件的。首先存储layoutVersion、namespaceID、整个文件系统中文件和目录的数目、产生时间等基本数据;然后将整个文件系统的INode列表(及所有文件)保存到fsimage;最后保存一些其他数据,具体参见源码:

void saveFSImage(File newFile) throws IOException {

FSNamesystem fsNamesys = FSNamesystem.getFSNamesystem();

FSDirectory fsDir = fsNamesys.dir;

long startTime = FSNamesystem.now();

//

// Write out data

//

DataOutputStream out = new DataOutputStream(new BufferedOutputStream(

new FileOutputStream(newFile)));

try {

out.writeInt(FSConstants.LAYOUT_VERSION);

out.writeInt(namespaceID);

out.writeLong(fsDir.rootDir.numItemsInTree());

out.writeLong(fsNamesys.getGenerationStamp());

byte[] byteStore = new byte[4 * FSConstants.MAX_PATH_LENGTH];

ByteBuffer strbuf = ByteBuffer.wrap(byteStore);

// save the root

saveINode2Image(strbuf, fsDir.rootDir, out);

// save the rest of the nodes

saveImage(strbuf, 0, fsDir.rootDir, out);

fsNamesys.saveFilesUnderConstruction(out);

fsNamesys.saveSecretManagerState(out);

strbuf = null;

} finally {

out.close();

}

LOG.info("Image file of size " + newFile.length() + " saved in "

+ (FSNamesystem.now() - startTime) / 1000 + " seconds.");

}

PS:HDFS NameNode一个主要class之间的关系。

HDFS NameNode的主要入口是class NameNode。NameNode中最主要的变量是FSNamesystem,FSNamesystem代表了整个文件系统的命名空间。它保存了整个文件系统的命名空间FSDirectory。整个文件系统的命名空间FSDirectory中包含了当前文件系统,持久化存储的文件系统状态FSImage。FSImage中包含了对整个文件命名空间操作的日志FSEditLog。

你可能感兴趣的:(mapreduce,hadoop,集群)