文件存储原理

1.文件存储原理

文件存储原理_第1张图片

a.txt文件存储到/tmp下时:

(1).首先从inode table中找一个空闲的inode号分配给a.txt,例如2222。再将inode map(imap)中2222这个inode号标记为已使用。

(2).在/tmp的data block中添加一条a.txt文件的记录。该记录中包括一个指向inode号的指针,例如"0x2222"。

(3).然后从block map(bmap)中找出空闲的data block,并开始将a.txt中的数据写入到data block中。每写一段空间(ext4每次分配一段空间)就从bmap中找一次空闲的data block,直到存完所有数据。

(4).设置inode table中关于2222这条记录的data block指针,通过该指针可以找到a.txt使用了哪些data block。

删除a.txt文件时:

(1).在inode table中删除指向a.txt的data block指针,外界就找不到a.txt的数据了。但是这个文件还存在,只是它是被"损坏"的文件,因为没有任何指针指向数据块。

(2).在imap中将2222的inode号标记为未使用。于是这个inode号就被释放,可以被后续的文件重用。

(3).删除父目录/tmp的data block中关于a.txt的记录。这里只要一删除,外界就看不到也找不到这个文件了。

(4).在bmap中将a.txt占用的block标记为未使用。这里被标记为未使用后,这些data block就可以被后续文件覆盖重用。

        当一个文件被删除时,但此时还有进程在使用这个文件,外界是看不到也找不到这个文件的,所以删除的过程已经进行到了第(3)步。但进程还在使用这个文件的数据,也能找到这个文件的数据,是因为进程在加载这个文件的时候就已经获取到了该文件占用哪些data block,虽然删除了文件,但bmap中这些data block还没有标记为未使用。

        所以平常对于一个log,如果有程序正在写这个log,直接删除这个log,是不能释放磁盘空间的,因为有文件句柄正在使用该文件。需要echo "" > log 才能清理该文件。  对于正在运行的进程也一样,但是进程不允许直接echo清空该文件,会报busy的错误。

2.du命令原理

        通过stat命令来统计每个文件(包括子目录)的空间占用总和。因为会对每个涉及到的文件使用stat命令,所以速度较慢。可以跨分区统计某些你想统计的文件大小总和。因为它们都能被stat找到并统计。

        如果文件被删除,即使被其他进程引用了,du命令也无法对其统计。因为stat命令找不到这个文件。

3.df命令原理

        df是读取每个分区的superblock来获取空闲数据块、已使用数据块,从而计算出空闲空间和已使用空间,因此df统计的速度极快(superblock才占用1024字节)。

        df会统计已删除但却仍有进程引用的文件。

你可能感兴趣的:(文件存储原理)