简称为 inode,用来记录文件的元数据,比如 inode 编号、文件大小、访问权限、修改日期、数据的位置等。索引节点和文件一一对应,它跟文件内容一样,都会被持久化存储到磁盘中。所以记住,索引节点同样占用磁盘空间。
简称为 dentry,用来记录文件的名字、索引节点指针以及与其他目录项的关联关系。多个关联的目录项,就构成了文件系统的目录结构。不过,不同于索引节点,目录项是由内核维护的一个内存数据结构,所以通常也被叫做目录项缓存。
索引节点是每个文件的唯一标志,而目录项维护的正是文件系统的树状结构。目录项和索引节点的关系是多对一
目录项、索引节点、逻辑块以及超级块,构成了 Linux 文件系统的四大基本要素。不过,为了支持各种不同的文件系统,Linux 内核在用户进程和文件系统的中间,又引入了一个抽象层,也就是虚拟文件系统 VFS(Virtual File System)。
VFS 定义了一组所有文件系统都支持的数据结构和标准接口。这样,用户进程和内核中的其他子系统,只需要跟 VFS 提供的统一接口进行交互就可以了,而不需要再关心底层各种文件系统的实现细节。
VFS 内部又通过目录项、索引节点、逻辑块以及超级块等数据结构,来管理文件。
其中,目录项是一个内存缓存;而超级块、索引节点和逻辑块,都是存储在磁盘中的持久化数据。
第一,根据是否利用标准库缓存
缓冲 I/O,是指利用标准库缓存来加速文件的访问,而标准库内部再通过系统调度访问文件
非缓冲 I/O,是指直接通过系统调用来访问文件,不再经过标准库缓存
第二,根据是否利用操作系统的页缓存
想要实现直接 I/O,需要你在系统调用中,指定 O_DIRECT 标志。如果没有设置过,默认的是非直接 I/O。
第三,根据应用程序是否阻塞自身运行
访问管道或者网络套接字时,设置 O_NONBLOCK 标志,就表示用非阻塞方式访问;而如果不做任何设置,默认的就是阻塞访问。
第四,根据是否等待响应结果
在操作文件时,如果你设置了 O_SYNC 或者 O_DSYNC 标志,就代表同步I/O。如果设置了 O_DSYNC,就要等文件数据写入磁盘后,才能返回;而 O_SYNC,则是在 O_DSYNC 基础上,要求文件元数据也要写入磁盘后,才能返回。在访问管道或者网络套接字时,设置了 O_ASYNC 选项后,相应的 I/O 就是异步 I/O
磁盘是可以持久化存储的设备,根据存储介质的不同,常见磁盘可以分为两类:
为了减小不同块设备的差异带来的影响,Linux 通过一个统一的通用块层,来管理各种不同的块设备。
通用块层,其实是处在文件系统和磁盘驱动中间的一个块设备抽象层。它主要有两个功能。
第一个功能跟虚拟文件系统的功能类似。向上,为文件系统和应用程序,提供访问块设备的标准接口;向下,把各种异构的磁盘设备抽象为统一的块设备,并提供统一框架来管理这些设备的驱动程序
第二个功能,通用块层还会给文件系统和应用程序发来的 I/O 请求排队,并通过重新排序、请求合并等方式,提高磁盘读写的效率
可以把 Linux 存储系统的 I/O 栈,由上到下分为三个层次
存储空间的使用情况,包括容量、使用量以及剩余空间等
包括容量、使用量以及剩余量等三个指标
包括页缓存、目录项缓存、索引节点缓存以及各个具体文件系统(如 ext4、XFS 等)的缓存
包括 IOPS(包括 r/s 和 w/s)、响应时间(延迟)以及吞吐量(B/s)等
是指磁盘处理 I/O 的时间百分比。过高的使用率(比如超过 80%),通常意味着磁盘 I/O 存在性能瓶颈。使用率只考虑有没有 I/O,而不考虑 I/O 的大小。换句话说当使用率是 100% 的时候,磁盘依然有可能接受新的 I/O 请求。
是指磁盘处理 I/O 的繁忙程度。过高的饱和度,意味着磁盘存在严重的性能瓶颈。当饱和度为 100% 时,磁盘无法接受新的 I/O 请求。
是指每秒的 I/O 请求数。
是指每秒的 I/O 请求大小。
是指 I/O 请求从发出到收到响应的间隔时间。
从故障案例的角度来看使用的性能工具。
第一,在文件系统的原理中,我介绍了查看文件系统容量的工具 df。它既可以查看文件系统数据的空间容量,也可以查看索引节点的容量。至于文件系统缓存,我们通过/proc/meminfo、/proc/slabinfo 以及 slabtop 等各种来源,观察页缓存、目录项缓存、索引节点缓存以及具体文件系统的缓存情况。
第二,在磁盘 I/O 的原理中,我们分别用 iostat 和 pidstat 观察了磁盘和进程的 I/O 情况。它们都是最常用的 I/O 性能分析工具。通过 iostat ,我们可以得到磁盘的 I/O 使用率、吞吐量、响应时间以及 IOPS 等性能指标;而通过 pidstat ,则可以观察到进程的 I/O吞吐量以及块设备 I/O 的延迟等。
第三,在狂打日志的案例中,我们先用 top 查看系统的 CPU 使用情况,发现 iowait 比较高;然后,又用 iostat 发现了磁盘的 I/O 使用率瓶颈,并用 pidstat 找出了大量 I/O 的进程;最后,通过 strace 和 lsof,我们找出了问题进程正在读写的文件,并最终锁定性能问题的来源——原来是进程在狂打日志。
第四,在磁盘 I/O 延迟的单词热度案例中,我们同样先用 top、iostat ,发现磁盘有 I/O瓶颈,并用 pidstat 找出了大量 I/O 的进程。可接下来,想要照搬上次操作的我们失败了。在随后的 strace 命令中,我们居然没看到 write 系统调用。于是,我们换了一个思路,用新工具 filetop 和 opensnoop ,从内核中跟踪系统调用,最终找出瓶颈的来源。
从文件系统和磁盘 I/O 的性能指标出发,也就是说当你想查看某项指标的时候,该用哪些工具
性能指标 | 工具 | 说明 |
---|---|---|
文件系统空间容量、使用量以及剩余空间 | df | 详细文档见info coreutils ‘df invocation’ |
索引节点容量、使用量以及剩余量 | df | 使用-i选项 |
页缓存和可回收Slab缓存 | /proc/meminfo sar、vmstat | 使用sar -r选项 |
缓冲区 | /proc/meminfo sar、vmstat | 使用sar -r选项 |
目录项、索引节点以及文件系统的缓存 | /proc/slabinfo slabtop | slabtop更直观 |
磁盘I/0使用率、IOPS、吞吐量、响应时间、I/O平均大小以及等待队列长度 | iostat sar、dstat | 使用iostat -d-x或sar-d选项 |
进程/0大小以及I/O延迟 | pidstat iotop | 使用pidstat -d选项 |
块设备/0事件跟踪 | blktrace | 示例: blktrace -d /dev/sda |
进程I/O系统调用跟踪 | strace | 通过系统调用跟踪进程的I/O |
进程块设备I/O大小跟踪 | biosnoop biotop | 需要安装bcc软件包 |
从工具出发,也就是当你已经安装了某个工具后,要知道这个工具能提供哪些指标。
性能工具 | 性能指标 |
---|---|
iostat | 磁盘I/O使用率、IOPS、 吞吐量、响应时间、I/O平均大小以及等待队列长度 |
pidstat | 进程I/O大小以及I/O延迟 |
sar | 磁盘I/O使用率、IOPS 、吞吐量以及响应时间 |
dstat | 磁盘I/O使用率、IOPS以及吞吐量 |
iotop | 按I/O大小对进程排序 |
slabtop | 目录项、索引节点以及文件系统的缓存 |
/proc/slabinfo | 目录项、索引节点以及文件系统的缓存 |
/proc/meminfo | 页缓存和可回收Slab缓存 |
/proc/diskstats | 磁盘的IOPS、吞吐量以及延迟! |
/proc/pid/io | 进程IOPS、IO大小以及IO延迟 |
vmstat | 缓存和缓冲区用量汇总 |
blktrace | 跟踪块设备I/O事件 |
biosnoop | 跟踪进程的块设备I/O大小 |
biotop | 跟踪进程块I/O并按I/O大小排序 |
strace | 跟踪进程的I/O系统调用 |
perf | 跟踪内核中的I/O事件 |
df | 磁盘空间和索引节点使用量和剩余量 |
mount | 文件系统的挂载路径以及挂载参数 |
du | 目录占用的磁盘空间大小 |
tune2fs | 显示和设置文件系统参数 |
hdparam | 显示和设置磁盘参数 |
在优化之前,需要得到文件系统或者磁盘 I/O 的极限性能。使用fio可以获取到这些数据。
fio(Flexible I/O Tester)正是最常用的文件系统和磁盘 I/O 性能基准测试工具。它提供了大量的可定制化选项,可以用来测试,裸盘或者文件系统在各种场景下的 I/O 性能,包括了不同块大小、不同 I/O 引擎以及是否使用缓存等场景。
常用命令
# 随机读
fio -name=randread -direct=1 -iodepth=64 -rw=randread -ioengine=libaio -bs=4k -size=1G -numjobs=1 -runtime=1000 -group_reporting -filename=/dev/sda
# 随机写
fio -name=randwrite -direct=1 -iodepth=64 -rw=randwrite -ioengine=libaio -bs=4k -size=1G
-numjobs=1 -runtime=1000 -group_reporting -filename=/dev/sda
# 顺序读
fio -name=read -direct=1 -iodepth=64 -rw=read -ioengine=libaio -bs=4k -size=1G -numjobs=1 -runtime=1000 -group_reporting -filename=/dev/sda
# 顺序写
fio -name=write -direct=1 -iodepth=64 -rw=write -ioengine=libaio -bs=4k -size=1G -numjobs=1 -runtime=1000 -group_reporting -filename=/dev/sda
COPY
参数解释
direct,表示是否跳过系统缓存。上面示例中,我设置的 1 ,就表示跳过系统缓存
iodepth,表示使用异步 I/O(asynchronous I/O,简称 AIO)时,同时发出的 I/O 请求上限。在上面的示例中,我设置的是 64。
rw,表示 I/O 模式。我的示例中, read/write 分别表示顺序读 / 写,而randread/randwrite 则分别表示随机读 / 写。
ioengine,表示 I/O 引擎,它支持同步(sync)、异步(libaio)、内存映射(mmap)、网络(net)等各种 I/O 引擎。上面示例中,我设置的 libaio 表示使用异步 I/O。
bs,表示 I/O 的大小。示例中,我设置成了 4K(这也是默认值)。
filename,表示文件路径
iostat是I/O statistics(输入/输出统计)的缩写,iostat工具将对系统的磁盘操作活动进行监视。它的特点是汇报磁盘活动统计情况,同时也会汇报出CPU使用情况
查看磁盘i/o iostat -d -x 1
性能指标 | 含义 | 提示 |
---|---|---|
r/s | 每秒发送给磁盘的读请求数 | 合并后的请求数 |
w/s | 每秒发送给磁盘的写请求数 | 合并后的请求数 |
wkB/s | 每秒向磁盘写入的数据量 | 单位为kB |
rrqm/s | 每秒合并的读请求数 | %rrqm表示合并读请求的百分比 |
wrqm/s | 每秒合并的写请求数 | %wrqm表示合并写请求的百分比 |
r_await | 读请求处理完成等待时间 | 包括队列中的等待时间和设备实际处理的时间,单位为毫秒 |
w_await | 写请求处理完成等待时间 | 包括队列中的等待时间和设备实际处理的时间,单位为毫秒 |
aqu-sz | 平均请求队列长度 | 旧版中为avgqu-sz |
rareq-sz | 平均读请求大小 | 单位为kB |
wareq-sz | 平均写请求大小 | 单位为kB |
svctm | 处理I/O请求所需的平均时间(不包括等待时间) | 单位为毫秒。注意这是推断的数据,并不保证完全准确 |
%util | 磁盘处理I/O的时间百分比 | 即使用率,由于可能存在并行I/O,100%并不一定表明磁盘I/O饱和 |
pidstat是sysstat工具的一个命令,用于监控全部或指定进程的cpu、内存、线程、设备IO等系统资源的占用情况。pidstat首次运行时显示自系统启动开始的各项统计信息,之后运行pidstat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。
显示各个进程的io使用情况
pidstat -d
结果
sar是System Activity Reporter(系统活动情况报告)的缩写。sar工具将对系统当前的状态进行取样,然后通过计算数据和比例来表达系统的当前运行状态。
查看IO和传递速率 sar -b 1 3
查看磁盘使用情况 sar -d 1 3
iotop是一个用来监视磁盘I/O使用状况的 top 类工具,可监测到哪一个程序使用的磁盘IO的信息
iotop -o -d 2 -n 5
各个参数说明:
-o, --only只显示正在产生I/O的进程或线程。除了传参,可以在运行过程中按o生效。
-b, --batch非交互模式,一般用来记录日志。
-n NUM, --iter=NUM设置监测的次数,默认无限。在非交互模式下很有用。
-d SEC, --delay=SEC设置每次监测的间隔,默认1秒,接受非整形数据例如1.1。
-p PID, --pid=PID指定监测的进程/线程。
-u USER, --user=USER指定监测某个用户产生的I/O。
-P, --processes仅显示进程,默认iotop显示所有线程。
-a, --accumulated显示累积的I/O,而不是带宽。
-k, --kilobytes使用kB单位,而不是对人友好的单位。在非交互模式下,脚本编程有用。
-t, --time 加上时间戳,非交互非模式。
-q, --quiet 禁止头几行,非交互模式。有三种指定方式。
-q 只在第一次监测时显示列名
-qq 永远不显示列名。
-qqq 永远不显示I/O汇总。
交互按键:
和top命令类似,iotop也支持以下几个交互按键。
left和right方向键:改变排序。
r:反向排序。
o:切换至选项--only。
p:切换至--processes选项。
a:切换至--accumulated选项。
q:退出。
i:改变线程的优先级。
slabtop实时显示详细的内核板条缓存信息。它显示按所列排序条件之一排序的顶级缓存的列表。它还会显示一个统计信息头,其中填充了板坯层信息。
选项:
--delay=n, -d n #每n秒更新一次显示的信息,默认是每3秒
--sort=S, -s S #指定排序标准进行排序(排序标准,参照下面或者man手册)
--once, -o #显示一次后退出
--version, -V #显示版本
--help #显示帮助信息
排序标准:
a: sort by number of active objects
b: sort by objects per slab
c: sort by cache size
l: sort by number of slabs
v: sort by number of active slabs
n: sort by name
o: sort by number of objects
p: sort by pages per slab
s: sort by object size
u: sort by cache utilization
输出界面可用的命令:
<SPACEBAR>: 刷新显示内容
Q: 退出
用于显示目前在Linux系统上的文件系统的磁盘使用情况统计。
命令参数
-a, --all 包含所有的具有 0 Blocks 的文件系统
--block-size={SIZE} 使用 {SIZE} 大小的 Blocks
-h, --human-readable 使用人类可读的格式(预设值是不加这个选项的...)
-H, --si 很像 -h, 但是用 1000 为单位而不是用 1024
-i, --inodes 列出 inode 资讯,不列出已使用 block
-k, --kilobytes 就像是 --block-size=1024
-l, --local 限制列出的文件结构
-m, --megabytes 就像 --block-size=1048576
--no-sync 取得资讯前不 sync (预设值)
-P, --portability 使用 POSIX 输出格式
--sync 在取得资讯前 sync
-t, --type=TYPE 限制列出文件系统的 TYPE
-T, --print-type 显示文件系统的形式
-x, --exclude-type=TYPE 限制列出文件系统不要显示 TYPE
-v (忽略)
--help 显示这个帮手并且离开
--version 输出版本资讯并且离开
查看文件的磁盘使用情况
选项:
-a:对所有文件进行统计,而不仅仅是目录;
-B size:使用size字节为一个块,进行统计;
-b:已字节(byte)为计数单位;
-k:已KB(1024byte)为计数单位;
-m:已MB为计数单位;
-c:显示所有文件和目录的大小总和;(就是在最后显示个“总大小 total”好像然并卵)
-D:显示符号链接指向的源文件大小;
-h:已人类可读的方式进行显示;(K,M,G)
-s:仅显示总大小;
-l:重复计算硬链接文件大小;
-L:显示符号链接所指向文件的大小;
-0:不换行输出;
-S:显示目录大小时,不包含子目录大小;
--max-depth N:显示的最大层数;
--time [WORD]:默认显示修改时间,WORD可以设置成ctime、atime;
--time-style STYLE:显示时间使用样式STYLE:full-iso,long-iso,iso,+ FORMAT FORMAT被解释为`date`
选项:
-a:对所有文件进行统计,而不仅仅是目录;
-B size:使用size字节为一个块,进行统计;
-b:已字节(byte)为计数单位;
-k:已KB(1024byte)为计数单位;
-m:已MB为计数单位;
-c:显示所有文件和目录的大小总和;(就是在最后显示个“总大小 total”好像然并卵)
-D:显示符号链接指向的源文件大小;
-h:已人类可读的方式进行显示;(K,M,G)
-s:仅显示总大小;
-l:重复计算硬链接文件大小;
-L:显示符号链接所指向文件的大小;
-0:不换行输出;
-S:显示目录大小时,不包含子目录大小;
--max-depth N:显示的最大层数;
--time [WORD]:默认显示修改时间,WORD可以设置成ctime、atime;
--time-style STYLE:显示时间使用样式STYLE:full-iso,long-iso,iso,+ FORMAT FORMAT被解释为`date`