iostat对磁盘IO情况实时监控

kafka集群搭建完成后,对集群进行压测。这样的话,就需要实时查看kafka集群机器的IO情况。那怎么办呢?其实linux是有一个命令来做这个事儿的。这个命令就是iostat。下面将详细介绍一下这个命令。

  1. 用途
    iostat用于输出CPU和磁盘I/O相关的统计信息。
iostat.png

如果%iowait的值过高,表示硬盘存在I/O瓶颈
如果%idle值高,表示CPU较空闲
如果%idle值高但系统响应慢时,可能是CPU等待分配内存,应加大内存容量。
如果%idle值持续低于10,表明CPU处理能力相对较低,系统中最需要解决的资源是CPU。

2、深层理解
iostat数据来自哪里呢???其实这些数据来自/proc/diskstats

diskstats.png

指标讲解可以参照这个:https://www.kernel.org/doc/Documentation/iostats.txt
我们以红色方框的这条数据为例来讲解:
8:主设备号;
16:从设备号
sdb:设备名
从第4个数据开始,是一系列指标信息:
974:(rd_ios) 读操作的次数
0:(rd_merges)合并读操作的次数。如果两个读操作读取相邻的数据块,那么可以被合并成1个。
686058:(rd_sectors)读取的扇区数量
36129:(rd_ticks)读操作消耗的时间(以毫秒为单位)。每个读操作从__make_request()开始计时,到end_that_request_last()为止,包括了在队列中等待的时间。
1231707:(wr_ios)写操作的次数
41463:(wr_merges)合并写操作的次数
996643025:(wr_sectors)写入的扇区数量
3166420811:(wr_ticks)写操作消耗的时间(以毫秒为单位)
0:(in_flight): 当前未完成的I/O数量。在I/O请求进入队列时该值加1,在I/O结束时该值减1。 注意:是I/O请求进入队列时,而不是提交给硬盘设备时。
27884188:(io_ticks)该设备用于处理I/O的自然时间(wall-clock time)
3166454597:(time_in_queue)对字段#10(io_ticks)的加权值

  1. 参数讲解
    1)常用参数讲解
    -x:输出扩展信息。
iostat-x.png

在sdb这块磁盘上:
❉每秒向磁盘上写3M【3164.76kb】左右数据(wkB/s值)
❉每秒有8次IO操作(r/s+w/s),其中以写操作为主体
❉平均每次IO请求等待时间(await)为2516.95毫秒,处理时间为19.14毫秒
❉等待处理的IO请求队列(avgqu-sz)中,平均有20.51个请求驻留

-d:仅显示磁盘统计信息,与-c选项互斥

iostat-d.png

-k:以K为单位显示每秒的磁盘请求数,默认单位块

iostat-k.png

-c:仅显示CPU统计信息,与-d选项互斥

iostat-c.png

2)其他参数讲解
-m:用“mbytes/秒”代替“块/秒”显示统计信息

iostat-m.png

-t:显示终端和CPU的信息

iostat-t.png

-N:显示磁盘阵列(LVM) 信息

iostat-N.png

-h:可读性更好的NFS目录信息统计

iostat-h.png
  1. 实践
    (1)iostat -d -k 1 10
    查看TPS和吞吐量信息(磁盘读写速度单位为KB),每1s刷新 ,刷新10次结束
iostat-d-k-1-10.png

指标解释:
kB_read/s:每秒从驱动器读入的数据量,单位为K.
kB_wrtn/s:每秒向驱动器写入的数据量,单位为K
kB_read:读入的数据总量,单位为K.
kB_wrtn:写入的数据总量,单位为K.
rrqm/s:将读入请求合并后,每秒发送到设备的读入请求数.
wrqm/s:将写入请求合并后,每秒发送到设备的写入请求数.

(2)iostat -x -d -k 1 10
查看磁盘统计信息及扩展信息(磁盘读写速度单位为KB),每1s刷新 ,刷新10次结束

iostat-x-d-k-1-10.png

在sdb这块磁盘上,第2s时:
❉每秒向磁盘上写24M【24064.00kb】左右数据(wkB/s值)
❉每秒有47次IO操作(r/s+w/s),全部是写入操作
❉平均每次IO请求等待时间(await)为4100.83ms,处理时间为21.30ms
❉等待处理的IO请求队列(avgqu-sz)中,平均有90.33个请求驻留
来一个简单的计算:%util = (r/s+w/s) * (svctm/1000)
上图中:%util =(0+47) * (21.30/1000) = 1.0011
与图中显示的结果是一致的。

指标解释:
rrqm/s:每秒对该设备的读请求被合并次数,文件系统会对读取同块(block)的请求进行合并;
wrqm/s:每秒对该设备的写请求被合并次数。
rsec/s:每秒完成的读次数;
wsec/:每秒完成的写次数。
rKB/s:每秒读数据量(kB为单位);
wKB/s:每秒写数据量(kB为单位);
avgrq-sz:平均每次IO操作的数据量(扇区数为单位)
avgqu-sz:平均等待处理的IO请求队列长度,队列长度越短越好。
await:每一个IO请求的处理的平均时间(单位是微秒毫秒)。这里可以理解为IO的
响应时间,一般 地系统IO响应时间应该低于5ms,如果大于10ms就比较大 了。这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短, 反之差值越大,队列时间越长,说明系统出了问题。
svctm:表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表 示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太 长,系统上运行的应用程序将变慢。
%util: 在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8 秒在处理IO,而0.2秒闲置,那么该设备的%util = 0.8/1 = 80%,所以该参数暗示了设备的繁 忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。

参考博客:
https://www.cnblogs.com/gaoyuechen/p/8075421.html
https://blog.csdn.net/bingtang5/article/details/84611839
https://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858810.html

你可能感兴趣的:(iostat对磁盘IO情况实时监控)