iostat
iostat主要用于监控系统设备的IO负载情况、IO统计工具,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。
[root@localhost app]# yum list|grep iostat pcp-import-iostat2pcp.x86_64 3.11.8-7.el7 base [root@localhost app]# yum -y install pcp-import-iostat2pcp [root@localhost app]# iostat Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 10/24/2017 _x86_64_ (1 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.44 0.00 0.30 0.04 0.00 99.22 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 0.43 9.55 14.19 737417 1095615 scd0 0.00 0.00 0.00 44 0 [root@localhost app]#
各个输出项目的含义如下:
avg-cpu段:总体cpu使用情况统计信息,对于多核cpu,这里为所有cpu的平均值
%user: 在用户级别运行所使用的CPU的百分比.
%nice: nice操作所使用的CPU的百分比.
%sys: 在系统级别(kernel)运行所使用CPU的百分比.
%iowait: CPU等待硬件I/O时,所占用CPU百分比.它指示cpu用于等待io请求完成的时间,主要看iowait的值。%iowait并不能反应磁盘瓶颈,iowait实际测量的是cpu时间: %iowait = (cpu idle time)/(all cpu time)
%idle: CPU空闲时间的百分比.小于70% IO压力就较大了,一般读取速度有较多的wait。
Device段:各磁盘设备的IO统计信息
tps:每秒进程下发的IO读、写请求数量,该设备每秒的传输次数(Indicate the number of transfers per second that were issued to the device.)。"一次传输"意思是"一次I/O请求"。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。
kB_read/s:每秒从设备(drive expressed)读取的block数据量(一扇区为512bytes),单位为K;
kB_wrtn/s:每秒向设备(drive expressed)写入的block数据量,单位为K;
kB_read:读取的block总数据量,单位为K;
kB_wrtn:写入的block总数量数据量,单位为K。
语法
iostat [options] [interval [count]]
参数
-d [facility]表示,显示设备(磁盘)使用状态,默认监控所有的硬盘设备,可以指定某一设备,如-d sda。;
-k某些使用block为单位的列强制使用Kilobytes为单位,默认单位块
-m 某些使用block为单位的列强制使用MB为单位,默认单位块
[root@localhost app]# iostat -d -k 1 3 #没1秒一次 刷新3次磁盘的使用状态 Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 10/25/2017 _x86_64(1 CPU) Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn fd0 0.00 0.00 0.00 4 0 sda 0.26 4.66 7.25 746585 1161425 scd0 0.00 0.00 0.00 44 0 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn fd0 0.00 0.00 0.00 0 0 sda 0.00 0.00 0.00 0 0 scd0 0.00 0.00 0.00 0 0 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn fd0 0.00 0.00 0.00 0 0 sda 0.00 0.00 0.00 0 0 scd0 0.00 0.00 0.00 0 0 [root@localhost app]# iostat -d -k 1 Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 10/25/2017 _x86_64(1 CPU) Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn fd0 0.00 0.00 0.00 4 0 sda 0.26 4.66 7.25 746585 1161490 scd0 0.00 0.00 0.00 44 0 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn fd0 0.00 0.00 0.00 0 0 sda 0.00 0.00 0.00 0 0 scd0 0.00 0.00 0.00 0 0 ^C [root@localhost app]# iostat -d sda 1 4 Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 10/25/2017 _x86_64(1 CPU) Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 0.26 4.66 7.25 746585 1161502 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 1.01 0.00 1.01 0 1 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 0.00 0.00 0.00 0 0 Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn sda 0.00 0.00 0.00 0 0 [root@localhost app]#
-x 显示和io相关的扩展数据
[root@localhost app]# iostat -d sda -x -k 1 1 Linux 3.10.0-514.el7.x86_64 (localhost.localdomain) 10/25/2017 _x86_64_ (1 CPU) Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0.02 0.11 0.12 0.14 0 4.62 7.19 90.47 0.01 26.45 11.86 38.50 2.43 0.06 [root@localhost ~]# iostat -x Linux 3.10.0-327.el7.x86_64 (localhost.localdomain) 01/09/2018 _x86_64_ (8 CPU) avg-cpu: %user %nice %system %iowait %steal %idle 0.06 0.00 0.02 0.00 0.00 99.92 Device: rrqm/s wrqm/s r/s w/s rkB/s wkB/s avgrq-sz avgqu-sz await r_await w_await svctm %util sda 0.00 0.00 0.00 0.19 0.20 1.72 19.47 0.00 0.42 2.51 0.36 0.37 0.01 [root@localhost ~]#
rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);
wrqm/s:每秒这个设备相关的写入请求有多少被Merge了。
rsec/s:每秒读取的扇区数;
wsec/:每秒写入的扇区数。
rKB/s:The number of read requests that were issued to the device per second,单位为K;
wKB/s:The number of write requests that were issued to the device per second,单位为K;
r/s 和 w/s 分别是每秒的读操作和写操作,而rKB/s 和wKB/s 列以每秒千字节为单位显示了读和写的数据量 如果这两对数据值都很高的话说明磁盘io操作是很频繁。
avgrq-sz 平均请求扇区的大小,单位是扇区
avgqu-sz 是平均请求队列的长度。毫无疑问,队列长度越短越好。
await: 每一个IO请求的处理的平均时间(单位是毫秒),这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。
这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。
svctm 表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长, 系统上运行的应用程序将变慢。svctm一项正常时间在20ms左右(一次读写就是一次寻到+一次旋转延迟+数据传输的时间。由于,现代硬盘数据传输就是几微秒或者几十微秒的事情,远远小于寻道时间2~20ms和旋转延迟4~8ms,所以只计算这两个时间就差不多了,也就是15~20ms。只要大于20ms,就必须考虑是否交给磁盘读写的次数太多,导致磁盘性能降低了)
正常情况下svctm应该是小于await值的,而svctm的大小和磁盘性能有关,CPU、内存的负荷也会对svctm值造成影响,过多的请求也会间接的导致svctm值的增加。
await值的大小一般取决与svctm的值和I/O队列长度以及I/O请求模式,如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢,此时可以通过更换更快的硬盘来解决问题。
%util: 在统计时间内所有处理IO时间,除以总共统计时间,util = (r/s+w/s) * (svctm/1000),util=(0.12+0.14)*(2.43/1000)=0.0006318,所以该参数暗示了设备的繁忙程度,即一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的
。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。
如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。 idle小于70% IO压力就较大了,一般读取速度有较多的wait.
-p device | ALL
与-x选项互斥,用于显示块设备及系统分区的统计信息.也可以在-p后指定一个设备名,如:
# iostat -p hda
或显示所有设备
# iostat -p ALL
-c 获取cpu部分状态值
-t 在输出数据时,打印搜集数据的时间.
-V 打印版本号和帮助信息.
top 命令
Tasks:
total 进程总数
running 正在运行的进程数
sleeping 睡眠的进程数
stopped 停止的进程数
zombie 僵尸进程数
Cpu(s):
us 用户空间占用CPU百分比
sy 内核空间占用CPU百分比
ni 用户进程空间内改变过优先级的进程占用CPU百分比
id 空闲CPU百分比
wa 等待输入输出的CPU时间百分比
wa 的百分比可以大致的体现出当前的磁盘io请求是否频繁。如果 wa的数量比较大,说明等待输入输出的的io比较多。
vmstat
vmstat 命令报告关于线程、虚拟内存、磁盘、陷阱和 CPU 活动的统计信息。由 vmstat 命令生成的报告可以用于平衡系统负载活动。系统范围内的这些统计信息(所有的处理器中)都计算出以百分比表示的平均值,或者计算其总和。
格式: vmstat [-V] [-n] [-S unit] [delay [count]]
参数解释:
-V:显示vmstat版本信息
-n:只在开始时显示一次各字段名称
-a:显示活跃和非活跃内存
-d:显示各个磁盘相关统计信息
-D:显示磁盘总体信息
-p:显示指定磁盘分区统计信息
-s:显示内存相关统计信息及多种系统活动数量
-m:显示slabinfo
-t:在输出信息的时候也将时间一并输出出来
-S:使用指定单位显示。参数有k、K、m、M,分别代表1000、1024、1000000、1048576字节(byte)。默认单位为K(1024bytes)
delay:刷新时间间隔。如果不指定,只显示一条结果
count:刷新次数。如果不指定刷新次数,但指定了刷新时间间隔,这时刷新次数为无穷
r 表示运行队列(就是说多少个进程真的分配到CPU),当这个值超过了CPU数目,就会出现CPU瓶颈了。
b 表示阻塞的进程,在等待资源的进程数,比如正在等待I/O或者内存交换等。
swpd 虚拟内存已使用的大小(单位KB),
free 空闲的物理内存的大小(单位KB),
buff Linux/Unix系统是用来存储(单位KB)目录里面有什么内容,权限等的缓存,
cache cache直接用来记忆我们打开的文件,给文件做缓冲,把空闲的物理内存的一部分拿来做文件和目录的缓存,是为了提高程序执行的性能,当程序使用内存时,buffer/cached会很快地被使用。)
si 每秒从磁盘读入虚拟内存的大小(单位:KB/秒),如果这个值大于0,表示物理内存不够用或者内存泄露了,要查找耗内存进程解决掉。我的机器内存充裕,一切正常。
so 每秒虚拟内存写入磁盘的大小(单位:KB/秒),如果这个值大于0,同上。
bi 块设备每秒接收的块数量,单位kb/s,这里的块设备是指系统上所有的磁盘和其他块设备,默认块大小是1024byte,
bo 块设备每秒发送的块数量,单位kb/s,例如我们读取文件,bo就要大于0。bi和bo一般都要接近0,不然就是IO过于频繁,需要调整。
注意:如果bi+bo的值过大,且wa值较大,则表示系统磁盘IO瓶颈
in 每秒CPU的中断次数,包括时间中断
cs 每秒上下文切换次数,例如我们调用系统函数,就要进行上下文切换,线程的切换,也要进程上下文切换,这个值要越小越好,太大了,要考虑调低线程或者进程的数目,上下文切换次数过多表示你的CPU大部分浪费在上下文切换,导致CPU干正经事的时间少了,CPU没有充分利用,是不可取的。
us 用户CPU时间
sy 系统CPU时间,如果太高,表示系统调用时间长,例如是IO操作频繁。
id 空闲 CPU时间,一般来说,id + us + sy = 100,一般我认为id是空闲CPU使用率,us是用户CPU使用率,sy是系统CPU使用率。
wa:表示IO等待所占用的CPU时间百分比,wa值越高,说明I/O等待越严重,根据经验wa的参考值为20%,如果超过20%,说明I/O等待严重,引起I/O等待的原因可能是磁盘大量随机读写造成的,也可能是磁盘或者监控器的贷款瓶颈(主要是块操作)造成的
iotop
用来监视磁盘I/O使用状况的top类工具,IO统计工具如iostat,nmon等大多数是只能统计到per设备的读写情况,使用iotop命令可以很方便的查看每个进程是如何使用IO的。otop使用Python语言编写而成,要求Python2.5(及以上版本)和Linux kernel2.6.20(及以上版本);
一般排查系统IO性能时,先使用iostat查看系统IO是否有延迟,如果有延迟可以通过iotop来查看是哪个进程占用了IO
yum install iotop
iotop(选项)
--version #显示版本号
-h, --help #显示帮助信息
-o, --only #显示进程或者线程实际上正在做的I/O,而不是全部的,可以随时切换按o
-b, --batch #运行在非交互式的模式
-n NUM, --iter=NUM #在非交互式模式下,设置显示的次数,
-d SEC, --delay=SEC #设置显示的间隔秒数,支持非整数值
-p PID, --pid=PID #只显示指定PID的信息
-u USER, --user=USER #显示指定的用户的进程的信息
-P, --processes #只显示进程,一般为显示所有的线程
-a, --accumulated #显示从iotop启动后每个线程完成了的IO总数
-k, --kilobytes #以千字节显示
-t, --time #在每一行前添加一个当前的时间
-q, --quie
快捷键:
左右箭头:改变排序方式,默认是按IO排序。
r:改变排序顺序。
o:只显示有IO输出的进程。
p:进程/线程的显示方式的切换。
a:显示累积使用量。
q:退出。
服务器的IO负载很高(iostat中的util)