老而长谈load负载排查

昨晚一台业务机宕了，好在有负载均衡没什么影响，记录一下此次故障。

一、现象

负载高的时候监控查看是30左右，早上6点多，系统日志没找到原因，懵逼。。

图片.png

重启后负载还是很高

[root@hotel01-162 ~]# top
top - 13:55:48 up  4:56,  1 user,  load average: 3.29, 3.37, 3.29
Tasks: 1680 total,   1 running, 1679 sleeping,   0 stopped,   0 zombie
Cpu0  :  6.7%us,  0.0%sy,  0.0%ni, 66.7%id, 20.0%wa,  0.0%hi,  6.7%si,  0.0%st
Cpu1  :  6.2%us,  6.2%sy,  0.0%ni, 62.5%id, 18.8%wa,  0.0%hi,  6.2%si,  0.0%st
Cpu2  :  6.7%us,  0.0%sy,  0.0%ni, 66.7%id, 26.7%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu3  :  0.0%us,  0.0%sy,  0.0%ni, 93.3%id,  0.0%wa,  0.0%hi,  6.7%si,  0.0%st
Cpu4  :  6.2%us,  0.0%sy,  0.0%ni, 56.2%id, 37.5%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu5  :  0.0%us,  5.9%sy,  0.0%ni, 58.8%id, 35.3%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu6  :  0.0%us,  0.0%sy,  0.0%ni,100.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Cpu7  : 12.5%us, 12.5%sy,  0.0%ni, 75.0%id,  0.0%wa,  0.0%hi,  0.0%si,  0.0%st
Mem:  16466580k total, 16131992k used,   334588k free,   487060k buffers
Swap:        0k total,        0k used,        0k free,  5334900k cached

  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND
27338 root      20   0 18272 2624 1012 R 25.6  0.0   0:03.06 top
  481 root      20   0     0    0    0 D  6.4  0.0   6:38.49 jbd2/vda1-8
 2044 root      20   0 83000 3476 2572 S  6.4  0.0   4:26.28 master
 2072 postfix   20   0  118m  40m 2684 S  6.4  0.3   6:27.90 qmgr
 2279 nginx     20   0 58452 4776 2304 S  6.4  0.0  11:44.43 nginx
 7770 nginx     20   0  452m  81m  71m S  6.4  0.5   0:44.78 php-fpm
 7771 nginx     20   0  452m  80m  71m S  6.4  0.5   0:47.36 php-fpm
10678 postfix   20   0 83088 3560 2608 S  6.4  0.0   1:01.61 trivial-rewrite
14778 nginx     20   0  536m 113m  94m S  6.4  0.7   1:14.59 php-fpm
14789 nginx     20   0  452m 101m  93m S  6.4  0.6   1:18.69 php-fpm
14792 nginx     20   0  452m  99m  91m S  6.4  0.6   1:13.89 php-fpm
14793 nginx     20   0  452m  99m  91m S  6.4  0.6   1:15.19 php-fpm
29723 postfix   20   0 83224 3624 2704 S  6.4  0.0   0:00.04 cleanup

二、排查分析,利用工具快速定位

top分析
根据top，可以看出php-fpm比例很高，而且通过%us占用可以看出用户占用cpu很高，还有一个就是qmgr进程系统邮件用户挺忙，那是他引起的负载高吗？不急继续分析。
vmstat
从下方参数介绍对比可以看出，
1.等待资源进程数较多，参考procs b选项
2.磁盘频繁写入，io繁忙
r: 列表示运行和等待cpu时间片的进程数，如果长期大于1，说明cpu不足，需要增加cpu。
b: 列表示在等待资源的进程数，比如正在等待I/O、或者内存交换等。
bi: 从块设备读入数据的总量（读磁盘）（每秒kb）
bo: 块设备写入数据的总量（写磁盘）（每秒kb),建议bi+bo参考值为1000，如果超过1000，而且wa值较大应该考虑调整磁盘负载
wa:wa展示了io等待所占cpu的百分比，参考值为30%，超过即io繁忙

[root@hotel01-162 ~]# vmstat 1 定位load问题
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu-----
r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
1  1      0 195704 487832 5316192    0    0   239  1386  159   50  6  5 75 15  0
0  1      0 195332 487836 5316712    0    0   500  8556 17851 16244  4  3 79 14  0
0  2      0 191984 487840 5316760    0    0   280  9592 21260 19762  4  3 82 10  0
1  1      0 190224 487840 5317548    0    0   548  9828 21580 19883  4  4 76 16  0
3  1      0 194348 487848 5317568    0    0   408  8816 22221 19955  5  4 77 14  0
0  2      0 192884 487868 5317796    0    0   320  9392 25902 24860  6  5 79 11  0
0  1      0 191148 487872 5318480    0    0   428  8660 21080 19311  5  3 75 17  0
1  1      0 188684 487872 5318508    0    0   464  9800 18898 18263  4  4 78 14  0
0  2      0 185552 487880 5318880    0    0    56  8292 19263 18062  5  3 81

iostat 定位哪个磁盘在忙
分析可以看出vda盘符很忙，频繁写入。
　util:如果 %util 接近 100%，说明产生的I/O请求太多，I/O系统已经满负荷，该磁盘

[root@hotel01-162 ~]# iostat  -x 1
Linux 2.6.32-696.6.3.el6.x86_64 (hotel01-162)   2019年08月20日     _x86_64_    (8 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           5.61    0.00    4.65   14.55    0.00   75.20

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
vda               2.62  2060.25   31.31  651.42   368.81 21688.25    32.31     3.83    5.61   14.11    5.20   1.43  97.31
vdb               0.10    59.16   96.25    3.65  3252.15   502.84    37.58     0.60    5.99    4.92   34.16   0.24   2.39

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           5.14    0.00    3.63   15.29    0.00   75.94

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
vda               0.00  1696.00   39.00  522.00   336.00 17736.00    32.21     1.86    3.32   13.21    2.59   1.76  98.50
vdb               0.00     0.00    5.00    0.00    56.00     0.00    11.20     0.00    0.00    0.00    0.00   0.00   0.00

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           4.01    0.00    3.88   11.15    0.00   80.95
Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
vda               0.00  1388.00    7.00  491.00    56.00 14848.00    29.93     1.34    2.81   18.00    2.60   1.91  95.30
vdb               0.00    13.00    3.00   15.00    24.00   224.00    13.78     0.03    1.83    0.00    2.20   0.17   0.30

lsof 定位磁盘写入问题
可以直接用 lsof 指定相关目录，看哪些程序在操作。
比如：lsof /

sendmail  14120    root  mem    REG  252,1     106160  657093 /usr/lib64/libsasl2.so.2.0.23
sendmail  14120    root  mem    REG  252,1     596864  131096 /lib64/libm-2.12.so
sendmail  14120    root  mem    REG  252,1    1584904  658287 /usr/lib64/mysql/libmysqlclient.so.16.0.0
sendmail  14120    root  mem    REG  252,1     183080  131171 /lib64/libpcre.so.0.0.1
sendmail  14120    root  mem    REG  252,1      60512  131267 /lib64/liblber-2.4.so.2.10.3
sendmail  14120    root  mem    REG  252,1     330896  131269 /lib64/libldap-2.4.so.2.10.3
sendmail  14120    root  mem    REG  252,1     159312  131076 /lib64/ld-2.12.so
postdrop  14123    root  mem    REG  252,1      44472  131116 /lib64/librt-2.12.so
postdrop  14123    root  mem    REG  252,1      20024  131094 /lib64/libdl-2.12.so
postdrop  14123    root  mem    REG  252,1      88600  131139 /lib64/libz.so.1.2.3
postdrop  14123    root  mem    REG  252,1      40872  131092 /lib64/libcrypt-2.12.so
postdrop  14123    root  mem    REG  252,1     244624  131493 /lib64/libnspr4.so
postdrop  14123    root  mem    REG  252,1      18720  131494 /lib64/libplc4.so
postdrop  14123    root  mem    REG  252,1      14528  131495 /lib64/libplds4.so
postdrop  14123    root  mem    REG  252,1     183512  656960 /usr/lib64/libnssutil3.so
postdrop  14123    root  mem    REG  252,1    1316592  658053 /usr/lib64/libnss3.so
postdrop  14123    root  mem    REG  252,1     181176  658048 /usr/lib64/libsmime3.so
postdrop  14123    root  mem    REG  252,1     311736  660060 /usr/lib64/libssl3.so
postdrop  14123    root  mem    REG  252,1    1924768  131088 /lib64/libc-2.12.so
postdrop  14123    root  mem    REG  252,1     111440  131114 /lib64/libresolv-2.12.so
postdrop  14123    root  mem    REG  252,1     113904  131098 /lib64/libnsl-2.12.so
postdrop  14123    root  mem    REG  252,1    1525560  131161 /lib64/libdb-

查看进程

[root@hotel01-162 ~]# ps -ef|grep sendmail|wc -l
290
[root@hotel01-162 ~]# ps -ef|grep postdrop|wc -l
290
[root@hotel01-162 ~]#

三、解决

已经定位问题，是由于邮件系统频繁写入导致。
经过lsof输出，写入较多的是邮件系统，警察看/var/log/maillog信息，看到有一个废弃的域名，之前用来做监控系统的，有个短信邮件的功能是根据计划任务去每分钟执行发送的，由于发送失败频繁发送系统邮件，导致io占用排队。

[root@hotel01-162 maildrop]# top
top - 15:57:06 up  6:57,  2 users,  load average: 0.50, 2.04, 9.68
Tasks: 1184 total,   1 running, 1183 sleeping,   0 stopped,   0 zombie
Cpu0  : 10.3%us,  4.1%sy,  0.0%ni, 63.1%id, 20.2%wa,  0.0%hi,  2.3%si,  0.0%st
Cpu1  : 10.1%us,  3.9%sy,  0.0%ni, 71.5%id, 12.1%wa,  0.0%hi,  2.4%si,  0.0%st
Cpu2  :  7.5%us,  3.0%sy,  0.0%ni, 79.7%id,  7.7%wa,  0.0%hi,  2.1%si,  0.0%st
Cpu3  :  7.0%us,  2.9%sy,  0.0%ni, 82.2%id,  5.3%wa,  0.0%hi,  2.6%si,  0.0%st
Cpu4  :  2.2%us,  2.7%sy,  0.0%ni, 54.4%id, 40.5%wa,  0.0%hi,  0.2%si,  0.0%st
Cpu5  :  1.7%us,  3.4%sy,  0.0%ni, 65.7%id, 29.0%wa,  0.0%hi,  0.2%si,  0.0%st
Cpu6  :  1.8%us,  2.3%sy,  0.0%ni, 94.2%id,  1.4%wa,  0.0%hi,  0.3%si,  0.0%st
Cpu7  :  1.6%us,  2.5%sy,  0.0%ni, 93.9%id,  1.2%wa,  0.0%hi,  0.8%si,  0.0%st
Mem:  16466580k total, 16287848k used,   178732k free,      400k buffers
Swap:        0k total,        0k used,        0k free,   594720k cached

四、建议

请不要忽略在我们操作服务器时提示的邮件报错，遇到问题多借助系统工具能解决大多数问题。

You have new mail in /var/spool/mail/root

老而长谈load负载排查

一、现象

二、排查分析,利用工具快速定位

三、解决

四、建议

你可能感兴趣的:(老而长谈load负载排查)