理解Linux系统的平均负载

1. 平均负载的查看


在Linux系统中,如果我们想查看系统的负载,可以通过top指令或者uptime指令。以uptime指令为例,可以看到以下输出:

[root@hadoop05 ~]# uptime
 22:13:29 up 4 min,  3 users,  load average: 1.17, 1.36, 0.63

uptime指令输出数据的各项含义如下

22:13:29                        系统的当前时间
up 4 min                        系统运行的时间
3 users                         登录的用户数
load average: 1.17, 1.36, 0.63  系统在过去的1分钟、5分钟、15分钟内的平均负载

2. 平均负载的正确含义


关于平均负载,有个不太准确理解:平均负载代表单位时间内的cpu使用率。

平均负载的正确含义指的是:单位时间内,系统处于可运行状态(正在使用CPU或者正在等待CPU的进程,stat=R)和不可中断状态(可能在等待IO, stat=D)的平均进程数,和CPU使用率没有直接关系。

2.1 进程的状态

我们可以通过ps -aux指令来查看系统的状态

[root@hadoop05 ~]# ps -aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  0.2  0.3 128448  6080 ?        Ss   22:09   0:05 /usr/lib/systemd/systemd --switched-root --system --deserialize 21
root         2  0.0  0.0      0     0 ?        S    22:09   0:00 [kthreadd]
root         3  0.5  0.0      0     0 ?        S    22:09   0:11 [ksoftirqd/0]
root         5  0.0  0.0      0     0 ?        S<   22:09   0:00 [kworker/0:0H]
root         6  0.0  0.0      0     0 ?        S    22:09   0:01 [kworker/u128:0]
root         7  0.0  0.0      0     0 ?        S    22:09   0:00 [migration/0]
root         8  0.0  0.0      0     0 ?        S    22:09   0:00 [rcu_bh]
root         9  0.0  0.0      0     0 ?        R    22:09   0:02 [rcu_sched]
root        10  0.0  0.0      0     0 ?        S    22:09   0:00 [watchdog/0]
root        12  0.0  0.0      0     0 ?        S    22:09   0:00 [kdevtmpfs]
root        13  0.0  0.0      0     0 ?        S<   22:09   0:00 [netns]
root        14  0.0  0.0      0     0 ?        S    22:09   0:00 [khungtaskd]
root        15  0.0  0.0      0     0 ?        S<   22:09   0:00 [writeback]
root        16  0.0  0.0      0     0 ?        S<   22:09   0:00 [kintegrityd]
root        17  0.0  0.0      0     0 ?        S<   22:09   0:00 [bioset]
root        18  0.0  0.0      0     0 ?        S<   22:09   0:00 [kblockd]
root        19  0.0  0.0      0     0 ?        S<   22:09   0:00 [md]
root        25  0.0  0.0      0     0 ?        S    22:09   0:00 [kswapd0]
root        26  0.0  0.0      0     0 ?        SN   22:09   0:00 [ksmd]

其中STAT就表示进程的状态,其状态有以下几种:

D    不可中断睡眠 (通常是在IO操作) 收到信号不唤醒和不可运行, 进程必须等待直到有中断发生,一般比较短,在ps指令中不易看到
R   正在运行或可运行(在运行队列排队中)
S   可中断睡眠 (休眠中, 受阻, 在等待某个条件的形成或接受到信号)
T   已停止的 进程收到SIGSTOP, SIGSTP, SIGTIN, SIGTOU信号后停止运行
W   正在换页(2.6.内核之前有效)
X   死进程 (未开启)
Z   僵尸进程  进程已终止, 但进程描述符存在, 直到父进程调用wait4()系统调用后释放BSD风格的
<   高优先级(not nice to other users)
N   低优先级(nice to other users)
L   页面锁定在内存(实时和定制的IO)
s   一个信息头
l   多线程(使用 CLONE_THREAD,像NPTL的pthreads的那样)
+   在前台进程组

2.2. 平均负载数字的含义

load average: 1.17, 1.36, 0.63 拿其中1分钟负载1.17来说,它表示1分钟内活跃的进程数是1.17,单纯看这个数字我们无法判断究竟是负载高了还是低了。

评判之前我们需要先知道系统有几个cpu,可以通过top指令查看%Cpu出现几行,出现几行表示有几个cpu,或者直接查看/proc/cpuinfo文件。

2.3. 平均负载的预测

以下内容摘录于“架构师之路”公众号。系统单核为单核cpu

1)1分钟Load>5,5分钟Load<1,15分钟Load<1:短期内繁忙,中长期空闲,初步判断是一个“抖动”或者是“拥塞前兆”
2)1分钟Load>5,5分钟Load>1,15分钟Load<1:短期内繁忙,中期内紧张,很可能是一个“拥塞的开始”
3)1分钟Load>5,5分钟Load>5,15分钟Load>5:短中长期都繁忙,系统“正在拥塞”
4)1分钟Load<1,5分钟Load>1,15分钟Load>5:短期内空闲,中长期繁忙,不用紧张,系统“拥塞正在好转”

2.4. 平均负载多少合理

一般来说,当平均负载高于cpu数量70%的时候,负载就有点高了,应该要排查下原因。

推荐的方法,还是通过监控系统把平均负载给监控起来,然后根据大量的历史数据来衡量平均负载为多少是合理的。

3. 平均负载与CPU使用率的关系


我们知道平均负载指定的是单位时间内活跃的进程数,不仅包括正在使用CPU的进程,还包括等待CPU和等待IO的进程。

显然平均负载和CPU使用率没有必然的关系,它们之间的关系如下所示:

  • CPU密集型进程,使用大量CPU会导致平均负载升高,此时这两者是一致的;
  • I/O密集型进程,等待I/O也会导致平均负载升高,但是CPU使用率却不一定高;
  • 大量等待CPU的进程调度也会导致平均负载升高,此时的CPU使用率也会比较高。

你可能感兴趣的:(理解Linux系统的平均负载)