1. 平均负载的查看

在Linux系统中，如果我们想查看系统的负载，可以通过top指令或者uptime指令。以uptime指令为例，可以看到以下输出：

[root@hadoop05 ~]# uptime
 22:13:29 up 4 min,  3 users,  load average: 1.17, 1.36, 0.63

uptime指令输出数据的各项含义如下

22:13:29                        系统的当前时间
up 4 min                        系统运行的时间
3 users                         登录的用户数
load average: 1.17, 1.36, 0.63  系统在过去的1分钟、5分钟、15分钟内的平均负载

2. 平均负载的正确含义

关于平均负载，有个不太准确理解：平均负载代表单位时间内的cpu使用率。

平均负载的正确含义指的是：单位时间内，系统处于可运行状态（正在使用CPU或者正在等待CPU的进程，stat=R）和不可中断状态（可能在等待IO, stat=D）的平均进程数，和CPU使用率没有直接关系。

2.1 进程的状态

我们可以通过ps -aux指令来查看系统的状态

[root@hadoop05 ~]# ps -aux
USER       PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
root         1  0.2  0.3 128448  6080 ?        Ss   22:09   0:05 /usr/lib/systemd/systemd --switched-root --system --deserialize 21
root         2  0.0  0.0      0     0 ?        S    22:09   0:00 [kthreadd]
root         3  0.5  0.0      0     0 ?        S    22:09   0:11 [ksoftirqd/0]
root         5  0.0  0.0      0     0 ?        S<   22:09   0:00 [kworker/0:0H]
root         6  0.0  0.0      0     0 ?        S    22:09   0:01 [kworker/u128:0]
root         7  0.0  0.0      0     0 ?        S    22:09   0:00 [migration/0]
root         8  0.0  0.0      0     0 ?        S    22:09   0:00 [rcu_bh]
root         9  0.0  0.0      0     0 ?        R    22:09   0:02 [rcu_sched]
root        10  0.0  0.0      0     0 ?        S    22:09   0:00 [watchdog/0]
root        12  0.0  0.0      0     0 ?        S    22:09   0:00 [kdevtmpfs]
root        13  0.0  0.0      0     0 ?        S<   22:09   0:00 [netns]
root        14  0.0  0.0      0     0 ?        S    22:09   0:00 [khungtaskd]
root        15  0.0  0.0      0     0 ?        S<   22:09   0:00 [writeback]
root        16  0.0  0.0      0     0 ?        S<   22:09   0:00 [kintegrityd]
root        17  0.0  0.0      0     0 ?        S<   22:09   0:00 [bioset]
root        18  0.0  0.0      0     0 ?        S<   22:09   0:00 [kblockd]
root        19  0.0  0.0      0     0 ?        S<   22:09   0:00 [md]
root        25  0.0  0.0      0     0 ?        S    22:09   0:00 [kswapd0]
root        26  0.0  0.0      0     0 ?        SN   22:09   0:00 [ksmd]

其中STAT就表示进程的状态，其状态有以下几种：

D    不可中断睡眠 (通常是在IO操作) 收到信号不唤醒和不可运行, 进程必须等待直到有中断发生，一般比较短，在ps指令中不易看到
R   正在运行或可运行（在运行队列排队中）
S   可中断睡眠 (休眠中, 受阻, 在等待某个条件的形成或接受到信号)
T   已停止的 进程收到SIGSTOP, SIGSTP, SIGTIN, SIGTOU信号后停止运行
W   正在换页(2.6.内核之前有效)
X   死进程 (未开启)
Z   僵尸进程  进程已终止, 但进程描述符存在, 直到父进程调用wait4()系统调用后释放BSD风格的
<   高优先级(not nice to other users)
N   低优先级(nice to other users)
L   页面锁定在内存（实时和定制的IO）
s   一个信息头
l   多线程（使用 CLONE_THREAD，像NPTL的pthreads的那样）
+   在前台进程组

2.2. 平均负载数字的含义

load average: 1.17, 1.36, 0.63 拿其中1分钟负载1.17来说，它表示1分钟内活跃的进程数是1.17，单纯看这个数字我们无法判断究竟是负载高了还是低了。

评判之前我们需要先知道系统有几个cpu，可以通过top指令查看%Cpu出现几行，出现几行表示有几个cpu，或者直接查看/proc/cpuinfo文件。

2.3. 平均负载的预测

以下内容摘录于“架构师之路”公众号。系统单核为单核cpu

1）1分钟Load>5，5分钟Load<1，15分钟Load<1：短期内繁忙，中长期空闲，初步判断是一个“抖动”或者是“拥塞前兆”
2）1分钟Load>5，5分钟Load>1，15分钟Load<1：短期内繁忙，中期内紧张，很可能是一个“拥塞的开始”
3）1分钟Load>5，5分钟Load>5，15分钟Load>5：短中长期都繁忙，系统“正在拥塞”
4）1分钟Load<1，5分钟Load>1，15分钟Load>5：短期内空闲，中长期繁忙，不用紧张，系统“拥塞正在好转”

2.4. 平均负载多少合理

一般来说，当平均负载高于cpu数量70%的时候，负载就有点高了，应该要排查下原因。

推荐的方法，还是通过监控系统把平均负载给监控起来，然后根据大量的历史数据来衡量平均负载为多少是合理的。

3. 平均负载与CPU使用率的关系

我们知道平均负载指定的是单位时间内活跃的进程数，不仅包括正在使用CPU的进程，还包括等待CPU和等待IO的进程。

显然平均负载和CPU使用率没有必然的关系，它们之间的关系如下所示：

CPU密集型进程，使用大量CPU会导致平均负载升高，此时这两者是一致的；
I/O密集型进程，等待I/O也会导致平均负载升高，但是CPU使用率却不一定高；
大量等待CPU的进程调度也会导致平均负载升高，此时的CPU使用率也会比较高。

理解Linux系统的平均负载