day21进程管理

如果管理进程kill、killall、pkill

kill 正常停止 平滑重启 强制停止

kill PID 正常停止一个程序
发送停止信号,当然nginx 服务有停止的脚本 systemctl stop nginx

[root@m01 ~]#ps -aux |grep nginx    #nginx状态开启
root       7441  0.0  0.1  46356  1132 ?        Ss   12:31   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      7442  0.0  0.2  46828  2276 ?        S    12:31   0:00 nginx: worker process
root       8970  0.0  0.0 112708   972 pts/1    R+   14:53   0:00 grep --color=auto nginx
[root@m01 ~]#kill 7441            #正常停止nginx
[root@m01 ~]#ps -aux |grep nginx   #查询nginx以停止
root       8976  0.0  0.0 112708   972 pts/1    R+   14:54   0:00 grep --color=auto nginx
[root@m01 ~]#

kill -1 PID 平滑重载配置文件
发送重载信号,例如 nginx 的配置文件发生改变,希望重新加载
相当于systemctl reload nginx
平滑重启服务 PID 不变 已连接的客户不需要重新连接

[root@m01 ~]#ps aux |grep nginx
root       9022  0.0  0.0  46356   960 ?        Ss   15:00   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      9023  0.0  0.1  46828  1924 ?        S    15:00   0:00 nginx: worker process
root       9025  0.0  0.0 112708   976 pts/1    R+   15:00   0:00 grep --color=auto nginx
[root@m01 ~]#kill -1 9022
[root@m01 ~]#ps aux |grep nginx
root       9022  0.0  0.1  46488  1916 ?        Ss   15:00   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      9026  0.0  0.2  46940  2036 ?        S    15:00   0:00 nginx: worker process
root       9028  0.0  0.0 112708   976 pts/1    R+   15:00   0:00 grep --color=auto nginx
[root@m01 ~]#

kill -9 PID 强制杀死进程 (对于mysql这类有状态的慎用)
发送强制停止信号,当无法停止服务时,可强制终止信号
强制停止某个进程 ,慎用 ,服务强行停止可能同步不完整,后开启失败

[root@m01 ~]#ps aux |grep nginx
root       9022  0.0  0.1  46488  1916 ?        Ss   15:00   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      9026  0.0  0.2  46940  2036 ?        S    15:00   0:00 nginx: worker process
root       9044  0.0  0.0 112708   976 pts/1    R+   15:04   0:00 grep --color=auto nginx
[root@m01 ~]#kill -9 9022
[root@m01 ~]#ps aux |grep nginx
root       9049  0.0  0.0 112708   976 pts/1    R+   15:05   0:00 grep --color=auto nginx
[root@m01 ~]#
killall Name 批量干掉程序

Linux系统中的killall、pkill命令用于杀死指定名字的进程。我们可以使用kill命令杀死指定进程PID的进程,如果要找到我们需要杀死的进程,我们还需要在之前使用ps等命令再配合grep来查找进程,而killall、pkill把这两个过程合二为一,是一个很好用的命令。

使用pkill踢出从远程登录到本机的用户,终止pts/0上所有进程, 并且bash也结束(用户被强制退出)

[root@m01 ~]#ps aux |grep nginx
root       9132  0.0  0.0  46356   964 ?        Ss   15:22   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      9133  0.0  0.1  46828  1928 ?        S    15:22   0:00 nginx: worker process
root       9135  0.0  0.0 112708   972 pts/1    R+   15:22   0:00 grep --color=auto nginx
[root@m01 ~]#killall nginx
[root@m01 ~]#ps aux |grep nginx
root       9140  0.0  0.0 112708   976 pts/1    R+   15:24   0:00 grep --color=auto nginx
[root@m01 ~]#
pkill name 批量干掉程序

通过服务名称杀掉进程

[root@m01 ~]#ps aux |grep nginx
root       9101  0.0  0.0  46356   964 ?        Ss   15:21   0:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf
nginx      9102  0.0  0.1  46828  1928 ?        S    15:21   0:00 nginx: worker process
root       9119  0.0  0.0 112708   976 pts/1    R+   15:21   0:00 grep --color=auto nginx
[root@m01 ~]#pkill nginx
[root@m01 ~]#ps aux |grep nginx
root       9124  0.0  0.0 112708   972 pts/1    R+   15:22   0:00 grep --color=auto nginx

管理后台进程

什么是后台进程

通常进程都会在终端前台运行,一旦关闭终端,进程也会随着结束,那么此时我们就希望进程能在后台运行,就是将在前台运行的进程放入后台运行,这样及时我们关闭了终端也不影响进程的正常运行。

我们为什么要将进程放入后台运行

比如:我们此前在国内服务器往国外服务器传输大文件时,由于网络的问题需要传输很久,如果在传输的过程中出现网络抖动或者不小心关闭了终端则会导致传输失败,如果能将传输的进程放入后台,是不是就能解决此类问题了。

使用什么工具将进程放入后台

早期的时候大家都选择使用&符号将进程放入后台,然后在使用jobs、bg、fg等方式查看进程状态,但太麻烦了。也不直观,所以我们推荐使用screen

screen shi使用方法

-S 创建一个后台窗口
ctul +a+d 退出 保持后台 运行
-list 查看后台窗口有几个
-r 进入后台窗口
exit 退出
安装

[root@zhaoshuang ~]# yum install screen -y

开启一个screen窗口,指定名称

[root@zhaoshuang ~]#screen -S wget
                            #后弹出个空白窗口  输入要放入后台的命令


在screen窗口中执行任务即可

[root@zhaoshuang ~]#wget https://mirrors.aliyun.com/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-LiveGNOME-1810.iso
18% [======>                                   ] 275,078,427 6.68MB/s  eta 2m 25s 

平滑的退出screen,但不会终止screen中的任务。注意: 如果使用exit 才算真的关闭screen窗口

ctrl+a+d

查看当前正在运行的screen有哪些

[root@zhaoshuang ~]#screen -list
There is a screen on:
    7533.wget   (Detached)
1 Socket in /var/run/screen/S-root.

[root@zhaoshuang ~]#

进入正在运行的screen

[root@oldboy ~]# screen -r wget
[root@oldboy ~]# screen -r 7533

停止退出

[root@zhaoshuang ~]#wget https://mirrors.aliyun.com/centos/7.6.1810/isos/x86_64/CentOS-7-x86_64-LiveKDE-1810.iso
--2019-08-22 16:05:48-- 

 0% [                                          ] 3,468,050    608KB/s  eta 41m 25s^C
  C  
[root@zhaoshuang ~]#exit
exit

[screen is terminating]
[root@zhaoshuang ~]#screen -list
No Sockets found in /var/run/screen/S-root.

[root@zhaoshuang ~]#

进程的优先级

什么优先级

优先级指的是优先享受资源,比如排队买票时,军人优先、老人优先。等等

为什么要有系统优先级

举个例子: 海底捞火锅正常情况下响应就特别快,那么当节假日来临时人员突增则会导致处理请求特别慢,那么假设我是海底捞VIP客户(最高优先级),无论门店多么繁忙,我都不用排队,海底捞人员会直接服务于我,满足我的需求。至于没有VIP的人员(较低优先级)则进入排队等待状态。(PS: 至于等多久,那.....)

系统中如何给进程配置优先级?

在启动进程时,为不同的进程使用不同的调度策略。
nice 值越高: 表示优先级越低,例如+19,该进程容易将CPU 使用量让给其他进程。
nice 值越低: 表示优先级越高,例如-20,该进程更不倾向于让出CPU。

使用top或ps命令查看进程的优先级

使用top可以查看nice优先级。

NI: 实际nice级别,默认是0。
PR: 显示nice值,-20映射到0,+19映射到39

7101 mongod    20   0  488580  46568  17064 R  0.3  4.7   1:38.50 mongod        
 7668 root      20   0  161880   2184   1564 R  0.3  0.2   0:00.03 top           
    1 root      20   0  125728   2988   1424 S  0.0  0.3   0:01.46 systemd       
    2 root      20   0       0      0      0 S  0.0  0.0   0:00.00 kthreadd      
    3 root      20   0       0      0      0 S  0.0  0.0   0:00.41 ksoftirqd/0   
    5 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 kworker/0:0H  
    7 root      rt   0       0      0      0 S  0.0  0.0   0:00.00 migration/0   
    8 root      20   0       0      0      0 S  0.0  0.0   0:00.00 rcu_bh        
    9 root      20   0       0      0      0 S  0.0  0.0   0:00.62 rcu_sched     
   10 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 lru-add-drain 
   11 root      rt   0       0      0      0 S  0.0  0.0   0:00.11 watchdog/0    
   13 root      20   0       0      0      0 S  0.0  0.0   0:00.00 kdevtmpfs     
   14 root       0 -20       0      0      0 S  0.0  0.0   0:00.00 netns  
使用ps查看进程优先级
[root@zhaoshuang ~]#ps axo command,nice|grep sshd
/usr/sbin/sshd -D             0
sshd: root@pts/0              0
grep --color=auto sshd        0

nice指定程序的优先级。语法格式 nice -n 优先级数字 进程名称

-n 指定优先级

[root@zhaoshuang ~]#nice -n -3 vim 1.txt
▽
[root@zhaoshuang ~]#ps axo pid,command,nice |grep vim
  7706 vim 1.txt                    -3
  7710 grep --color=auto vim   

renice命令修改一个正在运行的进程优先级

语法格式 renice -n 优先级数字 进程pid

查看sshd进程当前的优先级状态

[root@zhaoshuang ~]#ps axo pid,command,nice |grep sshd
  7761 /usr/sbin/sshd -D             0
  7767 sshd: root@pts/1              0
  7830 grep --color=auto sshd        0

调整sshd主进程的优先级

[root@zhaoshuang ~]#renice -n -20 7761
7761 (process ID) old priority 0, new priority -20

调整之后记得退出终端

[root@zhaoshuang ~]#ps axo pid,command,nice |grep sshd
  7761 /usr/sbin/sshd -D           -20
  7767 sshd: root@pts/1              0
  7834 grep --color=auto sshd        0

当再次登陆sshd服务,会由主进程fork子进程(那么子进程会继承主进程的优先级)

[root@zhaoshuang ~]#ps axo pid,command,nice |grep sshd
  7761 /usr/sbin/sshd -D           -20
  7837 sshd: root@pts/0            -20
  7863 grep --color=auto sshd      -20

系统平均负载[进阶]

每次发现系统变慢时,我们通常做的第一件事,就是执行 top 或者 uptime 命令,来了解系统的负载情况。比如像下面这样,我在命令行里输入了 uptime 命令,系统也随即给出了结果。

[root@zhaoshuang ~]#uptime
 20:33:04 up  9:04,  3 users,  load average: 0.11, 2.17, 2.88
#前面几列,它们分别是当前时间、系统运行时间以及正在登录用户数。
# 而最后三个数字呢,依次则是过去 1 分钟、5 分钟、15 分钟的平均负载(Load Average)
什么是平均负载

平均负载是指单位时间内,系统处于可运行状态和不可中断状态的平均进程数,也就是平均活跃进程数, PS: 平均负载与 CPU 使用率并没有直接关系。

可运行状态和不可中断状态是什么

可运行状态进程,是指正在使用 CPU 或者正在等待 CPU 的进程,也就是我们ps 命令看到处于 R 状态的进程

不可中断进程,(你做什么事情的时候是不能打断的?) 系统中最常见的是等待硬件设备的 I/O 响应,也就是我们 ps 命令中看到的 D 状态(也称为 Disk Sleep)的进程。

例如: 当一个进程向磁盘读写数据时,为了保证数据的一致性,在得到磁盘回复前,它是不能被其他进程或者中断打断的,这个时候的进程就处于不可中断状态。如果此时的进程被打断了,就容易出现磁盘数据与进程数据不一致的问题。所以,不可中断状态实际上是系统对进程和硬件设备的一种保护机制。

划重点,因此你可以简单理解为,平均负载其实就是单位时间内的活跃进程数。

那平均负载为多少时合理

最理想的状态是每个 CPU 上都刚好运行着一个进程,这样每个 CPU 都得到了充分利用。所以在评判平均负载时,首先你要知道系统有几个 CPU,这可以通过 top 命令获取,或grep 'model name' /proc/cpuinfo

平均负载案例分析实战

下面,我们以三个示例分别来看这三种情况,并用 stress、mpstat、pidstat 等工具,找出平均负载升高的根源。

stress 是 Linux 系统压力测试工具,这里我们用作异常进程模拟平均负载升高的场景。

mpstat 是多核 CPU 性能分析工具,用来实时查看每个 CPU 的性能指标,以及所有 CPU 的平均指标。

pidstat 是一个常用的进程性能分析工具,用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标

场景一:CPU 密集型进程

首先,我们在第一个终端运行 stress 命令,模拟一个 CPU 使用率 100% 的场景:

[root@m01 ~]# stress --cpu 1 --timeout 600

接着,在第二个终端运行 uptime 查看平均负载的变化情况

使用watch -d 参数表示高亮显示变化的区域(注意负载会持续升高)

[root@m01 ~]# watch -d uptime
17:27:44 up 2 days,  3:11,  3 users,  load average: 1.10, 0.30, 0.17
最后,在第三个终端运行 mpstat 查看 CPU 使用率的变化情况

-P ALL 表示监控所有 CPU,后面数字 5 表示间隔 5 秒后输出一组数据

[root@m01 ~]# mpstat -P ALL 5
Linux 3.10.0-957.1.3.el7.x86_64 (m01)   2019年04月29日     _x86_64_    (1 CPU)

17时32分03秒  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
17时32分08秒  all   99.80    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00    0.00
17时32分08秒    0   99.80    0.00    0.20    0.00    0.00    0.00    0.00    0.00    0.00    0.00
#单核CPU所以只有一个all和0

从终端二中可以看到,1 分钟的平均负载会慢慢增加到 1.00,而从终端三中还可以看到,正好有一个 CPU 的使用率为 100%,但它的 iowait 只有 0。这说明,平均负载的升高正是由于 CPU 使用率为 100% 。那么,到底是哪个进程导致了 CPU 使用率为 100% 呢?可以使用 pidstat 来查询

间隔 5 秒后输出一组数据
[root@m01 ~]# pidstat -u 5 1
Linux 3.10.0-957.1.3.el7.x86_64 (m01)   2019年04月29日     _x86_64_(1 CPU)

17时33分21秒   UID       PID    %usr %system  %guest    %CPU   CPU  Command
17时33分26秒     0    110019   98.80    0.00    0.00   98.80     0  stress

#从这里可以明显看到,stress 进程的 CPU 使用率为 100%。

场景二:I/O 密集型进程

首先还是运行 stress 命令,但这次模拟 I/O 压力,即不停地执行 sync

[root@m01 ~]# stress  --io 1 --timeout 600s
然后在第二个终端运行 uptime 查看平均负载的变化情况:
[root@m01 ~]# watch -d uptime
18:43:51 up 2 days,  4:27,  3 users,  load average: 1.12, 0.65, 0.00
最后第三个终端运行 mpstat 查看 CPU 使用率的变化情况:

显示所有 CPU 的指标,并在间隔 5 秒输出一组数据

[root@m01 ~]# mpstat -P ALL 5
Linux 3.10.0-693.2.2.el7.x86_64 (bgx.com)   2019年05月07日     _x86_64_    (1 CPU)

14时20分07秒  CPU    %usr   %nice    %sys %iowait    %irq   %soft  %steal  %guest  %gnice   %idle
14时20分12秒  all    0.20    0.00   82.45   17.35    0.00    0.00    0.00    0.00    0.00    0.00
14时20分12秒    0    0.20    0.00   82.45   17.35    0.00    0.00    0.00    0.00    0.00    0.00

#会发现cpu的与内核打交道的sys占用非常高
那么到底是哪个进程,导致 iowait 这么高呢?我们还是用 pidstat 来查询

间隔 5 秒后输出一组数据,-u 表示 CPU 指标

[root@m01 ~]# pidstat -u 5 1
Linux 3.10.0-957.1.3.el7.x86_64 (m01)   2019年04月29日     _x86_64_(1 CPU)
18时29分37秒   UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
18时29分42秒     0    127259   32.60    0.20    0.00   67.20   32.80     0  stress
18时29分42秒     0    127261    4.60   28.20    0.00   67.20   32.80     0  stress
18时29分42秒     0    127262    4.20   28.60    0.00   67.20   32.80     0  stress

#可以发现,还是 stress 进程导致的。

场景三:大量进程的场景

当系统中运行进程超出 CPU 运行能力时,就会出现等待 CPU 的进程。

首先,我们还是使用 stress,但这次模拟的是 4 个进程
[root@m01 ~]# stress -c 4 --timeout 600
由于系统只有 1 个 CPU,明显比 4 个进程要少得多,因而,系统的 CPU 处于严重过载状态
[root@m01 ~]# watch -d uptime
19:11:07 up 2 days,  4:45,  3 users,  load average: 4.65, 2.65, 4.65
然后,再运行 pidstat 来看一下进程的情况:

间隔 5 秒后输出一组数据

[root@m01 ~]# pidstat -u 5 1
平均时间:   UID       PID    %usr %system  %guest   %wait    %CPU   CPU  Command
平均时间:     0    130290   24.55    0.00    0.00   75.25   24.55     -  stress
平均时间:     0    130291   24.95    0.00    0.00   75.25   24.95     -  stress
平均时间:     0    130292   24.95    0.00    0.00   75.25   24.95     -  stress
平均时间:     0    130293   24.75    0.00    0.00   74.65   24.75     -  stress

可以看出,4 个进程在争抢 1 个 CPU,每个进程等待 CPU 的时间(也就是代码块中的 %wait 列)高达 75%。这些超出 CPU 计算能力的进程,最终导致 CPU 过载。

分析完这三个案例,我再来归纳一下平均负载与CPU
平均负载提供了一个快速查看系统整体性能的手段,反映了整体的负载情况。但只看平均负载本身,我们并不能直接发现,到底是哪里出现了瓶颈。所以,在理解平均负载时,也要注意:
平均负载高有可能是 CPU 密集型进程导致的;
平均负载高并不一定代表 CPU 使用率高,还有可能是 I/O 更繁忙了;
当发现负载高的时候,你可以使用 mpstat、pidstat 等工具,辅助分析负载的来源

你可能感兴趣的:(day21进程管理)