使用Supervisor保护进程不死不灭

概要

  • Supervisor是用Python开发的一套通用的进程管理程序,能将一个普通的命令行进程变为后台daemon,并监控进程状态,异常退出时能自动重启。
  • 可以选择是否自己启动和报警。supervisor还提供了一个功能,可以为supervisord或者每个子进程,设置一个非rootuser,这个user就可以管理它对应的进程。
  • 后期不定期更新及优化中~~~

平台要求

Supervisor已经过测试,可以在Linux(Ubuntu 9.10),Mac OS X(10.4 / 10.5 / 10.6)和Solaris(10 for Intel)和FreeBSD 6.1上运行。它可能在大多数UNIX系统上都能正常工作。
在任何版本的Windows下,Supervisor都不会运行。
众所周知,Supervisor可以使用Python 2.4或更高版本,但不能在任何版本的Python3下使用。

安装

安装Supervisor

本人使用的是Centos7,7.3和7.5版本都测试了没有问题,下面开始安装:

yum -y install epel-release
yum install python-pip -y  文章末尾有详细说明pip的加速方法,建议先进行pip加速再使用pip。
pip install supervisor

如何pip安装不成功,还可以使用easy_install来安装supervisor

yum -y install python-setuptools
easy_install supervisor

查看是否安装成功

supervisord -v

创建文件保存的目录

mkdir /usr/local/supervisor
mkdir /var/log/supervisor
mkdir /etc/supervisor.d

开始编辑supervisord的配置文件

首先生成配置文件

echo_supervisord_conf > /etc/supervisord.conf
vim /etc/supervisord.conf

分别找到含有/tmp/的语句,并修改我们上一步创建的三个目录(若担心配置文件改错了,将原代码注释,自己重新写一行也行)

;这里配置是否用unix socket通信来让supervisor与supervisorctl做通信
;file=/tmp/supervisor.sock   ; UNIX socket 文件,supervisorctl 会使用
;修改为刚刚创建的目录 /usr/local/supervisor 目录,避免被系统删除
file=/usr/local/supervisor/supervisor.sock 
;chmod=0700                 ; socket 文件的 mode,默认是 0700
;chown=nobody:nogroup       socket 文件的 owner,格式: uid:gid
;username=user              ; supervisorctl与supervisorctl通信的账户密码
;password=123 

;如果需要使用web界面去控制守护状态的话,就把下面四行的;去掉
[inet_http_server]          ; HTTP 服务器,提供 web 管理界面
;这里是用的http的方式做通信
port=0.0.0.0:9001           ; Web 管理后台运行的 IP 和端口,如果开放到公网,需要注意安全性
username=user               ; 登录管理后台的用户名
password=123                ; 登录管理后台的密码
... ...

[supervisord]
;logfile=/tmp/supervisord.log ; 日志文件,默认是 logfile=/tmp/supervisord.log
;修改为 /var/log 目录,避免被系统删除
logfile=/var/log/supervisor/supervisord.log ; 
; 日志文件多大时进行分割
logfile_maxbytes=50MB         ; 日志文件大小,超出会 rotate,默认 50MB
; 最多保留多少份日志文件
logfile_backups=10            ; 日志文件保留备份数量默认 10
loglevel=info                 ; 日志级别,默认 info,其它: debug,warn,trace
;pidfile=/tmp/supervisord.pid ; pid 文件
;修改为 /usr/local/supervisor 目录,避免被系统删除
pidfile=/usr/local/supervisor/supervisord.pid ; 
;设置启动supervisord的用户,一般情况下不要轻易用root用户来启动,除非你真的确定要这么做
user=root                 ; (default is current user, required if root)
... ...

[rpcinterface:supervisor]
supervisor.rpcinterface_factory = supervisor.rpcinterface:make_main_rpcinterface 
... ...

[supervisorctl]
;这里选择supervisorctl到底用以上两种中的哪种方式来与supervisor通信,选择一种即可,记得填写密码
; 必须和'unix_http_server'里面的设定匹配
;serverurl=unix:///tmp/supervisor.sock ; use a unix:// URL  for a unix socket
;修改为 /usr/local/supervisor 目录,避免被系统删除
serverurl=unix:///usr/local/supervisor/supervisor.sock ; use a unix:// URL  for a unix socket
;serverurl=http://127.0.0.1:9001 ; use an http:// url to specify an inet socket
;username=chris              ; should be same as http_username if set
;password=123                ; should be same as http_password if set

将该文件的最后一行[include]前面的分号去掉,并且在下面添加一行:

[include]
;files = relative/directory/*.ini
files = /etc/supervisor.d/*.conf

我们以后监控相应进程的配置文件都会放在这个/etc/supervisor.d/中,所以这里要将[include]功能打开(即去掉分号),现在可以保存并退出这个文件了。
至此,supervisor已经可以正常运行了。

创建实例进程

此时重新开一个终端,我们创建一个能够一直存在的进程(路径和进程名随便指定,只要不跟系统文件重名即可)

vim /opt/testhaha.py

进程代码如下:

#!/usr/bin/env python
import time
def main():
 while True:
 print 'test!!'
 time.sleep(2)
if __name__ == '__main__':
 main()

启动这个进程:

python /opt/testhaha.py

在刚刚第一个终端里使用下面命令即可看到此进程的运行状态:

ps -ef |grep testhaha

编写被守护的进程配置文件

下面我们开始编写监控此进程的配置文件,在/etc/supervisor.d/目录下新建testhaha.ini
监控文件的文件名最好与被监控的进程名一致,但是监控文件后缀名为.ini

vim /etc/supervisor.d/testhaha.ini

监控文件的配置代码如下:

[program:test]
directory = /opt ; 程序的启动目录
command = python /opt/testhaha.py  ; 启动命令,这里最好写绝对路径
autostart = true     ; 在 supervisord 启动的时候也自动启动
startsecs = 5        ; 启动 5 秒后没有异常退出,就当作已经正常启动了
autorestart = true   ; 程序异常退出后自动重启
startretries = 3     ; 启动失败自动重试次数,默认是 3
user = root          ; 用哪个用户启动
redirect_stderr = true  ; 把 stderr 重定向到 stdout,默认 false
stdout_logfile_maxbytes = 20MB  ; stdout 日志文件大小,默认 50MB
stdout_logfile_backups = 20     ; stdout 日志文件备份数
; stdout 日志文件,需要注意当指定目录不存在时无法正常启动,所以需要手动创建目录(supervisord 会自动创建日志文件)
stdout_logfile = /var/log/supervisor/test_stdout.log

启动supervisord

执行 supervisord 命令,将会启动 supervisord 进程,同时我们在配置文件中设置的进程也会相应启动。
执行启动命令:

supervisord

如果说有警告,不用管它,这是supervisord提醒你正在以root运行它。
如果报错说有其他进程已经占用端口的时候,执行下面命令:

find / -name supervisor.sock
unlink /你系统上显示的路径/supervisor.sock

然后再次执行启动命令。
关于其他报错,文章末尾有问题总结。

使用ps命令查看supervisord是否已启动:

ps -ef |grep supervisord | grep -v "grep"

测试监控脚本是否能够复活被监控的进程

切换到另一终端(Terminal),输入:

ps -ef |grep testhaha | grep -v "grep"

即可看到该进程的PID,并记录下来。
此时使用kill命令杀死该进程:

kill -s 9 28074

其中-s 9 制定了传递给进程的信号是9,即强制、尽快终止进程。

28074则是上面ps命令查到的testhahaPID

执行完kill命令后,再输入ps命令查看testhaha的状态,此时发现,该进程的PID变了,就是因为被supervisord重启了。

命令详解

初始启动Supervisord,启动、管理配置中设置的进程:

supervisord

停止(启动,重启)某一个进程(xxx)/全部:
supervisorctl stop(start, restart) xxx/all

只载入最新的配置文件, 并不重启任何进程:
supervisorctl reread

载入最新的配置文件,停止原来的所有进程并按新的配置启动管理所有进程:
supervisorctl reload

根据最新的配置文件,启动新配置或有改动的进程,配置没有改动的进程不会受影响而重启:
supervisorctl update

查看正在守候的进程
supervisorctl

启动某个进程(program_name=你被监控程序的配置中[program:xxx]里写的程序名称)
supervisorctl start program_name

停止某一进程 (program_name=你被监控程序的配置中[program:xxx]里写的程序名称)
pervisorctl stop program_name

重启某一进程 (program_name=你被监控程序的配置中[program:xxx]里写的程序名称)
supervisorctl restart program_name

停止全部进程
supervisorctl stop all

注意:显示用stop停止掉的进程,用reload或者update都不会自动重启。

建议

开机自启Supervisor以及自我复活

supervisor配置成开机启动服务以及定时自检复活

首先先关闭现在正在运行的supervisor,可以使用kill命令杀死supervisor的进程号,步骤不再赘述,文章上半部分有。
停止supervisor后,新建一个名为supervisor.service的文件

vim /lib/systemd/system/supervisor.service

添加以下内容:

[Unit]
Description=supervisor
After=network.target

[Service]
Type=forking
ExecStart=/usr/bin/supervisord -c /etc/supervisord.conf
ExecStop=/usr/bin/supervisorctl $OPTIONS shutdown
ExecReload=/usr/bin/supervisorctl $OPTIONS reload
KillMode=process
Restart=always
RestartSec=42s

[Install]
WantedBy=multi-user.target

上述文件编写后,执行如下命令即可。
加入开机自启动服务:

systemctl enable supervisor.service

重新载入systemd,扫描新的或有变动的单元(必要步骤):

systemctl daemon-reload

修改文件权限:

chmod 766 /lib/systemd/system/supervisor.service

然后,启动服务:

systemctl start supervisor.service

可以在查询一下服务状态

systemctl status supervisor.service

supervisor加入systemctl管理

通过上述过程,实际上supervisor已经加入了systemctl管理了,后续起停supervisor服务都可以通过systemctl来控制了,

systemctl start supervisor.service 启动服务
systemctl stop supervisor.service 停止服务
systemctl restart supervisor.service 重新启动服务
systemctl reload supervisor.service 重载配置文件
systemctl status supervisor.service 查看服务状态(显示的类似于操作记录)

这里注意一下,以后开启supervisor就可以不用执行supervisord,如果使用systemctl启动了supervisor,再使用supervisor启动的话会报错。建议统一使用systemctl进行服务的启停及其他操作。

让PIP源使用国内镜像,提升下载速度和安装成功率。

国内源:
新版ubuntu要求使用https源,要注意。
清华:https://pypi.tuna.tsinghua.edu.cn/simple
阿里云:http://mirrors.aliyun.com/pypi/simple/
中国科技大学:https://pypi.mirrors.ustc.edu.cn/simple/
华中理工大学:http://pypi.hustunique.com/
山东理工大学:http://pypi.sdutlinux.org/
豆瓣:http://pypi.douban.com/simple/

临时使用:
可以在使用pip的时候加参数

-i https://pypi.tuna.tsinghua.edu.cn/simple

例如:

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspider

这样就会从清华这边的镜像去安装pyspider库

永久修改,一劳永逸:
Linux下,修改 ~/.pip/pip.conf (没有就创建一个文件夹及文件。文件夹要加“.”,表示是隐藏文件夹)
内容如下:

[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host=mirrors.aliyun.com

Windows下,直接在user目录中创建一个pip目录,如:C:\Users\xx\pip,新建文件pip.ini。内容同上。

问题总结

问题一: 针对Ubuntu安装Supervisor报错

网上说:

pip install supervisor

出现问题:

bash:pip:command not found

需要安装:

pip:sudo easy_install pip

出现问题:

sudo: easy_install: command not found

需要执行:

sudo apt-get install python-setuptools

然后就可以:

pip install supervisor

问题二: tmp目录里的文件被系统清空

supervisor默认配置中,其启动的sock等都会放到tmp目录,而tmp目录会自动清理(比如重启主机)导致无法使用supervisorctl命令;
修改supervisor.conf文件,修改到/var/run//var/log/目录,目录随便指定,好记就行。

file=/usr/local/supervisor/supervisor.sock
serverurl=unix:///usr/local/supervisor/supervisor.sock

注意:修改supervisor.conf文件后,要执行supervisorctl reload,重新加载配置文件;

问题三:Refused Connection报错

Supervisorctl error: unix:///var/run/supervisord.sock refused connection?

说明需要开启supervisord

如果已经修改了supervisor.conf,这句就不要执行了,要是执行的话supervisor.conf将被初始化,后果很麻烦。

/etc/supervisord.conf
sudo supervisord -c /etc/supervisord.conf
sudo supervisorctl status

问题四:端口被占用报错

Error: Another program is already listening on a port that one of our HTTP servers is configured to use. Shut this program down first before starting

解决方法:

find / -name supervisor.sock
unlink /你系统上显示的路径/supervisor.sock

问题五:没有sock文件报错

unix:///var/run/supervisor.sock no such file
sudo touch /usr/local/supervisor/supervisor.sock
sudo chmod 777 /usr/local/supervisor/supervisor.sock
Restarted supervisord

问题六: Source不认识

关于在command中,执行.sh脚本
请参照此配置文件中command的写法,直接写command=source xxx,会报source不认识:

[program:blog]
command=/bin/bash -c 'source /var/ftp_root/program/blog/startall.sh'
user=root
autostart=true
autorestart=true
redirect_stderr=True
stdout_logfile=/tmp/blog.log
stderr_logfile=/tmp/blog.err
stopasgroup=true
killasgroup=true

问题七:开启web功能无法访问

关闭防火墙 & SELINUX

systemctl stop firewalld.service #停止firewall
systemctl disable firewalld.service #禁止firewall开机启动,重启系统生效

关闭selinux
用 root 用户运行下面的命令

vim /etc/sysconfig/selinux

打开 selinux 文件后,将

SELINUX=enforcing

修改为

SELINUX=disabled

保存后退出。接着再执行如下命令,注意 setenforce 后面有空格:

setenforce 0

你可能感兴趣的:(使用Supervisor保护进程不死不灭)