背景
我们采用Prometheus+Grafana+InfluxDB+AlertManager对生产线上的服务以及服务器进行监控、展示、存储以及异常告警。
既然是应用在生产线上的工具,就要充分的考虑它的高可用。在此背景下,我尝试使用Keepalived+Nginx实现高可用,具体部署架构图如下。
说明
由于在内网环境中,无法访问互联网,所以Keepalived采用二进制方式部署。
Nginx采用docker方式进行部署;
VIP: 172.16.45.250
Keepalived:172.16.45.6(MASTER),172.16.45.7(BACKUP)
Nginx:172.16.45.6 172.16.45.7
Prometheus Server:172.16.45.8 172.16.40.12
系统版本:cenos 7.6 1810
安装依赖
yum install curl gcc openssl-devel libnl3-devel net-snmp-devel ipvsadm libnl-devel-1.1.4-3.el7.x86_64.rpm libnl3-devel-3.2.28-4.el7.x86_64.rpm libnfnetlink-devel-1.0.1-4.el7.x86_64.rpm
##先在我自己的能连接互联网的虚拟机上(centos 7.6 1810),使用 yum install --downloadonly 下载缺少的rpm包,而后上传到服务器上,执行localinstall
解压keepalived包并进入解压后的文件夹
tar -zxf keepalived-2.0.20.tar.gz
cd /usr/local/src/keepalived-2.0.20
指定安装的位置和配置文件存放位置后进行编译安装
./configure --prefix=/usr/local/keepalived --sysconf=/etc
make && make install
注册并设置开机启动
cp /usr/local/keepalived/sbin/keepalived /bin/
chkconfig keepalived on
启动服务
systemcem start keepalived.service
MASTER配置文件keepalived.conf
! Configuration File for keepalived
global_defs {
router_id lb01 ##lb02
#vrrp_strict
vrrp_garp_interval 0
vrrp_gna_interval 0
#vrrp_mcast_group4 224.0.0.1
}
vrrp_script check_nginx {
script "/etc/keepalived/check_nginx.sh"
interval 5
weight 50
}
vrrp_instance VI_1 {
state MASTER ##BACKUP
interface ens192
virtual_router_id 28
priority 110 ##109
advert_int 1
authentication {
auth_type PASS
auth_pass 1111
}
virtual_ipaddress {
172.16.45.250
}
track_script {
check_nginx
}
}
检测Nginx是否存活
Nginx虽然是用docker进行部署的,但是当Nginx容器运行时,宿主机也会有Nginx进程。所以在宿主机检测Nginx进程即可。文件的路径及名称与keepalived 配置文件中写的相对应/etc/keepalived/check_nginx.sh
#!/bin/bash
#获取nginx进程数
nginx_status=$(ps -C nginx --no-header|wc -l)
#如果为0,则启动nginx同时隐藏输出结果
if [[ ${nginx_status} == 0 ]]
then
docker start nginx &> /dev/null
sleep 3
#再次检查nginx进程数
nginx_status=$(ps -C nginx --no-header|wc -l)
if [[ ${nginx_status} == 0 ]]
then
systemctl stop keepalived
fi
fi
预期效果
1、当keepalived(MASTER)挂掉的时候,BACKUP节点升级为MASTER节点并接管VIP,不影响正常访问。
2、当keepalived(MASTER)上的Nginx服务挂掉的时候,通过检测脚本,可以重启一次Nginx服务,若Nginx启动失败,则会杀死MASTER节点的keepalived服务,BACKUP节点升级为MASTER节点,不影响正常访问。
踩过的坑
1、启动keepalived时报错
Error exec-ing command '/etc/keepalived/check_nginx.sh', error 2: No such file or directory
原因:在windows 下编写的脚本文件(set ff=dos),放到Linux中无法识别
解决方法:
首先打开脚本文件
vim /etc/keepalived/check_nginx.sh
然后进入命令模式
:set ff=unix
回车,保存,解决!