2020-06-04 Keepalived+Nginx实现Prometheus监控平台的高可用

背景

我们采用Prometheus+Grafana+InfluxDB+AlertManager对生产线上的服务以及服务器进行监控、展示、存储以及异常告警。

既然是应用在生产线上的工具,就要充分的考虑它的高可用。在此背景下,我尝试使用Keepalived+Nginx实现高可用,具体部署架构图如下。

keepalived+nginx.png

说明

由于在内网环境中,无法访问互联网,所以Keepalived采用二进制方式部署。

Nginx采用docker方式进行部署;

VIP: 172.16.45.250

Keepalived:172.16.45.6(MASTER),172.16.45.7(BACKUP)

Nginx:172.16.45.6 172.16.45.7

Prometheus Server:172.16.45.8 172.16.40.12

系统版本:cenos 7.6 1810

安装依赖

yum install curl gcc openssl-devel libnl3-devel net-snmp-devel ipvsadm libnl-devel-1.1.4-3.el7.x86_64.rpm libnl3-devel-3.2.28-4.el7.x86_64.rpm libnfnetlink-devel-1.0.1-4.el7.x86_64.rpm

##先在我自己的能连接互联网的虚拟机上(centos 7.6 1810),使用 yum install --downloadonly 下载缺少的rpm包,而后上传到服务器上,执行localinstall

解压keepalived包并进入解压后的文件夹

tar -zxf keepalived-2.0.20.tar.gz
cd /usr/local/src/keepalived-2.0.20

指定安装的位置和配置文件存放位置后进行编译安装

./configure --prefix=/usr/local/keepalived --sysconf=/etc
make && make install

注册并设置开机启动

cp /usr/local/keepalived/sbin/keepalived  /bin/

chkconfig keepalived on

启动服务

systemcem start keepalived.service

MASTER配置文件keepalived.conf

! Configuration File for keepalived

global_defs {

   router_id lb01   ##lb02
   #vrrp_strict
   vrrp_garp_interval 0
   vrrp_gna_interval 0
   #vrrp_mcast_group4 224.0.0.1
}
vrrp_script check_nginx {
    script "/etc/keepalived/check_nginx.sh"
    interval 5
    weight 50
}

vrrp_instance VI_1 {
    state MASTER    ##BACKUP
    interface ens192
    virtual_router_id 28
    priority 110    ##109
    advert_int 1
    
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {
       172.16.45.250
    }
    track_script {
        check_nginx
    }
}

检测Nginx是否存活

Nginx虽然是用docker进行部署的,但是当Nginx容器运行时,宿主机也会有Nginx进程。所以在宿主机检测Nginx进程即可。文件的路径及名称与keepalived 配置文件中写的相对应/etc/keepalived/check_nginx.sh

#!/bin/bash
#获取nginx进程数
nginx_status=$(ps -C nginx --no-header|wc -l)
#如果为0,则启动nginx同时隐藏输出结果
if [[ ${nginx_status} == 0 ]]
then
   docker start nginx &> /dev/null 
   sleep 3
#再次检查nginx进程数
   nginx_status=$(ps -C nginx --no-header|wc -l)
   if [[ ${nginx_status} == 0 ]]
   then
       systemctl stop keepalived  
   fi
fi

预期效果

1、当keepalived(MASTER)挂掉的时候,BACKUP节点升级为MASTER节点并接管VIP,不影响正常访问。

2、当keepalived(MASTER)上的Nginx服务挂掉的时候,通过检测脚本,可以重启一次Nginx服务,若Nginx启动失败,则会杀死MASTER节点的keepalived服务,BACKUP节点升级为MASTER节点,不影响正常访问。

踩过的坑

1、启动keepalived时报错

Error exec-ing command '/etc/keepalived/check_nginx.sh', error 2: No such file or directory

原因:在windows 下编写的脚本文件(set ff=dos),放到Linux中无法识别

解决方法:

首先打开脚本文件

vim /etc/keepalived/check_nginx.sh

然后进入命令模式

:set ff=unix

回车,保存,解决!

你可能感兴趣的:(2020-06-04 Keepalived+Nginx实现Prometheus监控平台的高可用)