keepalived出现主备机同时绑定vip的解决方法

最近项目需要,用到了keepalived+nginx模式,由于以前没接触过keepalived,所以遇到了一些问题,花了最多时间来解决的就是keepalived启动之后,主机与备份机都绑定了虚拟ip,也就是产生了所谓的“脑裂”现象,解决这个问题,找了能有几十篇文章,虽然都没有直接解决我的问题,但是却给了我解决问题的思路,特此记录一下,希望能帮助别人,也能告诫自己。

1、keepalived配置情况

主机(192.168.252.128)配置:

! Configuration File for keepalived

global_defs {
   notification_email {
    # [email protected]
    # [email protected]
     #[email protected]
   }
   #notification_email_from [email protected]
   #smtp_server 192.168.200.1
   #smtp_connect_timeout 30
   router_id LVS_128
   vrrp_skip_check_adv_addr
   #vrrp_strict
   vrrp_garp_interval 0
   vrrp_gna_interval 0
}
#健康检测脚本,必须声明在vrrp_instance节点前
vrrp_script chk_nginx {
        script "/etc/keepalived/nginx_check.sh" ## 检测 nginx 状态的脚本路径
        interval 3 ## 检测时间间隔
        weight -20 ## 如果条件成立,权重-20
}
#vrrp实例设置
vrrp_instance VI_1 {
    state MASTER  #MASTER为主机
    interface ens33  #虚拟ip绑定的网卡
    virtual_router_id 99 #虚拟路由ID标识,一组的keepalived配置中主备都是设置一致
    priority 100   #优先级,主机应高于备份机即可
    advert_int 1 
    authentication {
        auth_type PASS #认证方式
        auth_pass 123456  #认证密码
    }
    virtual_ipaddress {
        192.168.252.131 #虚拟ip
    }
    track_script {
        chk_nginx ## 执行 Nginx 监控的服务
    }
}

备份机(192.168.252.129)配置:

! Configuration File for keepalived

global_defs {
   notification_email {
     #[email protected]
     #[email protected]
     #[email protected]
   }
   #notification_email_from [email protected]
   #smtp_server 192.168.200.1
   #smtp_connect_timeout 30
   router_id LVS_129
   vrrp_skip_check_adv_addr
   #vrrp_strict
   vrrp_garp_interval 0
   vrrp_gna_interval 0
}

vrrp_script chk_nginx {
        script "/etc/keepalived/nginx_check.sh" ## 检测 nginx 状态的脚本路径
        interval 3 ## 检测时间间隔
        weight -20 ## 如果条件成立,权重-20
}

vrrp_instance VI_1 {
    state BACKUP
    interface ens33
    virtual_router_id 99
    priority 90
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 123456
    }
    virtual_ipaddress {
        192.168.252.131
    }
    track_script {
        chk_nginx ## 执行 Nginx 监控的服务
     }
}

健康检查的脚本就不发了,因为这个问题和脚本无关,我那会启动keepalived之后还并没有尝试关闭nginx来测试keepalived存活情况。

2、问题解析

从主备机配置上来看,并没有会出现脑裂情况的配置,理论上主备机的配置只要注意:router_id局域网内唯一,主备机不同;virtual_router_id主备机配置一致;priority主机高于备份机; virtual_ipaddress主备机一致,差不多就可以了。
启动keepalived之后,主机与备份机的vip绑定情况如下:
keepalived出现主备机同时绑定vip的解决方法_第1张图片
keepalived出现主备机同时绑定vip的解决方法_第2张图片
问题解决过程:
首先在128主机上用tcpdump抓包,监控一下ens33,也就是绑定了vip的网卡的报文,发现如下:

[guansheng@lgs keepalived]$ sudo tcpdump -i ens33 vrrp -n

keepalived出现主备机同时绑定vip的解决方法_第3张图片
128(主机)和129(备份机)两台机器在轮询往224.0.0.18(vrrp的组播地址)发送报文。理论上来说,主机处于活跃状态的时候,备份机收到报文之后是不会发送组播消息的,这个很明显就是备份机没收到主机的组播报文。
在129上抓包,也发现同样的输出。
再三检查之后,确定配置没问题,所以就把问题锁定在主备机与组播ip之间的通信问题上。
我的防火墙不是iptables,所以网上很多iptables的方法不能用,一些setenforce 0的命令也用了,发现不起作用,最后查了一下firewall开启组播通信的方法:
运行以下命令:

[guansheng@lgs keepalived]$ firewall-cmd --direct --permanent --add-rule ipv4 filter INPUT 0 --in-interface ens33 --destination 224.0.0.18 --protocol vrrp -j ACCEPT
#刷新防火墙
[guansheng@lgs keepalived]$ firewall-cmd --reload;

其中INPUT 0 --in-interface ens33这段的ens33是绑定了vip的网卡,替换成自己的网卡就可以了。
主备机都运行之后,直接查看vip的绑定情况,发现已经恢复正常:
keepalived出现主备机同时绑定vip的解决方法_第4张图片
keepalived出现主备机同时绑定vip的解决方法_第5张图片
再监控一下ens33网卡报文情况:
ens33报文情况
发现全都是128在发报文,129暂停发送了,到此问题解决

你可能感兴趣的:(错误记录)