Heartbeat 裂脑

什么是裂脑

由于某些原因，导致两台高可用服务器之间在指定时间内，无法互相检测到对方心跳而各自启动故障转移功能，取得了资源及服务的所有权，而此时的两台高可用服务器都还活着并在正常运行，这样就会导致同一个IP或服务在两端同时启动而发生冲突的严重问题，最严重的是两台主机占用同一个VIP地址，当用户写入数据时可能会分别写入到两端，这样可能会导致服务器两端的数据不一致或造成数据丢失，这种情况就被称为裂脑，也有人称其为分区集群或大脑垂直分割，英文为 split brain。

导致裂脑发生的多种原因

一般来说，裂脑的发生有以下几个原因：

1）高可用服务器之间心跳线链路故障，导致无法正常通信
- 心跳线坏了（包括断了、老化）
- 网卡及相关驱动坏了，IP 配置及冲突问题（网卡直连）
- 心跳线间连接的设备故障（网卡及交换机）
- 仲裁的机器出问题（仲裁的方案）
2）高可用服务器上开启了如 iptables 防火墙阻挡了心跳消息传输
3）高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败
4）其它服务配置不当等原因，如心跳方式不同，心跳广播冲突、软件BUG等

提示： 另外的高可用软件 keepalived 配置里如 virtual_router_id 参数，两端配置不一致也会导致裂脑问题发生

防止裂脑发生的几种方法

发生裂脑时，对业务的影响是及其严重的，有时甚至是致命的，如：两台高可用服务器之间发生裂脑，导致互相争用同一 IP 资源，就如同我们在局域网内常见的 IP 地址冲突一样，两个机器就会有一个或者两个都不正常，影响用户正常访问服务器。如果是应用在数据库或者存储服务这种极重要的高可用上，那就可能会导致用户发布的数据间断的写在两台不同服务器上的恶果，最终数据恢复极困难或难以恢复（当然，有NAS等公共存储的硬件也许会好一些）

实际生产环境中，我们可以从以下几个方面来防止裂脑问题的发生：

同时使用串行电缆和以太网电缆连接，同时用两条心跳线路，这样一条线路坏了，另一个还是好的，依然能传送心跳消息。（网卡设备和网线设备）
当检测到裂脑时强行关闭一个心跳节点（服务器）。（这个功能需特殊硬件设备支持，如 Stonith、fence）。相当于程序上备节点发现心跳线故障，发送关机命令到主节点（一般银行会使用这种方式）
做好对裂脑的监控报警（如邮件及手机短信等，值班），在问题发生时人为第一时间介入仲裁，降低损失。百度的报警监控有上行和下行（就是可交互的），和人工交互的过程。当然，在实施高可用方案时，要根据业务实际需求确定是否能容忍这样的损失。对于一般的网站常规业务，这个损失是可控的。
启用磁盘锁，正在服务的一方锁住共享磁盘，“裂脑”发生时，让对方完全“抢不走”共享磁盘资源。但使用锁磁盘也会有一个不小的问题，如果占用共享磁盘的一方不主动“解锁”，另一方就永远得不到共享磁盘。现实中假如服务节点突然死机或崩溃，就不可能执行解锁命令，备节点也就接管不了共享资源和应用服务。于是有人在 HA 中设计了“智能”锁。即正在服务的一方只在发现心跳线全部断开（察觉不到对端）的情况下才启用磁盘锁，平时就不上锁。此功能适合共享场景。
报警报在服务器接管之前，给人员处理留足够时间。例如：1分钟内报警，但是服务器此时没有接管，而是5分钟在进行接管。接管时间较长。数据不会丢失，导致用户无法写数据。
报警后不直接自动服务器接管，而是由人为人员控制接管
增加仲裁机制，确定谁该获得资源。下面有几个参考的思路
- 1）加一个仲裁机制，例如设置参考IP（如网关IP），当心跳线完全断开时，2个节点都各自ping一下参考IP，不通则表明断点就出在本端，不仅心跳线、还有对外服务的本地网络链路断了，这样就主动放弃竞争，让能够ping通参考IP的一端去接管服务。ping不通参考IP的一方可以自我重启，以彻底释放有可能还占用着的那些共享资源（heartbeat也有此功能）
- 2）通过第三方软件仲裁谁该获得资源，这个阿里有类似的软件应用

小结：如何开发程序判断裂脑

1）只要备节点出现 VIP 就报警（a、主节点机器宕机了，备节点机器接管了 b、主节点机器没宕，裂脑了），不管哪种情况都需要人工查看
2）严谨判断，备机出现VIP，并且主机及服务还活着，裂脑了（依然报警）

仲裁机制

仲裁机制就是通过第三方来控制HA 主节点和备节点的电源，防止裂脑情况发生，相当于法院的角色

小结：
在HA节点之间无法通信（心跳出现问题）的时候做以下操作：

1）各自ping网关，ping不通则自己关机
2）主备和仲裁设备连接，出问题的时候，把各自的存活状态写到仲裁设备里，由仲裁设备控制主备服务器的电源

Stonith介绍

Stonith 是“shoot the other node in the head” 的首字母简写，它是 Heartbeat 软件包的一个组件，它允许使用一个远程或“智能的”连接到健康服务器的电源设备自动重启失效服务器的电源，Stonith 设备可以关闭电源并响应软件命令，运行Heartbeat 的服务器可以通过串口线或网线向 Stonith 设备发送命令，它控制高可用服务器对其他服务器的电力供应，也就是主服务器可以复位备用服务器的电源，备用服务器也可以复位主服务器的电源。

注意： 尽管理论上连接到远程或“智能的”循环电源系统电力设备的数量是没有限制的，但大多数 Stonith 实现只使用两台服务器，因为双服务器 Stonith 配置是最简单的，最容易理解，它能够长时间运行且不会降低系统的可靠性和高可用性。

Stonith 事件触发工作步骤

1）当备用服务器获取不到心跳信号时，Stonith 事件开始。这并不一定意味着主服务器没有发送心跳，心跳可能有多种原因而没有抵达备用服务器，所以建议使用至少两条物理路径传输心跳以避免出现假象的原因
2）备用服务器发出一个 Stonith 复位命令到 Stonith 设备
3）Stonith 设备关闭主服务器的电力供应
4）一经切断主服务器的电源，它就不能再访问集群资源，也不能再为客户端提供资源，保证客户端计算机不能访问主服务器上的资源，排除可能发生的头脑分裂状态
5）然后备用服务器获得主服务器的资源，Heartbeat 用 start 参数运行资源脚本，并执行ARP欺骗广播以便客户端计算机发送他们的请求到它的网络接口上