MHA 官方网址
Manager : https://github.com/yoshinorim/mha4mysql-manager
Node : https://github.com/yoshinorim/mha4mysql-node
MHA 工作原理
主库宕机处理过程
1. 监控节点 (通过配置文件获取所有节点信息)
系统,网络,SSH连接性
主从状态,重点是主库
2. 选主
(1) 如果判断从库(position或者GTID),数据有差异,最接近于 Master 的 slave,成为备选主
(2) 如果判断从库(position或者GTID),数据一致,按照配置文件顺序,选主.
(3) 如果设定有权重(candidate_master=1),按照权重强制指定备选主.
1. 默认情况下如果一个 slave 落后 master 100M的 relay logs 的话,即使有权重,也会失效.
2. 如果 check_repl_delay=0 的话,即使落后很多日志,也强制选择其为备选主
3. 数据补偿
(1) 当SSH能连接,从库对比主库 GTID 或者 position 号,立即将二进制日志保存至各个从节点并且应用( save_binary_logs )
(2) 当SSH不能连接, 对比从库之间的relaylog的差异( apply_diff_relay_logs )
4. Failover
将故障节点踢出集群
将备选主进行身份切换,对外提供服务
其余从库和新主库确认新的主从关系
5. 应用透明(VIP)
6. 故障切换通知(send_reprt)
7. 二次数据补偿(binlog_server)
注意:从库需要开启 binlog 日志
MHA 主库宕机接管规则
1. 所有从节点日志都是一致的,默认会以配置文件的顺序去选择一个新主。
2. 从节点日志不一致,自动选择最接近于主库的从库
3. 如果对于某节点设定了权重(candidate_master=1),权重节点会优先选择。
但是此节点日志量落后主库100M日志的话,也不会被选择。可以配合check_repl_delay=0,关闭日志量的检查,强制选择候选节点。
# Manager 工具包主要包括以下几个工具:
masterha_manger 启动MHA
masterha_check_ssh 检查MHA的SSH配置状况
masterha_check_repl 检查MySQL复制状况
masterha_master_monitor 检测master是否宕机
masterha_check_status 检测当前MHA运行状态
masterha_master_switch 控制故障转移(自动或者手动)
masterha_conf_host 添加或删除配置的server信息
# Node 工具包主要包括以下几个工具:
这些工具通常由MHA Manager的脚本触发,无需人为操作
save_binary_logs 保存和复制master的二进制日志
apply_diff_relay_logs 识别差异的中继日志事件并将其差异的事件应用于其他的
purge_relay_logs 清除中继日志(不会阻塞SQL线程)
MHA环境搭建
系统环境: CentOS 7.4 64bit 最小安装版本
MySQL软件版本: mysql-community-client-5.7.28-1.el7.x86_64.rpm
mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm
mysql-community-common-5.7.28-1.el7.x86_64.rpm
mysql-community-server-5.7.28-1.el7.x86_64.rpm
mysql-community-libs-5.7.28-1.el7.x86_64.rpm
MHA软件: mha4mysql-node-0.58-0.el7.centos.noarch.rpm
mha4mysql-manager-0.58-0.el7.centos.noarch.rpm
名称 | IP地址 | 角色 |
---|---|---|
db1 | 192.168.31.205 | 主库,HMA node |
db2 | 192.168.31.206 | 从库,HMA node |
db3 | 192.168.31.207 | 从库,HMA master,node |
如果是编译安装的 MySQL 需要建立命令的软连接,我这里使用的是官方的 rpm 包安装,不需要更改。
ln -s /usr/local/mysql/bin/mysqlbinlog /usr/bin/mysqlbinlog
ln -s /usr/local/mysql/bin/mysql /usr/bin/mysql
# db1:
ssh-keygen -t rsa
cd /root/.ssh/
mv id_rsa.pub authorized_keys
scp -r /root/.ssh [email protected]:/root
scp -r /root/.ssh [email protected]:/root
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date
# db2:
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date
# db3:
ssh 192.168.31.205 date
ssh 192.168.31.206 date
ssh 192.168.31.207 date
所有节点都需要安装 HMA node 软件
yum install perl-DBD-MySQL -y
rpm -ivh /iba/software/mha4mysql-node-0.58-0.el7.centos.noarch.rpm
db3 安装 HMA manager 软件
yum install -y epel-release
yum install -y perl-Config-Tiny perl-Log-Dispatch perl-Parallel-ForkManager perl-Time-HiRes
rpm -ivh /iba/software/mha4mysql-manager-0.58-0.el7.centos.noarch.rpm
在db1主库中创建MHA专用监控用户
grant all privileges on *.* to mha@'192.168.31.%' identified by 'Mha_123456';
flush privileges;
MHA manager 配置文件(db3)
创建配置文件目录
mkdir -p /etc/mha
创建日志目录
mkdir -p /var/log/mha/app1
编辑mha配置文件
vi /etc/mha/app1.cnf
[server default]
manager_log=/var/log/mha/app1/manager
manager_workdir=/var/log/mha/app1
master_binlog_dir=/var/lib/mysql
user=mha
password=Mha_123456
ping_interval=2
repl_user=rep
repl_password=Rep_123456
ssh_user=root
[server1]
hostname=192.168.31.205
port=3306
[server2]
hostname=192.168.31.206
port=3306
[server3]
hostname=192.168.31.207
port=3306
MHA manager 额外参数介绍
# 设置监控主库,发送ping包的时间间隔,尝试三次没有回应的时候自动进行failover
ping_interval=1
# 设置为候选master,如果设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个主库不是集群中事件最新的slave
candidate_master=1
# 默认情况下如果一个slave落后master 100M的relay logs的话,MHA将不会选择该slave作为一个新的master,因为对于这个slave的恢复需要花费很长时间,通过设置check_repl_delay=0,
# MHA触发切换在选择一个新的master的时候将会忽略复制延时,这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master
check_repl_delay=0
验证SSH通信(db3)
masterha_check_ssh --conf=/etc/mha/app1.cnf
验证 MySQL 主从状态(db3)
masterha_check_repl --conf=/etc/mha/app1.cnf
启动 MHA manager (db3):
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
检查 MHA 工作状态(db3):
masterha_check_status --conf=/etc/mha/app1.cnf
模拟主库故障
停止主库(db1):
systemctl stop mysqld
观察 MHA manager 日志(db3)
# 末尾必须显示successfully,才算正常切换成功。
tail -f /var/log/mha/app1/manager
修复原主库(db1)
# 启动 mysqld
systemctl start mysqld
# 登录数据库
mysql -uroot -pKlvchen_123
# 启动 slave
change master to master_host='192.168.31.206' ,master_user='rep',master_password='Rep_123456',master_auto_position=1;
start slave;
MHA 修复配置文件及启动(db3)
vi /etc/mha/app1.cnf
# 加回去
[server1]
hostname=192.168.31.205
port=3306
# 启动 MHA manager
nohup masterha_manager --conf=/etc/mha/app1.cnf --remove_dead_master_conf --ignore_last_failover < /dev/null> /var/log/mha/app1/manager.log 2>&1 &
检查(db3)
masterha_check_status --conf=/etc/mha/app1.cnf