一、总概


1、MHA介绍


      MHA(Master High Availability)是自动的master故障转移和Slave提升的软件包.它是基于标准的MySQL复制(异步/半同步).

      MHA有两部分组成:MHA Manager(管理节点)和MHA Node(数据节点).

      MHA Manager可以单独部署在一台独立机器上管理多个master-slave集群,也可以部署在一台slave上.MHA Manager探测集群的node节点,当发现master出现故障的时候,它可以自动将具有最新数据的slave提升为新的master,然后将所有其 它的slave导向新的master上.整个故障转移过程对应用程序是透明的。

      MHA node运行在每台MySQL服务器上(master/slave/manager),它通过监控具备解析和清理logs功能的脚本来加快故障转移的。


2、MHA工作原理


-从宕机崩溃的master保存二进制日志事件(binlog events)。

-识别含有最新更新的slave。

-应用差异的中继日志(relay log)到其它slave。

-应用从master保存的二进制日志事件(binlog events)。

-提升一个slave为新master。

-使其它的slave连接新的master进行复制。


3、MHA工具包:


(1)、 Manager工具:

- masterha_check_ssh : 检查MHA的SSH配置。

- masterha_check_repl : 检查MySQL复制。

- masterha_manager : 启动MHA。

- masterha_check_status : 检测当前MHA运行状态。

- masterha_master_monitor : 监测master是否宕机。

- masterha_master_switch : 控制故障转移(自动或手动)。

- masterha_conf_host : 添加或删除配置的server信息。


(2)、 Node工具(这些工具通常由MHA Manager的脚本触发,无需人手操作)。

- save_binary_logs : 保存和复制master的二进制日志。

- apply_diff_relay_logs : 识别差异的中继日志事件并应用于其它slave。

- filter_mysqlbinlog : 去除不必要的ROLLBACK事件(MHA已不再使用这个工具)。

- purge_relay_logs : 清除中继日志(不会阻塞SQL线程)。


二、主机部署


manager机:192.168.1.201  manager安装:mha4mysql-manager-0.54-0.el6.noarch.rpm

master机:192.168.1.231   节点安装: mha4mysql-node-0.54-0.el6.noarch.rpm

slave1机:192.168.1.232(备用master) 节点安装:mha4mysql-node-0.54-0.el6.noarch.rpm

三、首先用ssh-keygen实现三台主机之间相互免密钥登录


[manager--201]

1、生成证书

shell> ssh-keygen -t rsa -b 2048  //一直按回车直接生成。

shell> scp id_rsa.pub [email protected]:/root/.ssh/  //复现到主机231

shell> scp id_rsa.pub [email protected]:/root/.ssh/  //复现到主机232

2.在主机231、232中/root/.ssh/下 执行

cat id_rsa.pub >> authorized_keys

//导入公钥到/root/.ssh/authorized_keys文件中

3.测试201无密登录到231、232

ssh 192.168.1.231

ssh 192.168.1.232

[node--231、232]

重复执行上面的步骤。

通过ssh测试任何两台主机间两两可以无密登录。

注意:如果不能实现任何两台主机间两两可以无密登录,后面的步骤会有问题。


四、安装MHAmha4mysql-node,mha4mysql-manager 软件包


1、manager mha4mysql-manager软件安装



[manager--201]

shell> yum install perl

shell> yum install cpan

shell> rpm -ivh mha4mysql-manager-0.53-0.el6.noarch.rpm

error:

perl(Config::Tiny) is needed by mha4mysql-manager-0.53-0.noarch

perl(Log::Dispatch) is needed by mha4mysql-manager-0.53-0.noarch

perl(Log::Dispatch::File) is needed by mha4mysql-manager-0.53-0.noarch

perl(Log::Dispatch::Screen) is needed by mha4mysql-manager-0.53-0.noarch

perl(Parallel::ForkManager) is needed by mha4mysql-manager-0.53-0.noarch

perl(Time::HiRes) is needed by mha4mysql-manager-0.53-0.noarch


说明有很多依赖包没有安装,解决方法:



shell> wget ftp://ftp.muug.mb.ca/mirror/cent ... 8-41.el5.x86_64.rpm 

shell> wget ftp://ftp.muug.mb.ca/mirror/cent ... 9-15.el6.x86_64.rpm 

shell> wget http://downloads.naulinux.ru/pub ... 27-1.el6.noarch.rpm 

shell> wget http://dl.fedoraproject.org/pub/ ... .9-1.el6.noarch.rpm 

shell> wget http://dl.fedoraproject.org/pub/ ... 16-3.el6.noarch.rpm 

shell> wget http://dl.fedoraproject.org/pub/ ... 9-12.el6.noarch.rpm 

shell> wget http://mirror.centos.org/centos/ ... -136.el6.x86_64.rpm

shell> rpm -ivh perl-Parallel-ForkManager-0.7.9-1.el6.noarch.rpm perl-Log-Dispatch-2.27-1.el6.noarch.rpm perl-Mail-Sender-0.8.16-3.el6.noarch.rpm perl-Mail-Sendmail-0.79-12.el6.noarch.rpm perl-Time-HiRes-1.9721-136.el6.x86_64.rpm



再安装


shell> rpm -ivh mha4mysql-manager-0.53-0.el6.noarch.rpm

2、node MHAmha4mysql-node软件安装



shell>wget http://mirror.centos.org/centos/ ... 13-3.el6.x86_64.rpm

shell>rpm -ivh perl-DBD-MySQL-4.013-3.el6.x86_64.rpm

shell>wget http://mysql-master-ha.googlecod ... 54-0.el6.noarch.rpm

shell>rpm -ivh mha4mysql-node-0.54-0.el6.noarch.rpm

安装过程可能会报错(具体错误我没有记下)都是依赖包的问题,这么解决吧

shell>yum install perl-MIME-Lite

      yum install perl-Params-Validate


五、MHA的配置


1、管理机manager上配置MHA文件



shell> mkdir -p /masterha/app1    //创建目录

shell> mkdir /etc/masterha        //创建目录

shell> vi /etc/masterha/app1.cnf  //创建配置文件

[server default]

user=root                //linux用于管理mysql用戶名

password=sunney          //linux用于管理mysql密码

manager_workdir=/masterha/app1

manager_log=/masterha/app1/manager.log

remote_workdir=/masterha/app1

ssh_user=root            //ssh免密钥登录的帐号名

repl_user=sunney         //mysql复制帐号,用来在主从机之间同步二进制日志等

repl_password=sunney     //mysql密码

ping_interval=1          //ping间隔,用来检测master是否正常

[server1]

hostname=192.168.1.231

#ssh_port=9999

master_binlog_dir=/var/lib/mysql //mysql数据库目录不同的安装方式目录不一样

candidate_master=1               //master机宕掉后,优先启用这台作为新master

[server2]

hostname=192.168.1.232

#ssh_port=9999

master_binlog_dir=/var/lib/mysql

candidate_master=1


2、masterha_check_ssh工具验证ssh信任登录是否成功


[manager:201]

shell> masterha_check_ssh --conf=/etc/masterha/app1.cnf

注意:用ssh-keygen实现三台主机之间相互免密钥登录决定这一步是否成功。


Wed Apr  23 22:10:01 2014 - [debug]   ok.

Wed Apr  23 22:10:01 2014 - [info] All SSH connection tests passed successfully.

成功!


3、masterha_check_repl工具验证mysql复制是否成功


[manager:201]

shell> masterha_check_repl --conf=/etc/masterha/app1.cnf

注意:上一篇文章中的master--slaver是否成功决定这一步是否成功。或是MHA文件配置的用户账号有关。



Wed Apr 23 22:10:56 2014 - [info] Checking replication health on 192.168.1.232..

Wed Apr 23 22:10:56 2014 - [info]  ok.

Wed Apr 23 22:10:56 2014 - [warning] master_ip_failover_script is not defined.

Wed Apr 23 22:10:56 2014 - [warning] shutdown_script is not defined.

Wed Apr 23 22:10:56 2014 - [info] Got exit code 0 (Not master dead).


MySQL Replication Health is OK.


成功。


4、启动MHA manager,并监控日志文件


[manager:201]

shell> nohup masterha_manager --conf=/etc/masterha/app1.cnf > /tmp/mha_manager.log 2>&1 

shell> tail -f /masterha/app1/manager.log  //这名最好在新窗口执行

结果:



Thu Apr 24 04:41:03 2014 - [info] Slaves settings check done.

Thu Apr 24 04:41:03 2014 - [info] 

192.168.1.231 (current master)

+--192.168.1.232

Thu Apr 24 04:41:03 2014 - [warning] master_ip_failover_script is not defined.

Thu Apr 24 04:41:03 2014 - [warning] shutdown_script is not defined.

Thu Apr 24 04:41:03 2014 - [info] Set master ping interval 1 seconds.

Thu Apr 24 04:41:03 2014 - [warning] secondary_check_script is not defined. It is highly recommended setting it to check master reachability from two or more routes.

Thu Apr 24 04:41:03 2014 - [info] Starting ping health check on 192.168.1.231(192.168.1.231:3306)..

Thu Apr 24 04:41:03 2014 - [info] Ping(SELECT) succeeded, waiting until MySQL doesn't respond..


5、测试master(231)宕机后,是否会自动切换


[master--231]

shell>service mysql stop


[manager--201]

shell>tail -f tail -f /masterha/app1/manager.log

-----日志显示如下------

-------- Failover Report -----


app1: MySQL Master failover 192.168.1.231 to 192.168.1.232 succeeded


Master 192.168.1.231 is down!


Check MHA Manager logs at localhost.localdomain:/masterha/app1/manager.log for details.


Started automated(non-interactive) failover.

The latest slave 192.168.1.232(192.168.1.232:3306) has all relay logs for recovery.

Selected 192.168.1.232 as a new master.

192.168.1.232: OK: Applying all logs succeeded.

Generating relay diff files from the latest slave succeeded.

192.168.1.232: Resetting slave info succeeded.

Master failover to 192.168.1.232(192.168.1.232:3306) completed successfully.




6、故障转移后,用命令恢复原来的master


(1)、在旧master上执行



1.在旧master上执行

shell>service mysql start //数据库启动

shell>mysql -usunney -psunney

mysql> reset master;

mysql> change master to master_host='192.168.1.232', master_port=3306, master_user='sunney', master_password='sunney', master_log_file='mysql-bin.000031', master_log_pos=112;

mysql> start slave;      #暂时先把旧master变为slave


(2)然后在manager节点上:




shell> masterha_master_switch --master_state=alive --conf=/etc/masterha/app1.cnf


过程中一直输入YES;


这样的话mysql主从机进行了切换。可以测试一下数据在新的master(232)的表中新增数据后,在新slave(231)对应的表中是否已实现数据同步。


六、MHA已完成配置并进行了测试。但如果是程序连接数据库并不会自动切换IP,那我们如何实现呢,请期待一篇keepalive + VIP安装配置。