详细介绍了MySQL主从复制的原理和基本流程,以及一些问题的处理方式。
主从复制可以很好的解决的单点故障,并且可以进行读写分离来减轻数据库的压力。很多情况下主服务器仅作为写入数据服务器,而构建多个从节点来进行数据读取。但主库也可以进行读操作。因此建议:关键业务读写都由主库承担,非关键业务读写分离。
下图就是MySQL主从同步的基本原理,节点A到B这条线的内部流程。
备库B和主库A之间维持了一个长连接。主库A内部有一个线程dump_thread,专门用于服务备库B的这个长连接。
一个事务日志同步的完整过程如下:
在备库B上通过change master命令,设置主库A的IP、端口、用户名、密码,以及要从哪个位置开始请求binlog,这个位置包含文件名和日志偏移量。
change master
命令,设置主库A的IP、端口、用户名、密码,以及要从哪个位置开始请求binlog,这个位置包含文件名和日志偏移量。io_thread
和sql_thread
。其中io_thread负责与主库建立连接。dump_thread
开始按照备库B传过来的位置,从本地读取binlog
文件的内容,发给B。io_thread
拿到网络传输过来的binlog内容后,写到本地文件,称为中转日志(relay log)
。sql_thread
读取中转日志,解析出日志里的命令并执行(重放)。可以看到,MySQL 主从复制是依赖于 binlog。此前一共三个线程参与主从复制,后来由于多线程复制方案的引入,sql_thread演化成为了多个线程。
下图就是基本的主备切换流程:
在状态1中,客户端的读写都直接访问节点A,而节点B是A的备库,只是将A的更新都同步过来,到本地执行。这样可以保持节点B和A的数据是相同的。
当需要切换的时候,就切成状态2。这时候客户端读写访问的都是节点B,而节点A是B的备库。
在状态1中,虽然节点B没有被直接访问,但是建议把备库节点B,设置成只读模式。有以下几个原因:
把备库设置成只读了,还怎么跟主库保持同步更新呢?实际上因为readonly设置对超级(super)权限用户是无效的,而用于同步更新的线程,就拥有超级权限,因此无须担心。
注意,主从切换不是自动进行的,需要人为手动操作,宕机时间长,严重影响线上业务。
单主多从存在单点故障的问题,从库切换成主库需要作改动。双主即两个数据库互为主备,能保持两个数据库的状态自动同步,在切换的时候就不用再修改主备关系。对任何一个数据库的操作都自动应用到另外一个数据库,始终保持两个数据库数据一致,这样做的意义是既提高了数据库的容灾性,又可以做负载均衡,可以将请求分摊到其中任何一台上,提高网站吞吐量。
如下是在生产环境中用得更多的双M结构。节点A和B之间总是互为主备关系:
可以使用Keepalived 快速实现MySQL双主高可用。在keepalived中2种模式,分别是master->backup模式和backup->backup模式:
多主需要考虑自增长ID问题,这个需要特别设置配置文件,比如双主,可以使用奇偶,总之,主之间设置自增长ID相互不冲突就能完美解决自增长ID冲突问题。
双M结构有一个问题要解决,业务逻辑在节点A上更新了一条语句,然后再把生成的binlog发给节点B,节点B执行完这条更新语句后也会生成binlog。那么,如果节点A同时是节点B的备库,相当于又把节点B新生成的binlog拿过来执行了一次,然后节点A和B间,会不断地循环执行这个更新语句,也就是循环复制。
MySQL在binlog中记录了这个命令第一次执行时所在实例的server id。因此,可以用下面的逻辑,来解决两个节点间的循环复制问题:
双M结构日志的执行流如下:
与数据同步有关的时间点主要包括以下三个:
所谓主备延迟,就是同一个事务,在备库执行完成的时间和主库执行完成的时间之间的差值,也就是T3-T1。可以在备库上执行show slave status命令,它的返回结果里面会显示seconds_behind_master,用于表示当前备库延迟了多少秒。
seconds_behind_master的计算方法是这样的:
如果主备库机器的系统时间设置不一致,不会导致主备延迟的值不准。备库连接到主库的时候,会通过SELECTUNIX_TIMESTAMP()
函数来获得当前主库的系统时间。如果这时候发现主库的系统时间与自己不一致,备库在执行seconds_behind_master
计算的时候会自动扣掉这个差值。
网络正常情况下,主备延迟的主要来源是备库接收完binlog和执行完这个事务之间的时间差。主备延迟最直接的表现是,备库消费中转日志的速度,比主库生产binlog的速度要慢。
由于主备延迟的存在,所以在主备切换的时候,就相应的有不同的策略。
这个切换流程,一般是由专门的HA系统来完成的,称之为可靠性优先流程。如下图(SBM,是seconds_behind_master参数),双M结构下,从状态1到状态2切换的详细过程如下:
这个切换流程中是有不可用的时间的。在步骤2之后,主库A和备库B都处于readonly状态,也就是说这时系统处于不可写状态,直到步骤5完成后才能恢复。在这个不可用状态中,比较耗时的是步骤3,可能需要耗费好几秒的时间。也是为什么需要在步骤1先做判断,确保seconds_behind_master的值足够小。
如果强行把可靠性优先策略的步骤4、5调整到最开始执行,也就是说不等主备数据同步,直接把连接切到备库B,并且让备库B可以读写,那么系统几乎没有不可用时间。这个切换流程的代价,就是可能出现数据不一致的情况。
假设有一个表 t:
mysql> CREATE TABLE `t` (
`id` int(11) unsigned NOT NULL AUTO_INCREMENT,
`c` int(11) unsigned DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;
insert into t(c) values(1),(2),(3);
这个表定义了一个自增主键id,初始化数据后,主库和备库上都是3行数据。接下来,业务人员要继续在表t上执行两条插入语句的命令,依次是:
insert into t(c) values(4);
insert into t(c) values(5);
假设,现在主库上其他的数据表有大量的更新,导致主备延迟达到5秒。在插入一条c=4的语句后,发起了主备切换。
下图是可用性优先策略,且binlog_format=mixed时的切换流程和数据结果。
这个切换流程如下:
最后的结果就是,主库A和备库B上出现了两行不一致的数据。可以看到,这个数据不一致,是由可用性优先流程导致的。
如果我还是用可用性优先策略,但设置binlog_format=row
。因为row格式在记录binlog的时候,会记录新插入的行的所有字段值,所以最后只会有一行不一致。而且,两边的主备同步的应用线程会报错duplicate key error
并停止。也就是说,这种情况下,备库B的(5,4)和主库A的(5,5)这两行数据,都不会被对方执行。
从上面的分析中,你可以看到一些结论:
不论是偶发性的查询压力,还是备份,对备库延迟的影响一般是分钟级的,而且在备库恢复正常以后都能够追上来。
但是,如果备库执行日志的速度持续低于主库生成日志的速度,那这个延迟就有可能成了小时级别。而且对于一个压力持续比较高的主库来说,备库很可能永远都追不上主库的节奏。这里就涉及到了备库并行复制能力。
主备的并行复制能力,要关注的就是上图中黑色的两个箭头。一个代表客户端写入主库,另一个代表备库上sql_thread执行中转日志。如果用箭头的粗细来代表并行度的话,那么真实情况就如图1所示,第一个箭头要明显粗于第二个箭头。
在官方的5.6版本之前,MySQL只支持备库单sql_thread线程更新数据,由此在主库并发高、TPS高时就会出现严重的主备延迟问题。5.6之后,支持多个sql-thread线程,并且随着版本不断地演进。
实际上,所有的多线程复制机制,都是要把图1中只有一个线程的sql_thread,拆成多个线程,也就是都符合下面的这个模型:
上图中,coordinator就是原来的sql_thread, 不过现在它不再直接更新数据了,只负责读取中转日志和分发事务。真正更新日志的,变成了worker线程。而work线程的个数,就是由参数slave_parallel_workers决定的。32核物理机的情况下,把这个值设置为8~16之间最好,毕竟备库还有可能要提供读查询,不能把CPU都吃光了。
coordinator在分发的时候,需要满足以下这两个基本要求:
参考资料:
如有需要交流,或者文章有误,请直接留言。另外希望点赞、收藏、关注,我将不间断更新各种Java学习博客!