基于阿里云MySQL/Redis/ElasticSearch的双活灾备方案的设计

基于阿里云MySQL/Redis/ElasticSearch的双活灾备方案的设计_第1张图片

说起容灾备份方案,一般说来有下面这个发展方向:


下面简单介绍下各个方案的内容:

冷备:离线手工对数据进行容灾备份,当发生故障时,手工切换到备用环境

热备:实时对主生产环境的数据进行备份,当发生故障时,自动或手工切换到灾备环境

双活:两套环境实时进行双向数据同步,每套环境都承载其中一部分流量,当发生故障时,只由其中一套环境承载所有流量

只有进行数据同步所涉及到的内部,一般包含如下内容:

数据库,一般是MySQL

Redis

MongoDB

搜索引擎,一般是ElasticSearch

大数据应用,一般是HBase和HDFS

由于容灾方案很多,下面只针对阿里云下的方案进行讲解。数据库方面,则只将MySQL,其他数据库可以触类旁通。搜索引擎则只讲ES(ElasticSearch)。


一、MySQL的数据同步

下面讲两种方案:

阿里云自带双活方案(DTS)

采用Canal实现

阿里的MySQL灾备方案,后面采用的就是阿里的DTS服务,可以根据流量等情况,选择服务的类型。DTS使用很方便,可以实现表级(只同步需要的表)甚至是字段级别的数据同步。RDS有重连机制,基本上可以保障在发送MySQL主从切换等情况下,数据不丢失,但是下面一些情况需要重点关注:

DTS无法规避MySQL写冲突,需要在业务上进行规避。最典型的场景,就是按照业务模块,或者按照客户归属性进行划分,保证两个中心,不会对同一条数据进行更新操作。

DTS有一定的表结构变化同步能力,但并不是全部,所以当发生表结构变化的时候,需要特别关注。第一种情况就是月表,如果是每个月生成一张月表,那么灾备中心可能就有问题,可以一次性生成未来好几年的月表。另外一种情况就是升级的时候,需要对表增加一个字段,这个时候最好是等待两个中心同时更新完成后,才进行数据同步。

延迟不可避免,最好不要对一个中心写,然后在另外一个中心读。

第二种方案就是采用开源框架canal,自己写代码实现MySQL的数据同步,它的处理流程如下:​​​​

canal的基本原理跟DTS一样,就是读取MySQL的binlog文件,然后将数据写入kafka中,另外一份订阅读取数据,并将数据写入到灾备数据库。


canal方案的好处就是开源的,不需要收费,当时它的可靠性肯定没有DTS高,下面地方需要特别注意:

主从切换下的数据丢失:正常情况下,canal进行数据同步,肯定不会发生数据丢失,但在MySQL异常,主从切换等各种异常情况下,如果处理不当,有可能发生少量数据丢失,所以需要评估业务是否能接受,如果要求极高的可靠性,最好采用阿里的方案。

双活方案:canal是单向同步的,而双活要求双向同步,那么采用canal的时候,就需要对数据变化进行时候,标识好那些是同步的数据,那些的变化的数据,要不然就容易发生同步的回路,导致死循环。

二、Redis的数据同步

阿里对Redis的内核做了改造,支持进行数据的同步,当时当前只支持全部的同步,所以当双活环境对同一个key进行操作的时候,则有可能发生问题,需要业务上需要对这个进行改造。


三、ES的数据同步

阿里当前没有支持ES的数据同步,所以只能自己实现,一般情况下,ES的写入有两种方式:

直接在代码里面实现,将数据写入ES

先将数据写入MySQL,然后再将MySQL的数据同步到ES

针对第一种方式,有一种可行的实现方式,就是将数据写入ES之后,将数据也写入一份到Kafka,然后灾备中心通过订阅Kafka,将数据写入到灾备的ES。

这里还有个双活,因为灾备中心的服务采用的是同一套代码,那么灾备中心往主中心同步的逻辑也是一样。

但这里有个问题,由于是同一套代码,所有最后是往Kafka的同一个Topic写数据,那么如何区分呢?下面有几个解决思路:

业务逻辑进行处理,不同的中心自动写入到不同的Topic

Topic通过配置实现,不同的中心配置不同的Topic

写入的数据增加标识,可以识别对应的中心。Kafka消费者在接收到消息后,丢弃不需要处理的数据

上面三种方案,推荐使用第一种。


针对ES写入的第二种方式,目前通常有两种实现方式:

通过Flume、Sqoop、Spark等工具,将数据从MySQL读取出来,然后写入到ES

通过canal,解析MySQL的binlog文件,然后写入数据到kafka,然后再写入到ES

第一种方案更加偏重于定时的数据同步,很多公司都是在凌晨执行进行数据的同步,由于该方案会对MySQL造成压力,如果MySQL做了kill的配置,很可能由于执行时间过长会被MySQL kill掉,造成数据丢失。

第二种方案是实时同步的方案,处理不当,在发生异常的情况下,有可能会出现少量的数据丢失。

如果只是需要凌晨同步,推荐用第一种方案,如果是对实时性要求比较高,推荐用第二种方案。


由于这两张方案通常都是写入到kafka,那么我们可以通过订阅kafka,实现同时往灾备中心写数据。


由于ES的集群方式,理论上还有另外一种方式,那就是一个ES集群,同时配置主中心和灾备中心的节点,当发生灾备时,理论上还有一半的节点可以使用。这个方案存在一个重大的缺陷,那就是灾备中心往往跟主中心距离遥远,比如说,主中心的南方,备中心在备份,如果一个ES集群同时包含不同地域的节点,那么这个时延可能无法接受,由于ES需要在不同的节点和分片上面进行数据的传输和备份,少量时延都可能对ES的性能造成大的影响,这对业务的感知就很差,所以不推荐该方式。


四、全局ID(自增ID)的设计

业务上面需要用到各种各样的唯一主键,在以前只有一个MySQL数据库的时代,全局ID往往是采用MySQL的自增ID来实现的,但随着规模的扩大,MySQL出现分表分库,并发量往往也在加大,MySQL的自增ID往往无法支撑性能,比较通常的的采用Redis来实现全局ID功能。


在双活或者灾备环境下,Redis全局ID和MySQL自增ID都存在问题,因为主环境和灾备环境是隔离的,双方产生的ID的可能存在重复。


解决的思路就是采用主环境和灾备环境分别生成不一样的ID,比如说,主环境产生单数的ID,灾备环境产生双数的ID,这样就保证两边产生的ID不重复了。


但这样就有另外一个问题,那就是有可能一个ID比较少的数据,产生的时间点却是比较晚的,在这种情况下,在灾备切换前,可以把灾备环境的ID刷新到最新的ID值,这样产生的数据就基本上是顺序的了。


五、定时任务的处理

正常的业务,后台都有各种定时任务,定时任务的类型主要分为两种:

统计类:每天凌晨对数据进行统计

迁移类:比如说每天凌晨,将数据迁移到历史表

监控类:比如说看门狗,用来监控系统是否正常

针对1和2两种类型,其实都可以认为是对MySQL的数据进行操作,而由于灾备会进行数据同步,如果备份中心也进行MySQL的数据处理,那么就会导致数据被重复处理,或者产生重复数据,所以备份中心的统计类和监控类定时任务不需要开启,只在主中心启动就行。

针对监控类定时任务,则灾备中心同时也需要启动。


六、公共数据的处理

假设双活的环境,业务不是完全隔离的话,那么就涉及到公共数据了,包括客户、权限、部门、系统参数等。

正常情况下,跟客户和客户所属地域相关的配置,是不会出现不同中心修改同一条记录的情况,那么也就不会出现写冲突了。

但是少量公共配置,比如说系统参数,还是可能出现写冲突。


比较稳妥的方式还是对这部分公共配置增加中心的配置,也就是不同有不同的配置,这样就不会出现写冲突了。


七、消息队列的处理

在微服务架构体系里,往往使用了RabbitMQ、Kafka等消息队列,通常的做法就是微服务在接受到请求并处理后,将下一步处理作为消息发送到消息队列,消息队列的消费者接收到消息后进行后续处理。

正常情况下,在双活系统里,主中心和灾备中心的消息队列分别处理各自地域的数据,互不干扰。

但是当消息队列处理的是公共数据的变化的,就可能有些问题了。比如说,消息队列是监听DB的变化,然后进行后续处理,那么灾备中心的服务应该停了,只由一个处理就可以。


八、告警监控的处理

正常情况下,告警监控主要包括以下内容:

主机告警监控

应用告警监控

日志分析和告警

业务告警

日常巡检

中间件告警

其中,应用告警主要是指java、php、go、c等服务,通常会监控应用对应的CPU、IO、缓存,吞吐量、慢事务、GC时间、缓存等。日志分析和告警主要是收集业务采集的日志,然后进行分析,通常使用ELK、GrayLog等,监控主要有异常日志,业务操作日志、请求日志等。业务告警主要是指业务专门写的测试代码,主要有业务拨测,自动化单元测试,自动化集成测试等。日常巡检通常就是运维人员每天,每周,每月执行的巡检操作,一般包括自动和手工。中间件告警包括MySQL、RabbitMQ、Kafka、Redis、MongoDB等。

双活情况下,上面告警监控都要能正常处理。

已有阿里云账号的老用户优惠

本公司是阿里云顶级代理商,通过项目报备的方式与我们关联后,无须改变你的购买方式(还是从阿里云官网下单付款购买),先买后返(最高返实际支付金额的15%)。如有采购需求,请及时和我们联系咨询。

+ QQ/微信:2040593

备注:阿里云老用户采购

原文地址:https://www.lastupdate.net/10040.html

你可能感兴趣的:(基于阿里云MySQL/Redis/ElasticSearch的双活灾备方案的设计)