阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践

2022 年 7 月 4 日,【可观测,才可靠——云上自动化运维 CloudOps 系列沙龙_第一弹】正式推出,连续四天,四大主题分享,最后一位分享的讲师是阿里云弹性计算技术专家邓青琳,他带来的主题分享是《云上跨可用区容灾和异地多活》,以下是他的演讲内容整理,供大家阅览:

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践_第1张图片

01 系统容灾

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践_第2张图片

提到容灾,必然会关联到故障。常见的故障类型有变更、硬件故障、断电断网以及自然灾害,发生的频率依次降低。但发生频率低并不意味着不重要,断电断网或自然灾害产生的故障往往是致命的

2021 年 3 月 10 日,欧洲最大的云服务公司 OVH 位于法国的机房着火,导致数据中心被完全烧毁,致使 350 万个网站下线,部分客户的数据永久丢失,无法恢复。OVH 公司 CEO 在推特上关于此次火灾的说明中提示客户启用自己的容灾方案。由此可见,即使应用部署在云上,也无法避免市政方面的故障比如断电断网以及极端自然灾害引起的故障,因此也需要做好相应的容灾方案

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践_第3张图片

目前主要的容灾类型可以分为以下三类:

① 同城(跨可用区),主要分为同城灾备、同城双活以及同城多活。

② 异地(跨地域),主要分为异地双读、异地应用双活以及异地双活。

③ 其他类型,包括两地三中心、两地三活以及单元化。

没有一套容灾方案可以适用于所有场景,我们需要结合实际业务发展趋势、业务系统的特征以及能够投入多少资源成本等方面综合评估,最终选出最适合的容灾架构方案。

02 主流容灾架构

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践_第4张图片

容灾能力主要有 RPO 和 RTO 两个评价指标

RPO 指应发生故障时能忍受数据丢失的最大程度。系统越重要,要求 RPO 越小。如果做数据备份,RPO 越小意味着数据的备份频率更高,比如一般的系统可能一天备份一次,非常重要的系统可能一小时备份一次;如果做数据同步,RPO 越小意味着要求数据同步链路的可靠性更高或延迟更低,对整个生产环境和网络的压力越大,需要的成本也更高。

RTO 指应用从出现故障到故障恢复能接受的最大时间。系统越重要,要求 RTO 越小

上图右侧为国家信息委员会制定的灾难恢复能力等级,分为 1-6 六个等级。其中 6 为要求最严格的等级,RTO 要求为数分钟,RPO 要求为 0,意味着系统数据不允许丢失。

阿里云技术专家邓青琳:云上跨可用区容灾和异地多活最佳实践_第5张图片

上图为目前四个主流容灾架构的对比

你可能感兴趣的:(技术分享,容灾备灾,异地多活,自动化运维)