容灾
文章目录
- 容灾
- 1 业务连续性挑战
- 2 业务连续性定义
- 3 业务连续性解决方案概述
- 3.1 容灾的分类
- 3.2 容灾系统的挑战
- 3.3 容灾方案架构
- 4 容灾方案概述
- 4.1 容灾需求
- 4.2 容灾的挑战
- 4.3 什么是HA
- 4.4 什么是容灾,容灾和HA的关系
- 4.5 DR与备份的关系
1 业务连续性挑战
灾难频发,灾难将损毁组织的基础设施、关键人员、信息系统及关键业务数据等重要
资产,直接威胁到组织业务的连续运作。如何应对灾难,作好准备好了吗?
在金融服务中,如果业务不连续的话那么开盘和收盘会接不上,就会造成很大的损失。
- 设备级故障,如硬盘损坏,存储设备组件损坏或者整个存储系统宕机等
- 数据中心级故障或者灾难, 如数据中心长期电源故障、空调故障或者火灾,导致整个
业务系统的瘫痪
- 区域性灾难,主要是指水灾、地震等区域性重大灾难,整个区域的IT相关系统瘫痪,而
且有可能造成数据中心数据的永久性丢失。
- 为了预防不同的错误、故障、灾难,需要采用的容灾备份解决方案也不相同,如应对
设备故障的本地的高可用性容灾方案,应对数据中心灾难而建的同城容灾数据中心,
以及应对区域性灾难而建的异地容灾数据中心。
对于底层来说如果存储挂了还可以买个存储,但是存储的数据没了就没办法了。所以数据很重要
而且数据也是提高应用的关键。
2 业务连续性定义
什么是业务连续性?
1.高可用性
2.连续操作
3.灾难恢复
衡量容灾系统的关键指标
RPO:数据恢复时间 ,RTO:应用恢复时间
RPO指的是可以容忍的数据丢失量,RTO指的是容忍的应用系统恢复时间段
- RTO(Recovery Time Objective)指灾难发生后,信息系统或业务功能从停顿到必须恢复
的时间要求。值越小表明业务中断时间越小。
- RPO(Recovery Point Objective)指灾难发生后,系统和数据必须恢复到的时间点要求。
值越小表明丢失的数据越少。
如何制定系统切换的RTO指标?
- RTO是业务系统对容灾切换时间的要求,通常由业务影响分析得出。另一方面,
从容灾系统设计的角度来看,是当期容灾系统切换的时间,不能仅仅从存储层面
考虑,而要从应用系统整体考虑,包括存储、数据库和应用等几方面,要以能接
管业务的耗时为准。
3 业务连续性解决方案概述
3.1 容灾的分类
根据容灾效果划分容灾等级。
容灾系统可分为数据级容灾,应用级容灾,业务级容灾
-
数据级容灾:异地容灾系统数据是本地关键应用数据的一个副本,当本地系统发生灾
难时,系统至少在异地保存有一份可用的关键业务的数据。
-
应用级容灾:是在数据级容灾基础上,在异地建立一套与本地生产系统相当的备份环
境,包括主机、网络、应用、IP等资源均有配套,当本地系统发生灾难时,异地系统可
以提供完全可用的生产环境
-
业务级容灾:是全业务的灾备,要求具备全部的基础设施。其大部分内容是非IT系统
(如电话、办公地点等),当大灾难发生后,原有的办公场所都会受到破坏,除了数
据和应用的恢复,更需要一个备份的工作场所能够正常的开展业务。
程度为逐渐递增的。
还可以分为1-6等级。
3.2 容灾系统的挑战
主要还是成本。
3.3 容灾方案架构
最低级别的为备份且只是Server和Data
III级别的为数据级别的Server和Data为异步的。
II级别的为应用级别的多个Server和Data为异步的。
I级别的为应用级别的多个Server对应多个Data为异步的。
BIA是从业务层面分析企业的业务连续性需求,在进行BIA分析前需要梳理电子政务的业
务
- 考虑到政府事务的公开性、权威性,重点关切应用中断所造成的社会稳定、政府
公信力、法规违反、业务范围这4方面的影响;影响等级划分为“低”、“中”、
“高”3级,通过计算各业务影响值总和,作为各业务的中断影响综合值。以中
断影响等级2(影响值5~8)作为采取灾备措施的门槛。
- 通过评估8个时间点(1h,4h,8h,24h,2d,3d,5d,10d)的业务中断影响变化情况,推
导各项业务的MAO(最大可接受中断时间)。
- 分析应用的关联关系(包括应用支撑业务的状况、应用间的集成关系),分析推
导出应用系统的灾难恢复需求(RTO&RPO)。
- 按照RTO、RPO,将电子政务应用系统的划分为4各灾难恢复等级,为灾难恢复策
略制定、灾难恢复技术方案制定提供依据。
4 容灾方案概述
4.1 容灾需求
为什么会有容灾:
数据会丢失,导致业务中断,会导致损失
容灾需要钱。服务器,交换机,存储设备也要购买
UPS也要购买:避免由于断点而造成的数据的损失。
4.2 容灾的挑战
- 应用多样,管理不便:企业IT系统中运行的业务系统越来越多,需要作为关键业务进行
容灾保护的应用也越来越多,常见的应用有Oracle、DB2、SQL Server、Exchange等,同
时IT系统的云化趋势越来越明显,众多的虚拟机也需要提供保护:缺乏统一的管理系统。
- 流程复杂,耗时易错:不同应用的配置不同,恢复流程各异,配置难度大;业务切换、
恢复需要专业人士操作,耗时易错:缺乏自动化的创建和部署流程
- 黑盒运行,难以理解:传统业务切换、演练等操作流程都是设备内黑盒运行,缺乏可
视效果,难于理解。
4.3 什么是HA
高可用:也可以分为两类:
Active/Passive HA:
- 集群只包括两个节点简称主备。在这种配置下,系统采用主和备用机器来提供服
务,系统只在主设备上提供服务。
- 在主设备故障时,备设备上的服务被启动来替代主设备提供的服务。
- 典型地,可以采用 CRM 软件比如 Pacemaker 来控制主备设备之间的切换,并提
供一个虚机 IP 来提供服务。
Active/Active HA:
- 集群只包括两个节点时简称双活,包括多节点时成为多主(Multi-master)。
- 在这种配置下,系统在集群内所有服务器上运行同样的负载。
- 以数据库为例,对一个实例的更新,会被同步到所有实例上。
- 这种配置下往往采用负载均衡软件比如 HAProxy 来提供服务的虚拟 IP。
Pacemaker是一个集群管理器。它利用首选集群基础设施(OpenAIS 或heartbeat)提供
的消息和成员能力,由辅助节点和系统进行故障检测和回收,实现性群集服务(亦称
资源)的高可用性。CRM:集群资源管理
HAProxy是一个使用C语言编写的自由及开放源代码软件,其提供高可用性、负载均衡,
以及基于TCP和HTTP的应用程序代理。HAProxy特别适用于那些负载特大的web站点,
这些站点通常又需要会话保持或七层处理。
4.4 什么是容灾,容灾和HA的关系
DR:容灾和HA:高可用的关系
可以从场景,存储,故障,网络,云,目标等方向去考虑
场景:HA是指本地的高可用系统,表示在多个服务器运行一个或多个应用的情况下。应确保任意服务器出现任何故障时,运行的应用不中断。
DR是指异地的高可用系统。表示在容灾发生时候,数据应用以及业务的恢复能力。
存储:HA往往是共享存储,因此不会出现数据丢失,RPO=0.
容灾则需要考虑RPO。
云:HA是云环境内保证业务持续性的机制
DR是云环境间保证业务持续性的机制
目标:HA是保证业务的高可用
DR是保证数据可靠的基础上的业务可用
4.5 DR与备份的关系
一般所说的备份采用备份软件技术实现,而容灾通过复制或镜像软件实现,两者的根
本区别在于:
- 备份软件处理后的数据格式不一致,必须恢复后才可使用,而复制或镜像软件处
理后的数据格式不发生变化,直接挂载给主机即可使用。
- 两者的数据保护的周期不一致,复制或镜像的时间周期更短。
- 一般备份为数据保护的最后一条防线,偏向于归档这个层面更多。
’容灾必须建立在备份的基础上才可以。