灾难恢复全攻略:从定级、规划到实施

 以前,还经常能够听到企业这么说,假如在容灾备份系统架构上,连续投资20年,而这20年来都没有发生自然灾难,那么这20年的费用就白费了;但是,将这些费用投资到生产环节,就能换来更高的回报率。但是,估计在当前你再也听不到谁这么说了?最近两几年,频发的自然灾害,让这些人心里都明白了,意外就是意外,它从来都是不期而遇的。
    
    当然,容灾备份系统可以分成两部分来理解,第一是数据备份;相对来说,这一步属于灾难备份的基础内容。现在,国内大部分企业都对自己的数据进行备份,要求异地备份的,可以将存储设备转移到不在同一地震带上的数据中心。第二是数据恢复。对于金融、电信、保险、电力等八大行业,由于他们对数据的实时保护要求较高,灾难发生后在规定的时间内如果不能恢复业务,将会发生非常大的损失,所以他们是最早一批实施容灾备份系统的企业。 

    那么,对于中小企业来说,可能不需要数据及时恢复,只要保存完好就行;而对于金融、电信、超市等瞬时交互数据量较大的企业,他们对容灾的要求则是及时性强。由于企业对于数据保护的要求程度不同,所以容灾备份体系建设需要考虑的方面比较多,但是,首先要考虑你需要的灾难恢复是什么级别的,这种灾难恢复类型的技术指标RPO/RTO是多少。

    如何选择与企业对应的灾难恢复级别?

    衡量容灾恢复的级别有两个技术指标:RPO和RTO。其中,RPO(Recovery Point Objective):即数据恢复点目标,主要指的是业务系统所能容忍的数据丢失量。RTO(Recovery Time Objective):即恢复时间目标,主要指的是所能容忍的业务停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。

    RPO针对的是数据丢失,而RTO针对的是服务丢失,二者没有必然的关联性。RTO和RPO的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的同一种业务,RTO和RPO的需求也会有所不同。

企业如何评判自己的容灾备份的级别,事实上,早在2007年7月,国务院信息化工作办公室有下发了《信息系统灾难恢复规范》(以下简称《规范》),并于2007年11月1日开始正式实施。这是中国灾难备份与恢复行业的第一个国家标准,是各行业进行灾备建设的重要参考性文件。

    灾难恢复等级的确定是你做信息系统灾备建设的首先考虑因素。《规范》将灾难恢复能力划分为6级:


灾难恢复全攻略:从定级、规划到实施_第1张图片

 
    等级一:基本支持。要求数据备份系统能够保证每周至少进行一次数据备份,备份介质能够提供场外存放。对于备用数据处理系统和备用网络系统,没有具体要求。

    等级二:备用场地支持。在满足等级一的条件基础上,要求配备灾难恢复所需的部分数据处理设备,或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地;要求配备部分通信线路和相应的网络设备,或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地。

    等级三:电子传输和设备支持。要求每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备用场地。配备灾难恢复所需的部分数据处理设备、通信线路和相应的网络设备。

    等级四:电子传输及完整设备支持。在等级三的基础上,要求配置灾难恢复所需的所有数据处理设备、通行线路和相应的网络设备,并且出于就绪或运行状态。
等级五:实时数据传输及完整设备支持。除要求每天至少进行一次完全数据备份,备份介质场外存放外,还要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。

    等级六:数据零丢失和远程集群支持。要求实现远程实时备份,数据零丢失;备用数据处理系统具备与生产数据处理系统一致的处理能力,应用软件是“集群的”,可实时无缝切换。

    由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,需要根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡),确定业务系统的合理的灾难恢复能力等级。对于多个业务系统,不同业务可采用不同的灾难恢复策略。

    信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)具有一定的对应关系
  ,各行业可根据行业特点和信息技术的应用情况制定相应的灾难恢复能力等级要求和指标体系。在《规范》中,也给出了某个特定行业灾难恢复能力等级与RTO、RPO之间关系的示例,可作为参考:   


灾难恢复全攻略:从定级、规划到实施_第2张图片

    
    建设中:灾难恢复系统建设需要哪些资源要素?

    在明确了灾备建设中灾难恢复能力等级目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。下表是对《规范》中灾备建设内容的总结,我们称之为灾备建设的七要素:

灾难恢复全攻略:从定级、规划到实施_第3张图片



    《规范》中对灾备恢复资源七要素的详细定义,可以引导灾备建设单位全面考虑灾难恢复建设的各个相关方面,防止片面强调个别要素而忽略整体。

    事实证明,《规范》中对灾难恢复能力六等级、七要素的定义,使得我们在灾备建设中能够更加明确和清晰的确定建设目标和内容。

那么,在实施建设灾难恢复方案的时候,还有哪些因素是我们必须考虑到的呢,这里提出几点供参考。

  一、没有考虑到可能会破坏基础设施和数据运行的所有可能性。除了显而易见的病毒,木马,蠕虫等威胁,还需要想到您所处的地理位置发生自然灾害的可能性,比如是否处于地震断层或是在洪水区,风暴多发区,或拉闸限电等等。在制定灾备计划时,一定要把这些看似与IT无关的因素也考虑进去,如果自然条件实在太恶劣,劝您可以考虑换个地方建设数据中心。

  二、灾备计划过于依赖很少的某几个员工。常常看到有些企业的灾难恢复计划依赖于某几个甚至一个IT员工,这很危险。万一如果该人由于某种原因无法工作或者刚好找不到他/她怎么办?您需要确定员工也得有“备份”,矩阵式结构的雇员组织形式会更好的做出应急响应。而且负责灾备的员工分布的地理位置最好是分散的,以防某一地区发生重大灾害。

  三、故障或灾难来临时,依靠手工流程通知工作人员。假设您的设备由于停电而终断运行,可是现场又没有人,负责灾备的IT人员怎么会知道机房停电了?您需要建立一套自动化的系统,发生灾难或者服务终断时它可以自动的通知您的IT员工。你还可以选择第三方服务,请服务商来监控您的设施并且指派受过灾备培训的专业人员来帮你执行你的灾难恢复计划。

  四、未能提供充足的后备电源。如果您的机房所在地常受到断电影响,一定要购买寿命最长的、最不易受干扰而间断的电力供应。还要准备好额外的备用电池以保证业务的持续能力。

  五、忘记安排哪些资源需要优先恢复。您的IT应用中,哪些是最重要的?是否有一些可以等待一两天也不会影响到业务?你需要事先安排好应用与服务的恢复顺序。比如,你可以选择首先重启您公司的电子邮件应用,然后再恢复部门文件服务器。在安排这个顺序时,你需要考虑到相关的法规遵从要求。

  六、未制定规范灾难恢复计划流程文档。在制订了一套灾备计划之后,您一定要把如何执行恢复计划的步骤写下来,要详细到每一个进程以及记录,描述所有系统资源的位置。这个灾备恢复步骤手册一定要多印几份,并且存储在多个不同的地方,并确保所有关键恢复人员人手一份。

  七、忘记测试灾难恢复计划。确保恢复计划在有紧急状况时真的可以恢复出来!虽然这似乎是显而易见的事,但是许多企业都忽视了这一点,没有充分测试他们的灾备恢复计划。应该定期进行灾难演习,测试每种可能发生的情况,从基本的电力故障到可能导致持续几个月的重大灾难性事件。

  八、密码也很难找到。虽然密码保护是数据安全的重要环节,不过还是建议您最好至少在两个不同的、安全的地方保存您的系统密码。确保一个以上的IT工作人员的人有机会进入那里,并能获得所有密码。并且,如果这些关键人员辞职了,一定要及时更改密码。

    九、未能保持恢复计划的更新。您需要不断更新您的灾难恢复计划,至少一个季度要再看一次。确定调用该计划的触发点,如人员、设备、地点或应用的改变等等。这不仅有利于IT工作人员的技能保持更新,还将让你有机会发现灾备计划程序中的漏洞并优化之。

    建设后:灾难恢复系统建设完成之后,对于企业来说并不是说就能高枕无忧了,很多细节,需要我们在日常的系统维护中更加小心谨慎。应该这样说,任何信息化手段都只是工具,需要我们去多学多用,直到会用好用。所以,对于灾难恢复的使用者来说,必须制定完整的灾难恢复计划、定时做灾难恢复演练等。否则不管你之前花了多少费用,到需要做灾难恢复的时候,系统不起作用,也只能是废铜烂铁。


你可能感兴趣的:(安全)