北京联通 井国铭
为做到安全可靠、万无一失地保护所有用户数据和企业数据,当灾难发生时能够快速、准确地恢复系统的应用,北京联通自2006年开始信息系统容灾中心的规划和建设,逐步完成信息系统容灾中心基础设施、关键IT系统数据级和应用级容灾系统的建设,投入运行后的容灾系统在生产系统的开发、测试、割接和运行维护中发挥了重要作用。
信息系统容灾中心建设方法论的研究
1.业务持续性管理
业务持续性管理BCM (Business Continuity Management),就是在对企业进行业务冲击分析及风险分析并将其量化的基础上,制定相应应急及恢复计划、方法和流程,以减轻灾难对于企业的影响,它不仅仅是IT基础架构的恢复,还包括关键业务运作、人员及其它重要资源等的恢复和持续。BCM的基本输出是业务持续性计划BCP(Business Continuity Plan),而BCP 将指导灾难恢复计划DRP (Disaster Recovery Plan)和业务恢复计划BRP (Business Resumption Plan)的制定与实施。
2.容灾恢复指标
容灾的实质就是确保业务运营的持续进行,保障业务在发生灾难后能够恢复正常,是容灾中心(系统)最基本的功能。而业务恢复的效果,可以由以下两个重要指标来决定:恢复时间目标(Recovery Time Objective,缩写RTO)、恢复点目标(Recovery Point Objective,缩写RPO)。
3.业务连续性开发模式
完整的业务连续性开发模式,就是业务连续性或灾难备份项目实施的步骤,是一个周而复始的过程,随着企业内部环境的变化随时灵活变化。
4.容灾建设模型
容灾系统的建设,必须以业务为核心,配备相关人员、制定完善的流程、采用合适的技术,以保证容灾系统的成功实施和有效运营。
北京联通容灾策略的研究需要结合公司业务和各关键IT系统的实际情况来进行。
1.灾难风险分析
将各种灾难风险发生概率和风险影响程度组合表示如图3所示。
北京联通的容灾中心主要针对“比较可能”和“可能”发生并将造成“严重影响”或“中度影响”的灾难风险进行防范。
2.业务影响分析
为保障北京联通容灾建设的规划性和整体性,需要对业务等级的区分方法进行统一的约定,并根据业务分析结果定义各业务系统的容灾指标(RPO/RTO)。
业务等级区分方法是:从该业务中断对客户和企业造成的负面影响程度将业务分类为关键业务和非关键业务,其中企业的影响又可区分为对企业的直接影响和对企业的间接影响。
对客户的影响是指如果此项业务无法开展,对客户感知造成的影响,包括客户服务质量、客户满意度、客户忠诚度的下降。
对企业的直接影响是指如果此项业务无法开展,造成的财务影响,包括对收入造成的损失、为解决问题增加的成本等方面的影响。
对企业的间接影响是指如果此项业务无法开展,造成的非财务影响,包括对企业信誉、市场竞争力、业务开展、连带的客户诉讼等方面的影响。
各种影响均以5个级别来衡量:严重影响(1级)、较严重影响(2级)、一般影响(3级)、较小影响(4级)、可以忽略(5级)。
通过以上分级方法,对北京联通现有的关键IT系统进行分级,将他们分为关键业务系统和非关键业务系统。其中:
关键业务是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知造成严重或较严重影响的业务及其所依赖的业务。
非关键业务是指由于该业务中断,将会对企业运营(包括直接和间接的影响)和客户感知产生一般或较小影响或基本没有影响的业务。
3.容灾环境分析
针对业务影响分析的结果,北京联通对目前的内部环境进行评估,得出与恢复目标之间的差距。通过本阶段的工作,得出各业务流程所牵涉的企业资产及资源(IT架构、网络环境等),并分析得出目前的业务环境对容灾需求、冗余程度、可能造成的数据损失是否能够支持等方面的报告。
根据业内的经验和北京联通的实际需求,按照上述应用系统的业务持续性要求和数据重要性划分结果,制定相应的灾难恢复目标。
4.容灾策略
(1)总体策略
北京联通IT系统建立风险预防机制和灾难恢复措施,在确保数据安全的基础上提高业务连续运行能力,降低企业运营风险,将业务损失降低到可接受的程度,提升服务质量和服务水平,增强企业竞争力。
结合以上各阶段的分析成果,以及企业本身在容灾上的投入能力,制定企业短期、长期范围内的容灾策略和目标,并将企业的人员组成和组织架构做出调整以适应策略要求。最重要的是制定出容灾实施步骤,优先解决最为重点的问题。
容灾模式的选择需结合风险分析结果和业务分析结果,从容灾层次、容灾范围、运营方式、容灾规模等多角度进行综合分析,最后得出适用于北京联通实际情况的容灾模式。
(2)容灾范围
通过对业务影响的分析,北京联通将业务划分为关键业务和非关键业务两类。因此容灾范围可分为关键业务容灾或全业务容灾。
(3)容灾层次
在目前国际上较成熟、已实用的容灾方案中,按容灾级别可划分为数据级容灾、应用级容灾和业务级容灾3种方式。
数据级容灾。数据级容灾方式是指建立一个异地的数据系统,是异地容灾的最低级形式。该系统是本地关键应用数据的一个实时复制。在生产中心数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。
应用级容灾。应用级容灾方式不改变原有的业务处理逻辑,基本上是原有系统的一个复制。当生产中心发生致命错误时,容灾中心的应用系统开始启动,在一定的时间内接管生产中心的功能。这种方式是目前业界采用较多的一种容灾方式。
业务级容灾。业务级容灾方式为保证业务的连续性将改变不同的业务实现逻辑和实现路径。在系统未发生切换前,生产中心、容灾中心都同时处理全部(或部分)的业务量。这种方式在生产中心发生灾难事故时可以保证主中心的业务处理几乎不中断。但是业务级容灾系统对传输链路要求较高,技术实现难度大,管理维护较为复杂。三种容灾类型的比较详见表1。
(4)运营方式
在容灾建设时,根据生产中心和容灾中心所承担生产任务的程度进行分类,主要分为主备中心和双中心两类运营方式 。
主备中心方式:主备中心方式下生产中心承担全部业务的生产任务,容灾中心主要承担全部业务的容灾功能,在这种方式下容灾中心也可承担辅助生产任务,如:承担软件开发、性能测试、个性化统计或临时的统计分析功能,但要注意不能影响容灾的功能。
双中心方式:在双中心方式下,生产中心和容灾中心均承担生产任务,两中心负荷分担,互为容灾,任务分割可按照系统功能域或地域划分,两中心基本对等。
根据以上分析和决策方法,北京联通容灾模式采取对关键业务实施应用级容灾和部分关键业务数据级容灾的主备中心方式。
北京联通信息系统容灾中心的实现
北京联通自2006年开始信息系统容灾中心的规划和建设。2007年容灾一期工程完成容灾中心规划及机房改造,满足IT系统容灾要求、开发测试环境要求,完成计费帐务系统的应用机级容灾、ERP和网间结算数据级容灾建设。2008年容灾二期工程完成客户关系管理系统、综合定单工单管理系统数据级容灾建设。2009年容灾三期工程完成客关系管理系统和综合定单工单管理系统的应用级容灾建设。同时,建立上述系统的BCP计划,按照该计划执行可以确保业务支撑能力持续有效,实现容灾中心的日常运行,用三年时间配套建设运维体系。
1.建立和实施一套有效的日常管理流程和容灾策略
容灾策略是为保证企业从灾难中生存并恢复正常运行的运作计划,必须制定一整套固化的容灾策略和操作流程,通过这些流程所定义的人员和操作过程来保证预定容灾方案的成功实施。
2.建立和实施一套切实可行、组织严密的定期演练管理方案
容灾系统建设的目的就是为了应付万一发生的灾难情况,因此应定期在生产中心和容灾中心进行测试和演习,以便能时刻保持着对灾难处理的良好准备,这是关键时刻取得灾难处理和业务持续的重要前提。
3.建立和保持一支技术熟练、成员稳定的灾备管理和操作队伍
为了保障在灾难发生时容灾中心可以顺利接管生产中心的工作,北京联通需要建立和保持一支技术熟练、成员稳定的灾备管理和操作队伍,相应的操作规范和流程也要随着生产系统的不断变化而及时更新,以确保相关规范和流程的有效。
投入运行后的容灾系统在生产系统的开发、测试、割接和运行维护中发挥了重要作用,在生产中心电源、存储发生严重故障情况下,成功实现生产中心系统接管,同时,在系统重大改造割接中成功应用容灾系统实现不停业割接,大大提升了业务持续运营支撑能力。
北京联通信息系统容灾中心建设展望
北京联通下一步将继续扩大容灾中心的容灾范围,由关键业务灾备到全业务灾备;逐步实现所有应用系统的虚拟化管理,共享计算资源和存储资源,按需分配;对EDC所有系统实现集中式监控和维护管理,形成集中的运维管理模式;提高EDC资源自动化管理能力,根据信息生命周期管理 (ILM),实现资源自动化协调供应。