备战小概率事件
现在动手,建立你的灾备系统
商学院 2008年7月 石丹
“帐篷银行”、“汽车银行”在汶川大地震后与满城废墟同时映入人们的眼帘。银行系统的快速动作,取决于它们实施了灾难恢复与业务连续性方案,并进行了数据大集中。据介绍,灾后数据恢复程度已经达到了82%。
当然,我们还是应该清醒地认识到,数据恢复程度还只是82%。在受灾网点恢复营业和与总行数据中心相连的过程中还是暴露出了很多问题。“事实上,在灾备建设处于初级阶段的中国来说,走在前面的金融业、银行业也只是将总部、总中心的核心业务的数据进行了备份。”GDS万国数据服务公司首席灾备顾问、中国大陆第一位获得DRI认证的业务连续运作专家汪琪说,“中国企业的灾备建设亟待提升。”
摩根史丹利创造的奇迹
在9·11恐怖事件造成世贸大厦倒塌后,许多人将目光投向了金融界巨头摩根士丹利公司。这家名列财富500强的金融机构,在世贸大厦租有25层。惨剧发生时,有2000多名员工正在楼内办公,公司受到了重创。可是正当大家扼腕痛惜时,该公司宣布,全球营业部第二天可以照常工作。摩根士丹利公司之所以能够在9月12日恢复营业,其主要原因是它不仅像一般公司那样在内部进行数据备份,而且在新泽西州建立了灾备中心,并保留着数据备份,从而保障了公司全球业务的不间断运行,有效降低了灾难对于整个企业发展的影响。而很多没有建立灾难备份系统的企业却没有这样幸运。
美国明尼苏达大学对于灾害所造成的冲击分析显示,各行业最长可忍受的信息系统停机时间分别为:金融业——2天;销售业——3.3天;制造业——4.9 天;保险业——5.6天。平均来看,一般行业可忍受的信息系统停机时间为4.8天。
纵观整个“9·11”事件,蒙受毁灭性打击的1000多家公司中,做了异地灾难备份的,很快就在其他地方恢复了办公;而没有做灾难备份的,有的当时就消失了,有的逐渐倒闭和消亡。据统计,至少有一半以上的没有做灾难备份的公司,在经过这场灾难后完全垮掉了。
美国明尼苏达大学的研究表明,如果在发生灾难后的两个星期内无法恢复公司的业务系统,75%的公司业务将会完全停顿,43%的公司将再也无法开业;而IDC的研究统计数字表明,在1991年到2000年的10年间,美国发生过各种灾难的公司中,有55%的公司当年倒闭,剩下的45%中,因为数据丢失等原因在两年内倒闭的有29%,生存下来的仅占16%;Gartner Group的数据也表明,在经历大型灾难而导致系统停运的公司中,有至少40%再也没有恢复运营,而剩下的公司中,也有1/3在两年内破产。
跟摩根士丹利同样“幸运”的,还有RLI保险公司。尽管该公司在世贸大厦北楼的80层,在倒塌中丧失了办公室和设备,但他们平时通过远程数据中心进行磁带备份,并把磁带保存在位于皮奥里亚的总部,所以该公司客户业务系统能在9月13日下午3点之前就恢复运转。同样,总部设在世贸中心北楼的93层的Fred Alger基金管理公司,也在50英里以外的新泽西中心区建有一个数据备份点,袭击之前所有的交易记录和研究报告都有详细备份,并被完好无损地保留了下来。尽管9·11事件中这个公司有35人遇难(包括公司老板),但是因为灾备中心的建立,使这家曾是美国业绩最好的基金管理公司并未遭受到灭顶之灾,在“9·11”过后第三天就开始重建,Fred Alger立刻接替去世的弟弟David出任总裁。整个市场在9月17日重新开市时,Fred Alger公司成了华尔街经纪公司中的股票大买家。很快,Fred Alger公司的投资管理队伍也空前兴旺起来,并在第五大道的2楼建立了新的总部。
事实上,灾难,如同悬在现代企业头顶的一把达摩克利斯剑,不知什么时候会落下来。那些因灾难而丢失关键数据,并且在几天内不能恢复关键业务的企业将会从市场上消失。对于依赖计算机系统运作的金融、电信、保险、民航、铁路和制造业而言,系统停机的可忍受时间更短。“我们将严重影响企业信息系统运行的突发事件称之为灾难,它可能由于自然灾害、设备故障或人为因素等所造成。灾难备份能力已成为企业灾后重建最重要的基础。因此,对于企业来说,应该拥有一套稳定、安全、可扩充的信息系统架构,以适应电子商务时代业务和科技的快速发展;同时应该对突发性的灾难事先进行有效的预防,制定应急机制和灾难恢复计划,减少信息系统的当机时间,提高企业业务连续运做能力。”汪琪说,“随着国内金融行业数据大集中步伐的加快,如何防范技术风险,确保数据安全和业务连续性,已是当务之急。现代金融业倡导365天的7*24小时服务,因而其业务处理系统是不允许中断的。系统业务处理的终端便意味着业务的停顿、收益的损失和客户的流失。”
拥有灾备系统的企业,或许永远不会遭遇到毁灭性的灾难。但不拥有灾备系统的企业,一旦成为灾难的受害者,或许永远也站不起来。
近年来,数据大集中已经成为我国金融企业信息化建设的趋势。伴随着数据大集中的实现,企业数据中心的技术风险也相对集中。一旦数据中心发生灾难,则将导致企业所有分支机构、营业网点和全部的业务处理停顿,或造成客户重要数据的丢失,其后果不堪设想。如何防范技术风险,确保数据安全和业务的连续性,已是金融行业急需面对的课题。这也正是灾难备份行业发展的好时机。
“如今,我们更多的是说BCM(业务连续性管理)。”汪琪介绍,“对于企业来说,灾难恢复仅仅能够保证灾难发生之后数据系统的相对完整性,也就是‘一旦灾难发生,数据丢失量有多少’的问题。而BCM解决的却是灾难发生之后企业的业务恢复能力,也就是‘一旦灾难发生,企业能够在多长时间内恢复多少业务’的问题。相对于灾难恢复,BCM更像一个‘IT+业务+管理’的混合体。由于金融企业在资产规模、业务性质、客户数量、业务处理能力、管理理念、企业文化等方面存在差异,因此相对灾难恢复而言,BCM的个性化更加鲜明,也更难套用和复制其他企业的成功经验和模式。业务连续性计划才是企业真正获得永续经营的法宝。它能够帮助企业继续获得核心组织功能,保护国家利益和主要职能,同时保护市场份额和收入,减少破坏时间和损失,保护股东、客户、员工的利益和信心,保护品牌和信誉,使得企业在灾难中获得重生。”
其实,建立灾备系统更重要的意义不仅仅是在灾难发生的时候帮企业把损失降低到最小。更是在建设的过程中发现企业的问题、发现哪些灾难、危机是企业的致命伤。帮助企业去评估它面向风险时候的相应的控制手段和措施,找出遗留的风险。防患于未然。更可以将你企业面临的风险进行优先排序,在进行灾备建设时候节省成本,将有限预算花在刀刃上。
于是,我们的第一个八项注意就应运而生了:切勿忽视小概率事件。
灾备系统的成本思考?
数据表明,西方发达国家的一般公司其IT总预算的7%~15%是用于灾难恢复的,这意味着这些公司每个月要支付5万~10万美元的费用,而大型公司这一数字可能达到100万美元/月。这种巨大的投入,的确让很多公司望而却步。“目前,这种做灾备建设的投入分六个不同的层级,投入也从几万元到上百万元不等。关键还是要看你公司的需求是什么。究竟什么数据才需要备份?一定是那些一旦丢失、损失就会影响公司运营的数据。”汪琪介绍,“这就需要一个专业的团队来帮你评估。”
很明显,高投入、小概率是所有防护灾难措施的本质特征,在信息技术应用中的灾难备份也是如此,只有在灾难来临时方显英雄本色。某国际战略研究公司的研究数据表明,国际重要的信息系统停机的损失都是巨大但又是不近相同的:证券业每小时将损失650万美元,信用卡业每小时将损失260万美元,而点播业、电子购物业、航空订票业、包裹运输业每小时也将分别损失15美元、11美元、8.9美元、2.8美元。从灾难备份本身来看,这种高投入应对小概率事件对于决策者来说是决心难下、维持不易。灾难是小概率、高风险,而容灾是高投入、低效率,对于系统来说更是建设不易、维持更难。同时,企业内的决策系统缺乏责任认定。这些都导致推行灾难恢复计划困难重重。汪琪介绍,在信息技术较发达的欧美国家,均对银行在保证数据完整性及业务连续性上的责任做出了明确规定;如在美国,金融管理局(OCC)每隔18个月就对金融机构的灾难备份情况进行审查;在我国香港、新加坡,金融管理局也对灾难备份做出了要求,所有银行必须向金融管理局证明自己的灾难备份计划可以满足要求。这些制度的强制要求,使企业不得不在建立灾备系统上下功夫。但国内情况的确是参差不齐。
那么,我们究竟应该怎么做灾备项目中的成本效益分析?汪琪说:“灾难恢复的产出不在灾难的时候是看不到的。所以我们在做成本效益分析的时候,首先要分析这个企业如果是遭受了灾难,它停顿多长时间内所受的损失有多少。这个损失来自两方面,一个财务损失,一个是非财务损失,包括按形象的损失、法律诉讼、因为没有办法提供服务导致的罚款等涉及到危机管理方面的成本。”
其实,实施灾难备份的过程是一个渐进的过程,因为其高投入的特点,渐进式的发展可能是一条不错的道路。×××就选择了“三个步”的发展战略,从简单的数据备份到主机备份,再到最后完成容灾备份。“从节约成本方面看,选择外包服务会比自建方式更节省。”汪琪介绍。
Where?
如果在计算过成本效益、决定投入灾备建设后,第一件事情就是灾备中心选址问题。“这其实是一件非常细致的工作,并不是有钱就能做好的。有时候,选址就能耗费半年到一年的时间。”汪琪说,“怎么选址,就看你要防的是什么灾害。”同样,由于刚刚起步,国内在灾备中心选址上也存在着一些硬伤。GDS在实际服务中发现:单从基础设施方面来看,很多灾备中心的选址并不科学,令人担忧:一家公司将其灾备中心的地址选在了一座紧邻马路的四层建筑里,经过实地考察,GDS发现,路基平面高于建筑物一楼地面约三米,“一旦市政管网爆裂将可能会面临水灾的风险。”除此之外,建筑的设计在平面规划、设备运输上不能满足要求,而缺少消防系统、供电能力不足、避雷和接地系统不符合要求等问题也一一被指出。“在我们接触的案例中,这样的问题不是少数。”GDS相关工作人员表示,一家银行将自己的灾难备份中心建在了太湖边上,建筑平面低于水位线,“这样的设计,不亚于在刀尖上跳舞。”
那么,在注意了上面的细节之后,企业究竟应该选择同城灾备还是异地灾备?“一般来说,企业需要结合自己的容灾目标和实际情况来考虑。如果系统性能是最优先的考虑对象,能够接受备份中心数据更新的较小延迟,就可以考虑采用异步数据复制方式。如果避免数据丢失是最优先的考虑,生产主机的工作负载能够承受同步拷贝带来的性能损失,运行中心和备份中心的距离不超过100公里,那就可以考虑采用同步数据复制方式。当然,对于数据宝贵、安全性要求高、依赖信息技术强和有保证高度业务持续性要求的大型企业,应该考虑两种方式的相互结合,这样才能确保关键数据的万无一失。”汪琪说。
澳大利亚大通-曼哈顿银行的灾备方案就是一个较为典型的例子。澳大利亚大通-曼哈顿银行的全球灾备系统有五个灾难备份中心,包括三个全球同城灾备中心,两个全球异地灾备中心。位于澳大利亚的同城灾备中心距离生产中心约30公里,两个中心使用两条高速的ATM通讯链路连接。银行所有的重要数据均在同城灾备中心的服务器上作镜像。同时,大通-曼哈顿银行在英国的全球备份中心对数据进行异地备份。为了减少开支,灾备中心作为银行内部在网络上的逻辑节点,不但提供了完整的灾难恢复服务,而且还提供某一服务器的热备份服务,新应用上生产前的测试服务等。
Who
?
一旦建设好了灾备系统,谁来为这个系统负责,并且维护它的正常运行呢?CEO,CIO或是现在常常被提及的首席风险官?“从风险管控、应急响应等都应该是董事会、一把手来负责。但是具体涉及到业务连续、IT灾备建设等就是企业CIO或者首席风险官的事情了。看公司日常的管理,怎么顺怎么操作。但无论怎样分工,一定是董事会、一把手负最终责任。那么,企业需要什么样的人来担任首席风险官或者CIO呢?首席风险官应该是在风险管理、控制方面非常有经验的人。而CIO则应该是对IT系统评估、备份、灾备建设应用非常了解。同时,也可以在公司内部设立内部协调管理人,具备业务连续管理职能,协助各个部门做计划预案。”
事实上,在9·11事件之后,许多的美国企业以及猎头公司都在积极寻找那些不仅要懂得如何保护人身和公司财产的安全,而且还要懂得维护公司的电脑数据和信息的安全的人。
这个新职位与企业内核心部门的经理人地位同等重要。能够担任该职位的最理想的人才,不仅要懂得如何保护人身和公司财产的安全,而且还要懂得维护公司的电脑数据和信息的安全。除了雇佣猎头公司之外,许多企业还自己花时间来找寻所需的高级安全管理人。据一家研究机构Christian&Timbers对390家大公司所做的调查结果发现,95%的企业表示,其需要雇佣一名安全总监,但只有8%的企业表示,其已开始招聘这类雇员。
另一家调查公司Giga信息集团(Giga Information Group)所做的一项调查发现,大型集团正不断提升公司的安全预算,将一些高级安全管理人员的薪金提高至6位数字——安全总监的年薪目前超过40万美元,更有甚者,还将该职位的年薪提高到将近7位数字。一家名为Boyden全球经理人研究机构(Boyden Global Executive Search)的猎头公司的副总裁Lance Wright表示,实际上符合上述要求的人选相当少。
另外,汪琪认为,要想全面提高企业灾难恢复的等级,CIO们不仅需要考虑使用新的备份和恢复技术,更要探索怎样的灾难恢复计划才能从整个企业业务构架的角度来保证业务的连续性。
在更复杂的业务环境和更高级别的灾备要求下,企业CIO们需要重新考虑究竟什么灾难恢复计划才能从整体上提高企业自身的业务能力。
这其中就涉及了一个非常重要的问题,该如何更合理地分配IT资源,让闲置的设备能够为备份工作做用,或者说是利用这些多余的设备建立镜像站点,又或者是将未被充分利用的资源座位灾难恢复中的一部分。也就是说,用户应该在实现更高级别灾难恢复机制的同时,最大限度地节约成本、降低开支。
这些都是企业应该积极思考的问题。
How
?
汪琪介绍,一个灾备预案、系统,没有经过演练是不可用的。只有在演练的过程中才能发现问题。“整个体系是通过演练来检验的。”汪琪说,“演练其实是一件非常复杂的事情,通常,一个成功的演练需要2-3个月的时间才能完成。我们做切换的时候,我们一般会遵循几个原则,第一我们不希望演练影响到正常的生产。这是一个通用的原则,全世界都这么做。我们怎么能够去做这个演练呢,我们会把整个的环境做一份克隆,我们选择某一个时间点,在这个时间点的所有数据环境我们给它做一个克隆,然后拿这个时间点的克隆,在我们建立好的环境下做演练,那么这样就最大程度的模拟了生产环节的进行。当然在这个之外还有很多,很细节的东西。比如说我们曾经在夜里面两三点的时候,把一个银行的整个网络断下来,切换到灾备中心,测试一下网络的连通性,类似这样的演练有很多种。通过多种演练的组合,能够最大限度的体现我们灾难发生时候的一个场景。”
汪琪介绍,灾备对企业来讲,并非是可有可无的事情。企业要长治久安,持续发展就必须要有灾备意识。中国一般都是高端客户才会考虑做灾备,而在国外,高中低端客户都会建设自己的灾备系统,比如律师就有责任保护客户的资料,他就会到灾备企业做好自己的灾难备份。因此,未来国内的灾备趋势应该是从高端企业慢慢开始向中小企业扩展,从外资企业慢慢向国有企业扩展,从金融企业慢慢向其他企业扩展。
职场 休闲
容灾备份基础知识
0
收藏
上一篇:应急演练,让灾备不再“纸上谈兵”... 下一篇:数据安全保护与备份将是CIO面临...