在业内人士看内,银行业上马灾难备份系统是理所应当且轻而易举的事情。且不说国家有《重要信息系统灾难恢复指南》,银监会和中国人民银行也分别发布了《商业银行数据中心监管指引》和《银行业信息系统灾难恢复管理规范》这种重要指引文件。惯常大家的认识里,都认为银行业财大气粗,IT系统建设都是最新最好的,但近期WatchStor记者采访鞍山商业银行科技保障部总经理高旭之后,却得出来与普遍认识不一样的看法。
鞍山商业银行科技保障部总经理高旭
鞍山商业银行数据中心位于鞍山市的铁东区,负责着鞍山市区及下属三个县市100多个网点系统的管理和维护。在外人看来,这样一个地区性商业银行的规模可能并不是很大。不过,对于鞍山商行来说,从2004年开始,其业务的增长速度已经达到了一个非常高的水平。如今,银行核心业务系统日均处理10万笔,日均处理业务已经达到了2000亿元。发展到此时,业务需求的压力以及银监会法规的需求,以及长久的考量,都促使高旭需要开始建设属于本行的远程灾备系统。
鞍山商业银行的两地三中心规划
但在高旭看来城市商业银行不如国有四大行,会先有总行进行实践检验,然后把经验贯穿到全国各个网点的整套系统里。类似鞍山商业银行这样的地区性商业银行,在规模上并不像四大行那样拥有遍布全国的网点,大多是某一城市或者某一省份,所以,银监会要求的远程灾备系统,对于他们来说,显然有些困难。高旭表示,身为会计、财务这种银行一线工作出身的他,在接手科技部门的工作后,就认识到科技工作并不如想象的那样好做。虽然,前任科技部门领导以及银行领导都认识到远程灾备系统的重要性,但对于之前只拥有双机热备的鞍山商行来说,如何从头开始,确实是压在高旭心头的一副重担。在接受WatchStor记者采访时,他也多次表示,在初期经常为此夜不能寐。
也正是因为财务工作养成的严谨、细致,在规划远程灾备系统时,高旭并没有很快实施,而是经历了长达两年的准备和积累过程。在他看来,这是两个方面的积累,技术积累和信息积累。一开始,先买了十本《重要信息系统灾难恢复指南》让科技部门的同事学习,内部考量究竟需要达到那个级别(当时银监会还没有颁布《商业银行数据中心监管指引》规范)。最后决定要满足国家灾备五级标准,也就是要求“完全数据备份至少每天一次;备份介质场外存放;采用远程数据复制技术,并利用通信网络将关键数据实时复制到备份场地。”在高旭看来,这真是属于摸着石头过河。
鞍山商业银行在规划之处以及建成的现在,都完全满足《重要信息系统灾难恢复指南》五级的目标
但第一次的规划,并没有得到银行领导的完全认可。在随后的信息储备过程中,高旭带领的团队遇到了金融电子化公司,作为第三方系统集成商,金电公司给予了高旭在市场技术、产品选型上很多公正、客观的帮助,让他和他的团队,快速掌握了市场上存在的各类灾备技术及相应产品,并反复考察了其中众多厂商。
经过近两年时间的技术和信息储备,高旭已经奠定了“远程灾备保生存、同城灾备保发展”的系统规划思路。于是,从2009年开始正式开始做灾备系统规划。也因为长时间的积累,不同于之前以为只要备份数据就万事大吉的想法,高旭认定考虑灾备必须高瞻远瞩,要考虑未来发展,系统必须完善完备,上了灾备系统就必须能去能回。所谓的能去能回,就是备份之后的数据必须准确无误的恢复,恢复之后也一定要能满足网点应用需求。
鞍山商业银行灾难备份体系建设总体策略
除此之外,成本也是高旭考虑的重要因素之一。鞍山商行2009年一年利润在7亿多人民币,而税后也高达5亿,在高旭看来,银行并不缺钱,但不缺钱不代表可以乱花钱,性价比始终被他挂在嘴边。也因为自己的谨慎,高旭始终把握着“不想清楚不会出手”的理念,就是经过这样长久的考虑和观察,最终选择了飞康CDP产品,作为其远程灾备系统的核心。
规划近两年的远程灾备系统建设成功之后,高旭满怀信心的和金电公司一起组织了“2010城市商业银行灾备实战演练报告会”,据介绍,这也是国内仅有的敢于在线进行灾备实战演练的一次。本次灾备演练也吸引辽宁本地以及诸如河南、山东等众多其他城市的兄弟银行到场关注。对于此,高旭并没有任何担心,在他看来,细节决定成败,在这次演练之前,他所带领的团队已经和金电公司已经设计了多套演练场景,并有充足的风险应对措施。
本次实战演练领导小组组长:鞍山商业银行董事长方允明、鞍山商业银行行长黄伟、鞍山商业银行副行长陈瑞祥
本次实战演练包括四个环节:
1、日常灾备数据验证
2、模拟生产数据库瘫痪,进行现场恢复
3、模拟生产中心火灾-异地切换接管过程
4、系统从灾备中心回切到生产系统
此次实战演练的灾难恢复应急预案
灾备系统的是否能回退,也是高旭在最初规划灾备系统时考虑的重点,当进行恢复时,如何确保灾备中心的数据恢复到生产中心时,不会出现错误,保证应用的连续性。飞康本地有个CDP的保护,备份关系做互换,先是同步生产中心的CDP存储上,生产中心可先启用CDP本地的数据盘,等确认灾备中心回退到生产中心的数据没有差异后,就可以把数据重新划归到生产中心的主机上。业务系统的变动是有风险的,如果核心上线时出现故障(例如运行异常、系统异常、存储异常等),可以立即回退到原有核心系统,或者利用飞康的快照技术(在CDP设备只需要拖动鼠标)回退到上线之前的最后一个时间点。
灾备实战演练的风险分析和应对措施
毫无疑问,这次灾备实战演练圆满成功。但对高旭来说,这仅仅是万里长征的第一步,下一步的两地三中心、同城灾备这些规划,早已思考多时,只待时机成熟加以实现。