是我国电信行业通用的核心IT系统,由电信部门的计费系统发展而来。作为一个综合的业务运营和管理平台,BOSS的基本功能包括了网络管理、系统管理、计费、营业、账务和客户服务等。
1999年,中国移动山东公司(以下简称山东移动)刚刚成立。十年后的今天,山东移动的客户已经高达5000万,平均每天发送近亿条短信,有千万客户通过手机看报和收发邮件,全省有20多万家企业应用山东移动提供的话音、数据业务、互联网接入等一体化信息化解决方案快速运转。
在山东移动业务高速发展的背后,BOSS系统起了极大的支撑作用。山东移动的领导将BOSS形象地比作“三无产品”,认为该系统的地位“无与伦比”、“无可替代”,重要性“无以复加”。
2002年开始,由于移动总公司的要求,山东移动开始对BOSS系统进行集中化管理,将各个地市的一些业务集中到省。集中化管理的好处在于大大提高了系统的可维护性、可管理性、可扩充性,但同时也带来了一定的风险,好比把鸡蛋放在一个篮子里。而且,随着近几年业务的爆炸式增长,集中的BOSS系统所支撑的客户规模剧增,如何提高系统运行的高可靠性以及抵抗灾难、提高业务连续运行的能力就成为山东移动面临的一个挑战。为此,山东移动开始实施BOSS的灾难备份系统建设。
从主备级灾备系统到三中心容灾
据中国移动山东公司帐务中心副主任崔可升介绍,山东移动BOSS灾难备份项目的建设过程中,有三个大的里程碑。其一,是2005年开始建立主备级的容灾系统;其二,是2007年建立双中心的容灾系统;最后,就是在今年建立了基于三个物理中心的容灾信息系统。
其实,在对BOSS系统进行集中化管理之初,山东移动的领导层已经有了建设容灾系统的意识,但这个系统应该如何建设,当时还没有太多的经验。2004年左右,他们建立了一些简单的应急系统。比如,在其他的存储上建立一个空间,也就是做一个BCV(业务连续性卷),对数据进行复制,万一发生什么问题,可以利用这些数据来恢复一部分业务。
这种相对简单的应急系统显然无法满足山东移动的业务发展需求。2005年,山东移动开始建设主备级容灾系统,在新上一个中心的时候,把所有的业务迁到新的中心里面去,然后再对原有的、老的系统做一个改造,做成一个主备级的容灾系统。“2005年主备级容灾系统的建立,对于业务连续性的保障,还有一些对于我们人员的锻炼起到了很重要的作用。” 崔可升表示。
不过,主备级容灾系统也存在一些问题,最大的一个问题就是:只有一个容灾系统,万一发生意外,到底能不能完成灾难备份与恢复?此外,遇到业务高峰期的时候,生产中心可能面临资源不足的局面,而灾备中心一般还有冗余,资源分配不均衡,也带来了矛盾。
为了解决这些问题,2007年,山东移动在原来主备级容灾的基础上,实现了双中心容灾方式,解决了备用中心容灾达不到充分发挥的问题。“当然,双中心的容灾方式会增加管理的复杂度,在技术实现方面也提出了很多很高的要求。”崔可升补充说。
从2008年开始,由于BOSS系统的用户量越来越多,山东移动原有的两个数据中心,每个承载的业务都非常大。出于降低风险的需要,山东移动开始考虑建立第三个物理中心。
崔可升介绍:“三中心备份并不是简单地建立三个物理中心,它对系统的架构要求非常高,如果没有做一些业务的拆分的话,三中心是不可能实现的。”
现在,山东移动在三中心容灾系统的基础上,实现了业务的转型。三中心中,一个中心承担了山东移动全省1/2的业务量,另外两个中心各承担1/4的业务量。同时,三个中心之间还互相承担了备份的任务。这样,三个中心中任何一个出问题时,其他两个中心都能把业务承接过来,从而使服务质量与客户满意度实现了大大提升。
保证业务连续性是容灾系统建设的核心
崔可升认为,容灾系统建设的核心就是保证业务连续性,他表示:“怎样保证系统长时间运转而不出问题,这是很重要的一点。”
为此,他们充分借鉴了别人的经验,从2005年开始建立主备级容灾系统时,他们就与IBM合作,接受了后者为其提供的容灾系统建设的咨询与规划等方面的支持。崔可升表示:“IBM的介入帮我们规避了很多前人在灾备建设中的错误,比如,很多企业都认为只要建立了灾难备份系统,就能保证系统持续可用。但灾难并不经常发生,而一旦灾难来临时,容灾系统是否真能发挥作用?这就需要平时对容灾系统进行演练。”
不过,容灾系统应该如何演练,山东移动之前也没有太多的经验,与IBM的合作此时就充分发挥了作用。在IBM的帮助下,山东移动每年都要进行容灾系统的演练,保证流程上是畅通的。演练的过程实际上也是发现风险的过程,通过演练,山东移动能够在灾难到来前发现问题,达到了降低风险的效果,收获很大。
此外,山东移动还在IBM的帮助下实现了企业内各部门间的协调一致,完成了IT部门无法单独完成的工作,搭建了灾难恢复计划的组织架构,其中包括风险控制决策委员会等。山东移动还与IBM合作,对业务进行了分析与规划,双方共同来分析确定业务的优先级别,比如哪些业务是重要的,哪些业务是次重要的,哪些业务是不太重要的。级别不一样,投入也不一样。一般而言,面向客户服务的业务(比如客户在营业前台办理的业务)是最重要的业务,在业务连续性方面,要保证尽可能的少出问题,如果实在不行,出现问题时就要求尽可能地缩短故障影响时间,从而确保用户的满意度。
崔可升还强调,数据备份是容灾系统的最后一道防线。山东移动三个中心互为备份,使得数据的稳定性、可控性很高。在此基础上,山东移动还采取了其他措施,比如为了防止备份介质坏掉的情况,他们采用了一个科学的手段,用“2+1”的方式,即保留两套完整的全备份,再加上最近的备份。如果一个全备份坏了,可以用上一个全备份带子来恢复,这就是使得盲点越来越少,风险也越来越少。
未来可能建立异地灾备中心
在容灾系统的建设过程中,山东移动采用了大量先进技术,比如主机购买的几乎都是高端的IBM Power 595,使得安全性大大提高。此外,他们把虚拟化技术也发挥的淋漓尽致,对购买的大型设备进行动态调整,就像切蛋糕一样分成一小块一小块,当某一业务需求大时,可以动态地为其调配资源。“没有虚拟化等先进技术,可能我们的很多想法都实现不了,比如说,生产中心的资源和容灾中心的资源可能就无法共享。”崔可升说。
这些技术的采用也让山东移动尝到了甜头,崔可升向记者透露了一个数字,山东移动每发展一个新用户,业务支撑系统需要投资11块钱左右,而这一数据在其它省份基本上都在20-30块钱左右,IT系统建设为山东移动带来的成本节省由此可见一斑。
随着业务量的发展,山东移动的用户数也越来越多,崔可升透露,未来,他们有可能还要考虑建立第四个中心。这个中心将作为一个异地远程的数据级的终端,仅作为灾备中心来使用,不承担其他业务,真正出现问题的时候,就用这个中心来做数据恢复业务。
其实,这个想法,他们之前就考虑过,但出于安全、投资收益、生产等方面的综合考虑,暂未实施。这也是为何山东移动在建第三个物理中心时,没有采用“两地三中心”方式的原因。
“我们目前建有三个同城的容灾中心,将来准备考虑采用IBM的远程复制技术构建第四个异地的灾备中心。”崔可升告诉记者。