浙江移动完成国内最大规模的Oracle数据库升级

原文链接:http://www.searchdatabase.com.cn/showcontent_75689.htm

转帖链接:http://www.wumii.com/item/xgXSrHGz

本事件引发的ITPUB讨论帖(可以看见很多大师回帖):http://www.itpub.net/thread-1809842-1-1.html

【TechTarget中国原创】编者按:近日,浙江移动进行了核心系统数据库的升级工作,这一项目是迄今国内规模最大的单次核心系统升级。项目成功完成之后,TechTarget中国特约记者在现场采访了移动公司的主要项目负责领导,为大家揭秘这次规模庞大的系统升级工作。

2013 年8月7日,中国移动通信集团浙江有限公司的一份业务通告宣告了一次重大的技术工程即将开始,通告称"为了向您提供更好的服务,我公司将于 8月10日下午17:30至8月11日早上8:00对系统进行升级"。这次升级影响的范围极广,升级期间将"停止全省全部业务的受理、提醒、话费充值和查 询"。

浙江移动数据库升级业务通告

通告虽简单,但背后却有一个108人组成的团队进行维护支持,浙江移动业务支撑中心升级项目总指挥王晓征将其戏称为"108将"。经甲骨文公司确认,这是目前国内最大规模的单次数据库升级操作,并很有可能也是全球规模最大的一次。这次众多厂商、专家云集的三墩升级项目, 可能在多年之后仍然会被大家津津乐道。

为何选择这个时机进行升级?

据了解,本次浙江移动的数据库升级项目是从Oracle 10g升级到Oracle 11g版本。对此王晓征表示,浙江移动的Oracle 10g版本已经使用了近5年的时间。近期甲骨文公司也已经结束了对该版本的扩展支持,这也就意味着甲骨文将不再为该版本提供补丁修正,这一版本的历史使命已经结束。

而在2007年发布的Oracle 11g版本经过多年的用户验证,已经足够成熟稳定,并且其中的很多新特性能够为浙江移动带来新的技术增值,如Active DataGuard技术能够在容灾备库上同时支持活动查询,这不仅可以让备用库承担报表查询等业务负载,也可以充分利用原本空闲的备库资源,既改善业务使用,又可以提升资源利用。技术更新与价值创造,是浙江移动选择升级的源动力。

超级团队+多方协作 数据库升级顺利完成

本次升级的项目经理郭岳(@正牌三少)为我们介绍了支持团队的构成:"升级工作到场共有108人,其中现场DBA 20人左右,因为同时进行了一次新业务上线,所以还有几十人的开发测试、几十人的应用维护团队,此外还有网络、存储、主机等等的保障人员。 "

如何协调这一庞大的支持团队进行短时间的高效协作,对于项目管理来说也是一个挑战,DBA出身的郭岳作为项目经理以精确到分钟的项目规划出色的完成了他的职责。

据 了解,浙江移动在如此大规模的数据库升级操作中,还要同时进行了新业务的上线升级。对此王晓征表示,浙江移动技术部已经对灰度发布和平滑升级做了多年的尝 试和实践,取得了显著的成果和积累了丰富的经验。很多企业视数据库升级为洪水猛兽,这往往是因为他们对技术的认知和把握不足,吃过升级之后性能和故障的苦 头,而浙江移动已经对应用的各层面进行了详细的分层和组件化,厘定了技术层次、控制了影响范畴。在清晰把握了各个组件层面的界限和影响之后,我们能够从容 的进行升级和维护工作,包括数据库和应用,这些层面的升级和发布没有任何不同,不应该有任何一个组件或环节成为推动业务演进的障碍和瓶颈。

本次升级操作的部分支持专家


根据TechTarget中国对DBA的一项调查显 示,最令DBA头痛的一项工作就是数据库升级。而面对超大规模的数据库升级时,充分的前期准备是必不可少的。王晓征对记者说:"在战略层面上,我们弱化了 数据库升级的重要性,但是在战术上我们非常重视本次升级工作。唯有充分准备,才能举重若轻,大家可以看到我们最终执行升级的夜晚,只需按照之前测试的步骤 按部就班的执行即可。"

王晓征透露:"为了充分进行升级准备和测试,以及升级之后的重 点保障阶段,我们准备了充足的后备资源,除了原厂资源外,我们还邀请到云和恩墨的专家团队到达现场保驾护航,形成了以原厂商和第三方专家相结合的技术支 撑。有了这些准备之后,这次的升级工作就基本排除了出现意外的可能性。"

据郭岳介绍,本次Oracle数据库的升级过程仅耗时3个半小时,剩下的就是应用的发布与测试。

规模创纪录:7套RAC数据库同时升级

此次浙江移动的数据库升级工作是迄今为止规模最大的一次。对此郭岳介绍说,本次项目对7套RAC架构的数据库同 时进行了升级,这些数据库承载了浙江移动5000多万最终用户的核心CRM系统。其数据量规模、业务规模以及数据库同时升级规模经确认已经是目前国内最大 的。很多企业升级时都是通过渐进的方式来完成的,而浙江移动经过充分准备后,完成了一次性应对大规模的集中升级工作,事实也证明这次决策是正确的。

数据库升级成功经验分享

在对本次集中数据库升级项目的评估中,总指挥王晓征用到了"完美"这一词:整个数据库升级过程中没有出现任何异常,完全按照既定的步骤进行操作。升级完成之后,经过8月11日和12日两天业务运行的考验,整体业务运行非常平稳。可以说浙江移动此次数据库升级实现了"无缝、透明",在对前端无影响的前提下,精确完成后端数据库的大版本升级,接下来就是好好应用Oracle 11g的过程了。

在 本次数据库升级工作中,除Oracle原厂之外,浙江移动还引入了第三方数据库服务商。王晓征表示,在企业服务中,原厂商和第三方服务商有着各自不同的定 位和使命,对于甲方,只要能够定义清楚各家的职责和优势所在,就能够为自身找到更好的保障模式。浙江移动除了在技术管理上持续创新,也不断在服务模式上进 行创新,目前国内优秀的服务商已经具备了高级服务的提供能力,这些企业的技术专家能够更好地服务国内企业,在国家大力提倡软件国产化、服务国内化的形势 下,引入新的竞争关系对于企业是一件好事。

数据库升级成功后团队合影


在总结本次规模庞大的数据库升级经验时,王晓征给出了八个字:"知己知彼,有备无患"。知己知彼的意思是说,作为甲方要清楚的了解自己的优势与劣势,也要清 楚的了解不同供应商的能力与积累,明确各自的职责与界限,这样互相配合才能精诚合作,一战功成;有备无患是说,即便做好了充足的准备,在关键时刻,也要尽 量调集各种资源备用,这样在出现异常突发事件时,也才能做到快速响应,影响最小化。

王晓征表示:"就如同这次升级操作,我们调集了云和恩墨最强的技术团队,但是我希望不会用到他们出手。事实也确实如此,但是做好充分准备永远不会错。"

你可能感兴趣的:(Oracle,News)