随着网络和信息技术的进步,企业在运营过程中对ERP系统的核心数据越来越依赖。所谓“三分技术、七分管理、十二分数据”充分说明了数据在信息化系统中的地位和作用。然而,各种各样的灾难就像灰尘一样潜伏在企业周围,一时的疏忽就可能造成企业核心数据永久的丢失。美国911事件,让数据灾备系统同时分置在双子星大楼的企业,数据顿时毁于一旦;中国台湾汐止东帝士大楼大火,让受灾企业的资料全数付之一炬,信息系统只能重头再来;横扫美国田纳西州的强烈飓风,也让许多企业的资料“随风而逝”。

如果不能对风险采取有效治理,一旦数据由于上述某种原因失,就有可能造成整个企业在运营上的重大不便和经济损失,企业的信誉也将受到影响。因此,对于各级企业来说,结合自身规模和业务特性,选择合适的数据容灾解决方案,是确保业务连续性的必备手段之一。

本文以某国有大型企业为例,谈谈大型机数据级异地灾备应用情况,与同行交流学习。

某国有大型企业是一个大型联合企业,2000年前后对IBM大型机经过了几次较大的升级改造,投资约5000万元人民币;2001~2005年,分两期总投资约4亿人民币建成了具有整体性、及时性、实物流程和资金流程同步的整体产销资讯系统工程,全面实现了企业信息化管理,用一个形象的比喻就是产销由原来的“吃自助餐”变成了“点菜下锅”,以最大限度的适应不断变化发展的市场需求,压缩库存、加强资金的周转与使用效率,以之达到企业最大效益化。

一、数据异地灾备系统架构

该企业升级改造后的大型机型为IBM Z9主机,备用主机为Z890,操作系统为z/os 1.9;主机存储系统为ESS800 (与F20互为备份),本次升级为DS8000磁盘阵列;拥有以IBM主机为主要生产中心平台,同时也有小型机等一系列开放平台。前方机房设在厂区生产计算机中心,后方机房在市区新建的办公大楼,两地相距约40公里。后方机房由耐高温的材料做填充物的优质钢板制成,具备世界一流的抵御防护火灾的性能和抵抗有害气体和渗水的能力。

DS8000存储系统具有智能的数据复制功能,通过FlashCopy(本地数据复制技术)、Metro Mirror(远程数据同步复制技术)和Global Mirror(远程数据异步复制技术),在两套或多套DS8000磁盘存储设备间建立数据复制关系,从而实现高可用性。

Metro Mirror(远程数据同步复制技术)是基于企业存储服务器,通过光纤通道,以物理卷为基本单位,将本地存储上的数据同步镜像到远端存储,实时的、无数据丢失且具有完全恢复功能的灾难解决方案,可用于相隔距离最多可达103公里的两个ESS或DS8000系统中指定的逻辑卷。在这种架构下,对源数据磁盘的任何更新都被同步镜像到目标磁盘。源数据磁盘和目标磁盘通过Metro Mirror Path数据通道连接。Global Mirror(远程数据异步复制技术)可用于超长距离的数据传输,缺点是数据有可能丢失,数据一致性无法得到保证,图示如下:

 

由此可见,在同步方式下,磁盘镜像功能只有在本地和远程磁盘都完成写操作后才会向主机发回“IO完成”消息,确保了源卷和目的卷的数据彻底一致。为了达到对数据同步及一致性的高可靠要求,数据远程灾备采用了Metro Mirror(同步)操作模式,其系统构架如下:

 

后方灾备机房中安装备份磁盘ESS800,建立现有前方生产中心磁盘DS8000的远程Metro Mirror模式实时镜像,实现磁盘级的远程备份。
1.在灾难发生的情况下(仅损坏DS8000),DS8000已经不能使用了。运行中的Metro Mirror模式会自动挂起。

1)恢复备份磁盘卷状态(从磁盘控制机执行脚本)

2)使用事先准备的IODF从备份磁盘重启生产系统

3)启动数据库和应用程序;

2.回切到生产的DS8000(当生产DS8000重新起用或是维护工作完成,需将回切到生产DS8100)

1)建立备份ESS800到生产DS8000的Metro Miror模式的Path

2)建立ESS800N生产DS8000的反向Metro Mirror模式拷贝

3)等待所有卷达到同步

4)在备份主机上停止所有的应用和数据库

5)提交作业中断Metro Mirror模式

6)使用原IODF从生产磁盘重启生产系统

7)启动数据库和应用程序。对数据进行检查,确认数据无误

8)重建Metro Mirror模式备份;

3.反向Metro Mirror模式

建立反向的Metro Mirror模式关系进行初始拷贝,完成后可以将生产数据切回DS8000。

4.当生产中心整体发生故障时,恢复过程概述

生产中心整体异常时,备份中心备份磁盘为Metro Mirror模式suspend状态,可以通过磁盘控制机执行脚本恢复备份磁盘卷状态,备份主机使用备份磁盘重启生产系统。

5.灾备中心如果万一发生断电,Metro Mirror模式连接断掉以及数据重写过程

灾备中心断电,备份磁盘整体停机,此时生产磁盘与备份磁盘的Metro Mirror模式自动暂停,生产磁盘保持正常访问并将记录Metro Miror模式暂停后更新的记录,备份磁盘中的数据保留在停机时点。当灾备中心电力恢复,备份磁盘正常重启后,进行Metro Mirror模式重同步动作,将暂停后更新的数据写到备份磁盘中,直到两边数据恢复同步。

Metro Mirror模式连接如下图:

 

主机通过FICON连接访问本地存储DS8000和远端存储ESS800,数据复制采用Metro Mirror模式连接。生产机房和灾备机房间距离约40KM,需CWDM光纤交换机FSP2000连接,它支持2路(双芯)裸光纤接人,每套CWDM系统容量扩展能力》320Gbps,CWDM设备还能够支持15dB的光纤衰减容量。
二、数据迁移及Metro Mirror模式建立

本次主机系统数据迁移及Metro Mirror模式实施计划是将新购1台DS8000磁盘替换现有F20、ESS800(F20、ESS80互为备份),并利用ESS800磁盘作目标卷建立远程Metro Mirror模式镜像。

当前F20和ESS800这两台磁盘各定义了8个CU,IOCDS中每个CU下定义了36个3390-3卷。

1.DS8000 Metro Mirror生产磁盘规划

在新购DSS000生产磁盘中定义16个CU,在每个CU下定义78个3390-3磁盘。前8个CU作为Metro Mirror生产卷范围,每个CU根据ESS800地址范围大小决定Metro Mirror卷的个数。

将目标ESS800磁盘作为Metro Mirror模式二级卷,现有磁盘为8个CU,每个CU 36个3390-3卷,满足生产系统Metro Mirror模式1:1的要求。

2.生产系统迁移切换

在DS8000磁盘上划分一块空间安装z/os 1.9操作系统,在z9主机上检查验证z/os 1.9操作系统。无误后,进行系统切换:停生产,中断F20 Metro Mirror模式,在z9主机的z/os系统建立ESS800=》DS8000的Metro Mirror模式拷贝,完成后再断开Metro Mirror模式,在z9 z/os系统中OFFLINE ESS800磁盘卷,ONLINE DS8000磁盘卷,系统及应用作相应修改,完成切换。

用ESS800磁盘作目标卷建立Metro Mirror镜像:建立从DS8000=》ESS800磁盘的Metro Mirror模式镜像。

三、数据异地灾备系统性能测试

远程灾备中心建立完成后,需要对Metro Mirror模式进行测试,分析Metro Mirr0r模式的性能及对生产的影响。

测试内容是将本地及远程两种情况下的Metro Mirror模式性能进行分析比较及其对生产的影响进行比较分析;性能分析是通过初始拷贝时间,与磁盘I/O Rate,Response Time等指标进行比较;对生产的影响分析主要通过生产作业运行时间的影响以及磁盘ResponseTime等指标进行比较。从Metro Mirror的技术原理可以看出Metro Mirror技术主要由磁盘微码这种硬件技术实现,对于主机系统的影响主要体现在磁盘的性能上,因此这里对磁盘的性能分析,同时也包含Metro Mirror模式的数据比较分析。

大型机数据异地灾备系统于2009年6月正式切换运行,我们选择了2009/09/09、2009/09/18、2010/04/15、2010/04/16、2010/04/21-23这七个时间段的生产系统SMF数据对磁盘性能进行分析如下:

1.关于I/O Rate的性能比较

磁盘I/O Rate表示单位时间内I/O的次数,可以看出7个时间段内,峰值皆为2500-3000左右,性能接近。

2.关于Write(MB/s)的性能比较

Write(MB/s)表示单位时间内写MB数量,在2009/09/09,以及2010/04/16,2010/04/21-23几天的数据接近,主体在2.4MB/s左右,峰值为8-10;在2009/09/18和2010/04/15两天的数据接近,峰值较高,达到20(MB/s),说明I/O较忙。

3.关于Write(trk/s)的性能比较

Write(trk/s)表示单位时间内写Track数量,可以看出2009/09/09,2009/09/18,2010/04/16,2010/04/21-23几天的数据接近,峰值为400-600,2010/04/1 5峰值较高,达到1000。

4.关于Metro Mirror Write Track(trk/s)的比较

Metro Mirror模式Write Track(trk/s)表示单位时间内Metro Mirror模式写Track数量,可以看出,在2009/09/09,2009/09/18,和2010/04/16,2010/04/21-23几天的数据接近,主体在1 00.200,峰值达N5oo左右;2010/04/15数据量较大,峰值达到1000。

5.关于Response time的比较

Response time表示磁盘响应的时间,包括IOSQ,Pending,Disconnect,Connect四个部分组成。几个时间段的Response tim本在1ms以内,个别较忙时间点峰值达到2.5ms。

通过分析SMF数据,比较2009/09/09,2009/09/1 8,2010/04/15,2010/04/16,2010/04/21-23这七个时间段的磁盘性能,可以看出:

磁盘响应时间,生产系统在这几个时间段的Response Time基本在lms以内,个别较忙时间点峰值达到2.5ms,性能都属于良好。

磁盘I/O Rate,Write(MB/s),Write(trk/s),以及Metro Mirror模式Write Track(trk/s)三个指标,在2009/09/09,2009/09/18,和2010/04/16,2010/04/21-23这几天的数据接近;2010/04/15数据量较大,峰值高出近一倍左右,说明I/O较忙,不过在这种压力下,磁盘响应性能良好。

四、结束语

大型机数据级异地灾备系统的实施,使该企业具备了高可靠性的数据备份系统,极大地提高了企业信息化系统的数据安全性。经过测试验证,该系统在主机系统服务器硬件损坏情况下,只需40分钟切换完成;在主机系统存储硬件损坏情况下,约60分钟切换完成;从而有效地保证了关键数据的及时恢复与业务应用的持续性。

本次虽然只建立起同城异地数据级灾难备份中心,但灾备系统的架构设计已着眼于系统高可用性的目标,随着未来业务的不断发展,为顺利过渡到系统级灾备模式奠定了基础。