Oracle Extend RAC:
ASM+ FC SAN
ASM+ EMC VPLEX
ASM+ IB
题记:对于企业关键业务而言,信息系统可靠性是关键。各行业关键 IT系统因为系统故障导致服务中断的事件仍然时有发生,近年来有一些银行 IT 系统,虽然建有两地三中心布局,但仍然有业务中断服务的现象。传统的存储复制容灾架构和DG容灾架构理论上是可以避免业务中断的,但很多企业在实际操作过程中,往往灾备切换的过程很漫长。
近年来,互联网企业云计算、大数据风起云涌,传统企业在市场压力下,也面临着利用新技术,更好的服务用户与市场的迫切要求。
Extended RAC方案
Oracle ADG上的列式存储支持
Oracle ADG上的列式存储支持Oracle ADG上的列式存储支持
可以跨两个或更多地理位置分开的站点扩展Oracle RAC集群,每个站点都配有自己的存储。 如果其中一个站点发生故障,其他站点将作为active备用站点。
通常,Oracle ASM和Oracle数据库堆栈均设计为在数据中心中使用企业级共享存储。 然而,通过光纤通道技术能够在两个或多个数据中心之间分配计算和存储资源,并分别通过以太网电缆和光纤通道进行连接,以满足计算和存储需求。
Extended RAC技术与服务
Oracle ADG上的列式存储支持
Oracle ADG上的列式存储支持Oracle ADG上的列式存储支持
云和恩墨为保险行业,运营商、医院等多家企业和单位提供过Extended RAC的服务,包括前期设计规划、搭建实施及后期的优化和改进。
1、在某移动集团公司,针对传统容灾系统切换慢、接口难同步等问题,我们提出了Extended RAC方案:新业务系统改造上线与 ORACLE 远程 RAC 双活一起建设,既可解决容灾系统建设时间不足,也可解决传统方案容灾、应急切换过慢的问题。
2、某保险公司,因为对业务系统稳定性与连续可用性极高的要求,迫切需要能够从主机、存储、网络、运行环境等各个层级防止单点故障,提高业务连续性的高可用容灾解决方案,确保整个IT业务系统实现7×24的业务连续运行。
云和恩墨作为该企业数据库运维支撑服务商,提供了 Oracle Extended RAC 双活架构的解决方案以保证业务系统运行稳定性与可用性。
在该客户的双活架构中,Extend RAC 架构构建于同城异地的主备机房,采取双机房、双存储、双网络链路、四节点 RAC 的整体高可用容灾架构模式,主备机房可同时支撑业务运行,在主机、存储、网络、电力、机房环境等多个纬度提供了以双防单的多重可靠性防护方案,彻底解决各个环节单点故障导致业务中断情况的隐患。
根据该保险公司的实际情况,云和恩墨采取存储扩容配合 RAC 节点增加的实施方案,无缝的实现了整个 Extend RAC 架构的无停机时间迁移改造,并配合与业务特性相匹配的最佳实践配置方案,顺利实现真正意义的数据库同城双活高可用容灾中心架构,全面提升业务系统的稳定性与高可用性。
3、某医院一核心系统采用普通的 RAC 架构,基于共享的存储,数据保护依赖于底层存储的 RAID 和数据库层面的数据备份。若共享存储出现故障,则会导致集群内的所有节点的故障,因此需要开发新的模式来提高系统的性能更好地保证数据的安全。
基于Extended RAC方案,我们将两个站点分别设置在不同的大楼,采取双机房、双存储、双网络链路、双站点 RAC 的整体高可用容灾架构模式,主备机房可同时支撑业务运行,在主机、存储、网络、电力、机房环境等多个纬度提供了以双防单的多重可靠性防护方案,彻底解决各个环节单点故障导致业务中断情况的隐患。
在移动互联和行业开放融合的大趋势下,云和恩墨将致力于做广大用户最忠实的数据管家,为各组织中最核心的数据资产,提供端到端的产品和服务,完成以下使命:
Extended-RAC,是RAC技术的一种扩展增强。Extended-RAC是通过专用光纤(或租用裸光纤)加DWDM(波分设备)设备将两个不同楼栋/同城甚至异地机房进行相连,将数据库主机、存储分别放置于不同机房,利用存储复制/ASM Mirror等技术进行数据复制进行搭建的一种远距离集群架构。
Extended RAC需要将不同楼栋/同城甚至异地机房通过专用光纤(或租用裸光纤)加DWDM(光纤复用设备)进行连接,打通不同楼栋/同城甚至异地机房间大二层网络、存储FC/IB网络,为搭建Extended RAC提供必要条件。Extended RAC继承了RAC的优点,将RAC节点/共享存储部署于不同楼栋/同城甚至异地机房,各不同楼栋/同城甚至异地机房服务器及存储可同时提供数据访问,实现了真正意义上的读写双活,搭建Extended RAC时,不同楼栋/同城甚至异地机房间距离不宜超过100KM, 不同楼栋/同城甚至异地机房间传输需要独用的光纤专线(国内亦有案例是租用裸光纤),具体架构如下:
Extended-RAC标准架构图
传统容灾架构设备处于备用闲置状态,无法提供服务或只能提供数据查询服务。Extended-RAC为双活架构,通过Extended-RAC架构的部署,可将不同楼栋/同城甚至异地机房灾备设备纳入至计算资源中,扩大原有RAC集群计算能力,减少传统架构容灾环境资源闲置浪费问题。
传统容灾架构如果一个机房出现故障,例如发生供电中断、火灾等故障,备用机房接管服务时,需要进行一系列的复杂的故障切换工作,业务服务需要中断较长时间,影响较大。而Extended-RAC架构则无需进行切换,业务不会因为机房级的故障而受到影响,实现机房级故障数据服务零中断。
Extended-RAC可以防范大部份灾难场景,如设备损坏、供电中断、火灾等场景,但对地震、恐怖袭击、误操作等仍无抵御能力。
Oracle ASM技术在11G上得到增强,建议将Oracle
Extended RAC在11.2.0.4+版本中进行部署。
2.2. IP网络及存储传输技术选型
在超过10KM距离的不同机房部署时,应使用DWDM(光纤波分复用)设备,心跳网络、SAN网络应使用专用线路,且应配置冗余。
目前,市面上有两种技术路线可以选择,一种是基于存储厂家的数据复制技术解决方案,代表厂商为EMC VPLEX解决方案,另一种是ORACLE提供的ASM Mirror+Failgroup技术方案。
存储厂家提供的技术方案,将两套存储整合为一套存储来提供给数据库使用,DBA人员看到的只是一套存储,部署与普通ORACLE RAC无区别,对于DBA来说,管理简单,但存在与存储厂家高度捆绑,采购及后期运维费用支出昂贵等特点。
基于FC+ASM mirror技术适用于原有生产/灾备环境改造及业务并发度中低的业务场景,采取该技术路线无厂商捆绑,存储侧不产生额外费用等特点,由于两套数据存储、一套仲裁机制均由DBA人员进行管理,对DBA人员的要求较存储厂商解决方案更高。
由于IB网络设备的普及,很多数据中心已具备或正准备组建基于IB交换的存储网络,基于分布式的一体机解决方案依托于IB网络搭建,IO能力较FC提升10至100倍,在高并发的OLTP数据库中采用此方案最合适。该方案具备高IO、低延迟能力。
通过基于IB网络的一体机解决方案,配合ASM Mirror+Failgroup技术,有可效解决传统存储架构在高并发环境下IO能力不足的问题,同时,设备采购及后期维护成本较传统存储厂家解决方案更低。
技术方案存储复制双活FC+ASM复制双活IB一体机双活
成本预算高低中
灾备保护的健壮性高高高
事务一致性高高高
项目周期长长长
管理复杂度简单较复杂简单
性能中中高
征对存储复制的三种解决方案,均具有高级别灾备保护的健壮性、高级别的事务一致性,且项目实施周期长的特点。
在管理复杂度方面,采用ASM复制的传统FC双活、一体机双活技术方案较基于存储复制双活管理更为复杂,对DBA人员的管理能力要求较高。
基于性能考虑,其于存储复制双活、基于传统FC存储的ASM复制双活性能远低于IB网络的分布式一体机解决方案。
建设成本上,采用ASM复制技术实现的双活费用最低、基于IB网给的一体机双活方案成本居中,存储复制双活方案成本较高的特点。
从费用支出和技术可控性上,业务并发量中及以下的系统中采用FC+ASM技术进行实现,对于业务并发量高的业务系统建议采用基于IB网络的一体机解决方案进行实现。
由于基于存储厂家复制技术的解决方案部署与ORACLE RAC相同,故本章节实战内容适用于基于FC/IB网络的解决方案。
ASM盘组FAILGROUP成员规划时,应基于不同机房不同存储进行划分,磁盘及FAILGROUP应统一规划命名规则,征对投票磁盘,应将第三块投票磁盘规划至第三机房存储或NFS盘。
11.2.0.4建议参照下表进行规划设计。
征对Extended-RAC数据库,还应对disk_repair_time、asm_preferred_read_failure_groups、_asm_hbeatiowait参数进行合理设置,以保障数据库的健康运行。
disk_repair_time(磁盘offline后drop时间)
当disk offline的时间大于disk_repair_time,ASM会自动将offline的磁盘drop,如果需要再次同步,将offline的磁盘强制添加到磁盘组的failgroup中即可,会自动进行整个磁盘数据的全同步,该参数默认3.6小时,建议将此时间调整至12小时或更长。
asm_preferred_read_failure_groups(本地优先读)
ASM_PREFERRED_READ_FAILURE_GROUPS参数设置后,ASM读IO也走local,ASM的写IO则需要本地failgroup和远程failgroup都同时写成功,IO才认为完成。如果某一个failgroup的IO写失败,Oracle会再次寻找新的extent写入,如果再次失败,则会offline 该faligroup磁盘。
_asm_hbeatiowait(磁盘响应超时)
ASM磁盘响应超时参数,默认为15秒,建议调至120秒。
无