Symmetrix的远程复制技术SRDF的实现及解决方案

作者将本文同时发布到:EMC中文支持论坛 https://community.emc.com/thread/166159

为期两周的Symmetrix专家问答,上周五结束,关注了两周期间论坛网友和专家的互动,觉得中间有很多东西很有参考价值,这里整理了7个精华问题与答案。方便对SRDF感兴趣的网友们查阅。



1. SRDF介绍的优势。




     目前在实际应用方面,尤其是对RTO( Recovery Time Objective)和RPO(Recovery Point Objective)要求极高的容灾应用方面,主流的、成熟稳定的数据备份与恢复技术主要有:基于主机的集群和数据复制技术、基于数据库应用的数据备份与恢复技术、基于存储的数据备份与恢复技术和基于虚拟化存储的数据备份与恢复技术等。  



     随着信息技术的不断发展,基于主机的集群和数据复制技术越来越成熟,部署也越来越普及,特别是运行关键业务的主机系统,用户都会考虑到采用集群的方式屏蔽单点故障的问题。但当主机环境较复杂的时候,如有多个系统、多种应用需要容灾保护时,尤其是涉及多台主机系统时,其管理难度大。基于数据库应用的数据备份技术是通过数据库系统软件实现数据的远程复制和数据同步,该技术通过数据库机制来实现,不依赖于其它软件,但该技术的局限在于,其主要用于数据库应用的容灾解决方案, 无法实现非数据库数据的远程复制,如果需要其它非结构数据的容灾支持,则需要其它的容灾技术作为补充。相较而言,基于存储的数据备份与恢复技术的优势就是将数据与运行分开,对主机系统的运行资源影响比较小,由于其运行机制大多是利用镜像来复制数据,并借助高速缓冲存储器加速I/O存取,两端的数据差异时间点比较小,加之存储系统本身具备一定的容错能力,使之具有较高的运行性能和可靠性。存储间的数据通过光纤网络传输并实现数据的同步复制功能,能满足大数据量、快速同步的要求。存储本身还拥有良好的扩展性,通过采用冗余、容错技术、故障管理功能,可以有效地提高系统的可靠性和可用性。



     SRDF(Symmetrix Remote Data Facility)运用EMC Symmetrix数据存储系统实现灾难恢复和业务连续性。简单来说,SRDF提供了从一个到一个、一个到多个物理上分离的Symmetrix系统的数据复制技术,尤其在多点容灾技术方面, SRDF远程数据复制技术在中间站点容量需求、扩展性等方面有一定优势



2.SRDF的发展历史


     早在1994年,在Symmetrix的第三代产品 Symmetrix 5500中就引进了SRDF技术。随着Symmetrix Enginuity Code level的不断更新和提升,也在不断做着更改和性能增强。



     早期的SRDF最多能支持16个静态组,并且只支持同步模式。在enginuity 5569中引进了switched RDF, Concurrent RDF he Dynamic RDF。随后在5670的code中又引进了异步模式SRDF/A以及支持大型机的多会话一致性multi-session consistency (MSC)的SRDF/A,使得多个symmetrix机器可以参与到SRDF/A MSC当中去,这个性能提供了一种SRDF/A 的特别模式,cycle的转换时由主机上的应用通过对symmetrix的system call 来控制,能被用来提供多台Symmetrix机器的在时间点上的一致性。



     之后的code level中,SRDF 的特性也在不断的增强:


Enginuity 5x71, 每台Symmetrix上最多支持 64个SRDF/A 组,使得SRDF/A的双向操作得以实现。

Enginuity 5x71, Concurrent SRDF,可以以同步模式复制一个RDF组到本地的次要site,同时以异步模式复制到远距离的site。


Enginuity 5x71, Dynamic SRDF 允许动态的在SRDF/A组中删加device,以及删加srdf/a组。


Enginuity 5x71, Tunable Cache,用户可设置SRDF/A 组所占用最大cache资源的比例,超过这一比例,SRDF/A会自动drop inactive,用户可以在保证系统cache资源不影响应用性能的情况下设定组别的优先级。


Enginuity 5772, Reserve Capacity 使得当网络资源或者workload出现问题时保持SRDF/A的运作状态,用以在最小工作开支的情况下争取最大的保持远程复制的能力。其中Transmit idle这个特性可以在网络中断时让异步复制保持active的状态,而Delta Set Extension (DSE)使得SRDF/A在快要达到系统write pending和srdf/a最大cache占有极限时,保持复制的运作。


Enginuity 5773,cascaded SRDF,新的SRDF 解决方案,可以使源端SITE A以同步模式复制到次要site B,再把次要site B作为源,以SRDF/A复制到第三台远端Symmetrix SITE C目的端上。


Enginuity 5875, 在 Concurrent SRDF中增加了从源端site同时以 SRDF/A异步模式复制到两个不同的site的远程拷贝的配置模式。


Enginuity 5876,支持thin CKD device 的SRDF/Star, Concurrent SRDF,Cascaded SRDF 。


3. SRDF有哪些类型和各自应用场景?



     SRDF提供了从一个到一个、一个到多个物理上分离的Symmetrix系统的数据复制技术的实现,从大的方面来讲,SRDF基本可以分为三个主要的类型:



1)SRDF/S,即同步方式,是将本地生产数据以完全同步的方式复制到异地,每一个本地的I/O 处理均需等待远程复制的完成,从而实现主/备中心磁盘阵列同步地进行数据更新。





2)SRDF/A,即异步方式,是将本地生产数据以后台处理的方式复制到异地的方式,每一个本地的I/O 处理后,无需等待远程复制的完成就正常释放,也就是在应用系统的I/O写入主磁盘阵列后,主磁盘阵列立即返回给主机应用系统“写完成”信息,主机应用可以继续进行读、写I/O的操作。





3)SRDF/DM(Data Mobility),即结合了SRDF和Timefinder(Clone,BCV,等等本地数据复制技术),实现数据的远程复制和容灾。SRDF/AR, Concurrent SRDF, Cascaded SRDF等均属于基于存储的三方数据复制技术,均支持远距离的第三站点容灾,存储的数据备份与恢复技术主要是基于存储系统内建的固件或操作系统,通过网络或DWDM、光纤通道等传输界面连结,将数据以同步或异步的方式复制到远端,适用于异地远程灾难备份中心方案的建设。





4) SRDF/AR使用自动复制技术, 结合了SRDF和Timefinder(symmetrix的本地复制技术),在中间站点的存储上定时对目标数据R2卷(即目标卷)和对应上R2的BCV(Business Continue Volume)卷实施同步复制和拆分操作,并自动复制到第三地,实现三地容灾系统。(备注: 一般来说,我们将生产数据中心的“源数据”称为R1,容灾中心的“目标数据” 称为R2。)



SRDF/AR单跳模式的举例:


     在SAR的单跳模式下,PIT快照是采用了BCV的形式,也就是一个完全的拷贝,需要在本地把数据拷贝同步完全以后,才会向R2开始复制,复制方式采用的是Adaptive Copy模式,也就是单纯的把数据复制到R2。 
     在单跳中,数据丢失的数量和复制周期时间有关,也就是,从一个复制周期的开始到另一个复制周期开始的间隔。复制周期时间是取决于距离、带宽、I/O更新率等因素。最大的数据丢失量是一个复制周期,那么RPO就是两倍的复制周期时间。(假设复制周期是2小时,那么最大的数据丢失量就是2小时的数据,那么RPO就是这2小时,再加上一个复制周期2小时,所以为4小时。




用户可以设置复制周期时间,EMC建议设置一个宽松的周期时间,并且根据几个不同周期的实际运行情况来调整这个周期时间,比如数据的大小,SRDF的带宽,以及运作需要的时间等等。



https://community.emc.com/servlet/JiveServlet/showImage/2-691384-50312/2012-11-21+23+41+55.png

以单跳SRDF/AR为例,首先它由源端Source和目的端Target组成,所连主机可以是mainframe, UNIX或Windows。


以下这张图可能看的更为清晰:


https://community.emc.com/servlet/JiveServlet/showImage/2-691384-50313/2012-11-21+23+42+41.png



用到的device类型有R1,R1-BCV,R2和BCV,当源端遇到灾难时,我们是直接利用目的端BCV restart应用。先建立起本地R1和BCV之间的快照关系(1),两者split后将数据由R1/BCV传往R2(2),最后由R2传往BCV(3)...这样做的好处是既能节约带宽,又能使源端的R1 device和目的端的BCV device保证PIT数据一致性



一般,用户建立一个单跳的SAR有以下几个步骤:


  • 建立R1(STD)和它的快照R1-BCV之间的关系,此时SRDF Link状态是suspend

  • Split STD和R1-BCV,相当于此时R1-BCV可以被访问了

  • 建立起R1-BCV和目的端R2之间的SRDF传输关系

  • SRDF传送完成后,建立R2和它的快照BCV直接的关系

  • Split R2和它的BCV

  • 回到第一步,建立R1和它的快照关系,即进入下一周期的数据复制




5)Concurrent SRDF (Concurrent Symmetrix Remote Data Facility) 一对二的并发远程复制技术,支持一份源数据通过同步远程数据复制和异步远程数据复制组合模式,可以将该份源数据复制到二个远端存储系统,用以提供二份独立的远端数据备份,数据从主站点复制到另外二个远程站点,以实现三地容灾的解决方案。即当源数据系统发生灾难时,可以从二个幸存站点所复制的独立的二套数据备份之间选择,提供双向的数据保护,并提供持续的远端数据镜像并保持灾难重启功能。  


6)Cascaded SRDF (Cascaded Symmetrix Remote Data Facility) 分多级进行的远程复制技术,Cascaded SRDF技术组合了同步远程数据复制模式和异步远程数据复制模式,支持一份源数据以同步方式复制到一个异地存储系统,同时该异地存储系统再以异步方式将数据复制到远端第三地存储系统,从而保障数据从主站点复制到另外二个远程站点,以实现三地容灾的解决方案。即当源数据系统发生灾难时,可以从二个幸存站点提供持续的远程数据镜像并保持灾难重启功能。


SRDF/AR、Cascaded SRDF、Concurrent SRDF等的区别及使用场景的选择,其能达到的

RTO( Recovery Time Objective)、RPO(Recovery Point Objective)理论值不同,对带宽的需求不同,可能建设的预算、运行及维护的成本也不同,所以我想首先还是要基于需求分析以及客户基本的系统结构和逻辑组成等方面来入手,结合考虑RTO、RPO等、并通过平均无故障时间(MTBF: Mean Time Between Failure)、可维护性通过平均恢复时间(MTTR: Mean Time To Recover)等进行衡量,兼顾经济可行性和业务系统的应急需求等,从而选择合适的架构有效地构建容灾。


4. 基于存储、主机、数据库复制技术的比较分析。


1)基于主机的集群和数据复制技术:  



     基于主机的集群和数据复制技术的核心是结合主机集群系统、通过IP网络建立数据传输通道并采用主机数据管理软件实现数据的远程复制。目前,实现数据远程复制的主流商用数据管理软件产品有Veritas Volume Replicator、SUN Availability Suite 和IBM eXtended RemoteCopy等。基于主机的集群和数据复制技术的主要优势有:



  • 该技术基于IP网络,没有距离限制,可以灵活地实现预定复制配置功能。

  • 该技术既有针对主机文件系统的容灾保护模式,也有针对数据库的容灾保护模式,可以满足用户的不同数据保护要求并可以提供多种不同数据保护模式。

  • 该技术不依赖于底层的存储平台,生产数据中心和后备数据中心可以采用不同的存储平台。  




     目前,基于主机的集群和数据复制技术的主要局限是:当主机环境较复杂的时候,如有多个系统、多种应用需要容灾保护、尤其是和数据库应用结合的时候,需要多种机制或多种软件的结合,管理难度大。另外,基于主机的集群和数据复制技术由于生产主机既要处理生产请求,又要处理远程数据复制,复制过程会增加主机CPU的负载,会占用部分主机资源。


2)基于数据库应用的数据备份与恢复技术


     基于数据库应用的数据备份技术是通过数据库系统软件实现数据库的远程复制和数据同步。业界主流的商用产品有Oracle Data Guard、Microsoft SQL Server Mirror、Golden Gate和Quest Shareplex等,其基本原理是利用数据库系统的日志备份和恢复机制,建立后备数据库系统,同时对主数据库的数据库日志和控制文件等关键文件进行备份。基于数据库应用的数据备份技术的复制方式可分为实时复制、定时复制和存储转发复制,其主要优势有:该技术基于IP网络,没有距离限制。


  • 该技术与底层存储平台子系统的类型、业务系统服务器的平台无关,该技术支持对多平台的支持与开放性。

  • 该技术通过数据库机制来实现,不依赖于其它软件。

  • 该技术可以实现一对多的数据复制,提供多重保护。另外,还可以满足用户的不同性能、数据保护要求,提供多种不同数据保护模式。

  • 后备数据库可以在很短的时间内提升到生产状态。


     目前,基于数据库应用的数据备份技术的主要局限是:该技术对生产数据库系统的性能会产生一定的影响,远程数据库复制对主机的性能有一定影响,而且基于数据库应用的数据备份技术与具体的数据库版本有一定关系。另外,该技术主要用于数据库应用的容灾解决方案, 无法实现非数据库数据的远程复制,如果需要其它非结构数据的容灾支持,则需要其它的容灾技术作为补充。当前该技术支持后备数据库相对主数据库的复用有限制,并且有可能会增加对磁盘存储容量的需求。


3)基于存储的数据备份与恢复技术


     基于存储的数据备份与恢复技术的核心是利用存储阵列自身的盘阵对盘阵的数据块复制技术,来实现对生产数据的远程拷贝,从而实现生产数据的灾难保护。随着存储技术的不断发展,存储设备的速度、容量、可靠性和可扩充性得到了极大提高,光纤通道技术和超高速的大容量硬盘技术,更是缩短了数据的存取时间,有效地提高了系统的整体性能,高端存储的冗余体系结构确保了系统的可靠性, 保障了数据的可用性。

     基于存储的数据备份与恢复技术对主机应用完全透明,所有数据复制工作由磁盘阵列硬件层完成,不需修改应用,而且可以保证大量数据复制的性能。在主数据中心发生灾难时,可以利用灾备中心的数据在灾备中心建立运营支撑环境,为业务继续运营提供信息系统支持,还可以利用灾备中心的数据恢复主数据中心的业务系统,使企业的业务运营快速回复到灾难发生前的正常运营状态。    


     采用基于存储的数据备份与恢复技术的必要前提是:对最终用户的存储平台选择有一定的限制,通常要求采用同一厂家的存储平台,其系统建设成本高,用户需要在生产端和灾备端分别配置存储系统,前期投资较大。另外,采用该技术来建设容灾系统时,对容灾中心的信息系统的基础条件,如网络、通信系统等有一定的要求。该技术的主要优势有:


  • 基于存储的数据备份与恢复技术的实施基础是在存储系统上,所以实施起来受应用、主机环境等相关技术的影响小,适合于主机和业务系统众多、应用环境复杂的情况,并可有效降低管理难度。

  • 该技术采用同步方式运行时,可以实现数据的零丢失,并能满足大规模  I/O吞吐情况下的同步数据复制要求。

  • 该技术采用异步方式运行时,没有距离限制,可以实现远距离保护。

  • 灾备中心的数据可以得到有效利用。基于存储的数据备份与恢复技术可以充分复用灾备中心的数据,从而提高业务运营效率。

     基于存储的数据备份与恢复技术支持“一对多或多对一”的复制方式,即一个存储的数据复制到多个远程存储,或多个存储的数据复制到同一远程存储;而且数据复制还可以是双向的。


4)基于虚拟化存储的数据备份与恢复技术



     基于虚拟化存储的数据备份与恢复技术在系统可扩展性上开创了一片新的领域。虚拟化的技术方法,是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明,达到屏蔽存储设备的异构和主机的异构的目的。通过虚拟化技术,用户可以利用已有的硬件资源,根据自己的需求对存储池进行分割、分配,另外还可以根据业务的需要,实现存储池对服务器的动态、透明的增长与缩减。


     存储硬件的虚拟化技术可以简化海量存储设备的管理,操作系统级别的虚拟化可以实现安全的隔离、错误的隔离以及应用环境的隔离。通过虚拟化存储的数据备份与恢复技术,可以实现数据的远程复制,从而确保容灾中心与主站点的数据保持同步以实现数据容灾。另外,对于异地传输的带宽占用,虚拟化容灾方式具有各类调优方式,使得这种方式能够最大限度适应用户现有的网络环境。实施基于虚拟化存储的数据备份与恢复技术需要考虑以下问题:首先,基于虚拟化存储的数据备份与恢复技术还处于发展阶段,采用该技术,尤其是增加第三方硬件的方式时,需要评估对整个系统的高可用性和性能的影响。另外,在异构环境,尤其是复杂环境、大规模容灾系统的情况下,要确保兼容性和数据的完整性。


5.SRDF和recoverpoint不同的使用场景


     SRDF 适用于已对现有 Symmetrix 部署进行 SRDF 投资且需要使用 SRDF 逻辑在 Symmetrix VMAX 系列阵列之间复制数据的情况。针对核心关键性的业务,针对联合应用程序的一致性,以及对于高度可扩展性和性能优化。比如现在具有与 SRDF 保持一致的内部认证、脚本、流程、基础架构、技术能力以及最佳做法,SRDF 将利用现有投资来实现规模经济和效率。 
     那么 RecoverPoint 适用于需要精确时间点恢复、需要最大限度减少用于复制的带宽或需要在一个或多个系列、VPLEX Local、VPLEX Metro、VNX 系列、CLARiiON、Celerra 统一存储或非阵列之间进行复制的情况。针对于任意点对点的复制,EMC和非EMC产品,以及任意时间点的恢复,它有集成的WAN带宽管理。RecoverPoint 还适用于需要本地(CDP,连续数据保护)、远程(CRR,连续远程复制)或本地和远程(CLR,并发本地及远程)复制相同数据的情况选择。




6.操作和管理SRDF的方法与工具有什么?



     一般我们会用一个叫做SolutionEnabler的软件来进行SRDF 的管理操作,通过输入Symcli命令来对SRDF进行查询和操作,另外还可以用SMC(Symmetrix Management Console)软件来进行图形化界面的操作。


  • 查询RDF设备以及他们的同步状态

  • 查询和修改RDF设备所在的RDF组的状态和信息

  • 进行RDF的suspend(终止), failback(把业务恢复到R1端), resume(继续数据复制), split(分离), set mode(设置模式), establish(建立同步), failover(故障切换,从R1把业务转到R2端), update(数据回拷)等操作。

  • 建立,修改和删除RDF设备对等操作


参考文档:

管理RDF磁盘设备
管理RDF组

Symmetrix SRDF/S常用命令简介
配置Symmetrix SRDF/A的最佳实践



7.SRDF使用的网络与带宽需求


     SRDF目前都是用在传统的FC SAN网络(RF)或以太网(RE)中。网络带宽和数据量大小有关,新的写IO有多大,消耗的网络带宽就有多大。通常第一次做数据全同步是使用Adaptive Copy模式的。

     异步SRDF在网络质量不好的情况下也不会对性能造成影响。同步SRDF对网络质量要求较高。在数量量较大的情况下,可以在Symmetrix或交换机端启用QoS的相关功能来实现流量控制。

     关于你提到数据和带宽的关系:在理想状况下,数据传输时间=数据量/带宽,如1G/秒的带宽传输1G的数据只要1秒钟。但实际上网络质量不只和带宽有关,延时也是一个非常重要的因素。同步SRDF对延时要求很高,这也是同步SRDF常见于同城复制的原因。


你可能感兴趣的:(Symmetrix,SRDF)