城域容灾体系的突破性进展

说到容灾系统,我相信大家都不陌生,但容灾的具体定义却众说纷纭,我这里并不想给容灾下一个什么定义,只是想说明这里提及的容灾主要是指如何在灾难发生时尽快恢复业务数据,也可以说是数据容灾。关于MAN/WAN网络的容灾,不在本文的讨论范围中。

1.   传统容灾系统实现






图1 传统的基于磁盘阵列容灾系统的典型架构

为了更好说明容灾体系的新进展,我们先来回顾一下老的容灾体系架构。对于传统的数据容灾系统,有两种典型实现,一是基于磁盘阵列的容灾实现,比如IBM PPRC、EMC SRDF、HDS的Truecopy等;另外一种是基于主机的容灾实现,例如:Veritas VVR等。如何有效选择容灾的实现方式,应该根据客户自己的实际情况来决定容灾体系的搭建模式。图1是典型的基于磁盘阵列的容灾架构。

当然,基于具体的容灾解决方案,还可分为同步容灾和异步容灾。同步容灾具有更高的数据一致性,发生灾难数据损失量最少,但是代价最高,并且对中间的网络链路和容灾节点的设备配置都有很高的要求,一般只能在几十公里的范围内实现。相对而言,异步容灾实现方便,可以承受的物理距离比较远,甚至可以达到上千公里的容灾,但是数据的损失量会比较大。当然,对大多数的电信行业、银行等关键业务系统,大多都采用了同步容灾的实现。

2. SAN是传统容灾基础平台

从图1可见,典型的容灾系统都是基于SAN网络来实现的,SAN网络已经成为容灾体系的基础平台,特别是国内的电信行业,基于SAN的容灾已经获得了大面积的应用和推广。SAN网络具有如下的优势,可以满足容灾系统的基本要求:

2.1 SAN的远距离连接能力

传统的存储基本和服务器是连体婴儿,往往被人们认为成服务器的附属品。但是,随着近年来数据量的爆炸性增长的强烈需求,人们越来越认识到数据的重要性,存储慢慢从服务器内部解放出来,实现了存储和服务器通过通道模式(如:SCSI、SSA等)的直连,这时候的存储我们称之为直连存储:Direct Attached Storage(DAS)。但是直连存储的连接距离是很大的限制,比如:传统的SCSI连接最多只能连接到25米(理论值,实际连接距离更小)。因此,如何摆脱连接距离的限制成为存储技术发展的重要一环,SAN技术应运而生。

SAN技术的诞生不仅仅突破了传统的SCSI连接距离限制,可以通过单模光纤实现最远10公里的连接,同时,配合SAN交换机的技术(如:Brocade 交换机上独具特色的Extended Fabric软件)和DWDM/CWDM等的实现,已经可以将存储的连接距离扩展到上百公里,使得城域数据的容灾有了一个可靠的平台保障。

2.2 SAN的容错机制和高可用性

SAN自从产生的第一天起就具有容错的能力和高可用性。SAN是专门为大型高可靠性存储设计的网络平台,因此,从SAN交换机开始就考虑到了容错的能力,比如:SAN交换机本身的电源、风扇、甚至控制卡的冗余设计。同时,SAN网络的设计本身都是基于冗余的基本思想,比如:弹性Fabric的设计、双Fabric的SAN网络设计等,都用来保障数据访问路径的可靠。

当然,为了配合多路径访问的需求,主机上也需要相应的模块来配合,比如:VERITAS DMP、IBM SDD、EMC Powerpath、HDS HDLM等软件都是用来支持双Fabric的SAN网络设计来配合主机对存储的识别而设计的,从来实现了从主机的I/O接口卡(Host Bus Adapter:HBA卡)到存储阵列的安全可靠访问。常见的双Fabric的网络设计示例见图2。




图2 典型的双Fabric的SAN网络

3.传统容灾系统存在的问题

传统基于SAN的容灾系统基本架构见图1所示,由于生产的存储网络和容灾节点的网络可能不是同时建立,涉及的SAN网络产品可能来自于不同的厂家,并且,由于生产节点和容灾备份节点之间的距离比较远等因素,导致了传统的容灾SAN网络面临严峻的挑战。

3.1 SAN网络融合的挑战

传统SAN网络往往是基于不同的项目和应用进行建造的,因此,一个单位的SAN网络往往包含几家公司的产品,或不同的产品系列,涉及的SAN交换机固件版本一般都不统一,这些都为进行远距离容灾SAN网络的搭建带来了难度。

如果生产节点和备份节点的交换设备来自于不同的厂家,连接起来一方面会面临技术上的挑战,即使技术上没有任何问题,也会面临往后技术支持的问题。连接到一起之后,两边的SAN网络将发生融合成为单一的网络,这时候这个单一的SAN网络到底应该哪个厂商来支持成为了一个现实难点。

当然,如果两边网络具有的某些参数需要调整的话,那技术上的难点也不容忽视。就那目前最流行的Brocade的交换机来看,已经被各大厂商广泛OEM,不同厂牌的Brocade交换机互联是没有问题的,但是,仍然会面临某些参数需要调整的情况,比如:Core PID format或Domain ID参数,为了维持不同版本之间的兼容性可能需要调整,而进行这些参数调整都意味着交换机的端口地址发生变更。对于Windows机器来说,交换机端口地址的变更不会出现问题,但是,很多Unix操作系统都是通过交换机端口地址绑定来增加安全性和可靠性的,如果交换机端口地址发生变更,将必须重新生成磁盘的设备文件等,这不仅需要各个厂家的配合,同时也增加了融合的时间和风险。

因此,SAN网络的融合并不是拿根光纤将两个交换机连接起来那么简单,需要考虑到很多环节,这些环节上的挑战,有时候成为用户容灾系统建设的拦路虎,这成为传统SAN容灾网络建设的第一个巨大挑战。

3.2 整体SAN网络稳定性的挑战

当然,容灾SAN网络建设时必须考虑的另外一个重要问题是中间链路的可靠性和稳定性。中间几十公里甚至上百公里的光纤稳定性会直接影响到整个容灾系统的稳定性。由于传统的SAN网络中没有路由的概念,无论中间的链路多远,连接起来后都将形成单一的Fabric,而每一个Fabric中只能有一个主交换机(Primary switch),来负责整个Fabric的事件协调和冲突检测。如果中间的链路发生短暂的中断,整个网络就自动分裂成两个独立的Fabric,就会发生主交换机的重新选择,并且出现Fabric的重新配置(Fabric Reconfiguration),而这将对生产和容灾节点的业务数据流造成停顿或中断。这是很多用户都不愿意看到,也是不能接受的。但缺乏路由的传统SAN网络就是这样的特性,SAN标准中也是这样定义的。

同时,随着SAN网络的变大,SAN网络中的广播信息(如寄存器状态变更通知--RSCN)等也会影响SAN网络的安定性。在任何SAN网络中,根据发生事件的不同,Fabric控制器都会根据需要发送RSCN通知,从而保障整个Fabric中的所有设备了解最新的变更。而有些设备对RSCN非常敏感,可能会发生服务中断,因此,所有SAN交换机都试图将RSCN控制在最小的范围内。但是某些RSCN必须发送到整个Fabric,这就意味着Fabric越大,风险也越大,并且,如果SAN交换机直接连接距离越远,风险也越难控制。这成为远距离容灾SAN网络建设的第二个巨大挑战。

3.3 容灾成本的挑战

当然,传统容灾也一直需要昂贵的花销,使得中小型企业望而却步,需要容灾而因为成本原因只能躲避容灾。由于传统基于光纤的容灾链路(DWDM/CWDM/SDH/裸光纤等)价格昂贵,同时,容灾涉及的连接设备/技术也价格居高不下,造成了容灾只适用于大型用户,中小企业用户只能期盼技术的进步和价格的下降。这也大大限制了容灾技术的推广和向更广泛的领域发展。

4.现代容灾体系设计新突破

现代的容灾系统不仅仅技术获得了大发展,而且,也越来越走向平民化,使中小企业也能顺利建设自己的容灾网络或通过将来的城域容灾中心来进行数据容灾实现。

4.1 SAN路由技术成为现代容灾体系的核心组件

光纤通道SAN Fabric间路由技术(以下简称SAN路由技术)是SAN技术的一个巨大突破,该技术的诞生填补了传统SAN技术扩展和远距离延伸的空白,使传统SAN容灾网络面临的挑战迎刃而解。我们可以使用SAN路由技术把生产SAN网络和容灾SAN网络连接起来,同时又能使每个Fabric保持相互的独立性,不发生SAN Fabric融合,直接避开了SAN Fabric融合的所有风险和障碍。SAN路由技术给容灾系统带来了如下好处:

・   光纤通道到光纤通道的SAN路由技术实现了SAN Fabric间的无缝连接。在连接不同的Fabric时不要求对现有Fabric的参数做任何修改,避免了更改Fabric交换机参数带来的风险。同时路由器的接入不会对正在执行的IO造成任何影响,简化了容灾SAN网络的建设;

・   SAN路由器在保持不同Fabric的相互独立性的同时,实现了Fabric间的某些资源选择性共享,提高了生产节点和备份节点资源共享的可管理性。提高了容灾SAN网络的可靠性和稳定性;

・   当然,SAN路由技术也突破了239台光纤通道交换机/Fabric的限度,使得大规模SAN网络成为可能;

另外,极大地降低了对不同厂商提供的SAN Fabric服务支持难度。




图3. 典型的现代容灾体系架构

今天,随着SAN路由产品的推向市场,SAN路由技术已经成为容灾系统的核心组件,成为生产SAN网络和容灾节点SAN网络的一座美丽桥梁。图3是典型的现代容灾体系架构,通过Brocade SAN路由器来实现了生产节点和容灾节点Fabric的隔离和选择性设备共享。

4.2 FCIP技术使容灾平民化

随着宽带网络的普及,如何利用传统的宽带网络来实现SAN网络的远距离互连成为一个热门话题,而FCIP隧道服务也应运而生。刚开始大家都使用FCIP来实现广域的SAN网络连接,比如:上千公里的容灾系统建造。但大家也慢慢认识到基于FCIP的容灾具有投资小、实施便捷等优点,因此也逐渐成为中小企业单位实现城域容灾的最佳选择。可以利用原有的IP宽带网络,延伸光纤通道SAN的距离,从而实现容灾SAN网络的互连。图4是典型的基于FCIP的多点容灾架构。




图4. 典型的FCIP容灾架构

上面网络中使用的Brocade FCIP隧道服务具有两个重要的优点。第一个优点是与交换机完全集成。与需要外部网关的链路相比,部署和管理集成到交换机中的FCIP链路更容易、更经济。除了管理更容易之外,更紧密的集成还意味着成本更低,机架占用空间更小。

第二个优点是与FC到FC SAN路由集成。Brocade公司生产的SAN路由器可以实现SAN路由与FCIP的集成,一个端口既是进入骨干Fabric的E_Port,又是一个FCIP端口。这可以防止WAN链路上的故障转换为影响整个Meta SAN的事故。这个优点很重要,因为跟光纤通道网络相比,一般的IP网络和具体的WAN的可靠性都更低一些。一条不稳定的WAN链路可能会干扰骨干Fabric,但是已经将这些干扰与所有边缘Fabric隔离开,因此除了实际穿越不稳定WAN的那些主机/存储设备“对话”之外,没有别的主机/存储设备“对话”会受到影响。FCIP服务和SAN路由技术的结合,对校园网和拥有完整带宽的中小企业来说最为有效,可以提供稳定可靠、价格低廉的容灾平台,已经逐渐成为容灾平民化的重要推动力。

4.3 城域容灾中心推动容灾技术的普及

FCIP隧道服务的引入虽然大大降低了容灾的成本,但管理的复杂性、系统设计和远距离容灾节点建立成本等仍然让很多用户没法享受容灾的好处。基于该需求,国内外的一些政府机构或电信企业都在考虑建立城域容灾中心来普及容灾的技术。在进行城域容灾中心设计时必须考虑各个数据中心的现状,建议采用如下的接入技术。




图5. 城域容灾中心的典型架构

4.3.1 SAN接入技术

对于需要实现同步容灾的系统,如:社保、医保系统或一些中小型企业的关键业务数据,必须保证主中心的数据和容灾中心的数据同步,从而确保一旦主中心的数据系统故障,容灾中心能够确保数据的完整性。另外,对于需要大容量备份的系统,依然可以通过SAN网络来确保备份的高效和稳定。为此,建议如下的三种接入技术:

A. DWDM或Dark Fibre的接入

接入方式(A)可以通过高速的DWDM或Dark Fibre直接接入容灾中心的SAN网络。可以达到客户数据和容灾中心数据完全同步的需要,确保数据的一致性和灾难后的快速恢复。

B. SAN IP接入(FCIP)

如果用户的IT中心已经拥有了SAN架构,但不能提供象DWDM/Dark Fibre等的高速接入界面,也可以通过已搭建的快速以太网络接入容灾中心,从而充分利用现有的资源,确保系统的可靠。

C.SAN iSCSI接入

如图5接入方式(C)所示,如果用户IT中心没有SAN架构,或者仅能提供iSCSI等的接入界面,也可以充分享受iSCSI的接入技术,确保低成本的同时,又可以享受SAN网络提供的优势,满足了客户的实际需求。

4.3.2 城域IP接入

对于没有建立SAN网络的用户,建议暂时采用远程WAN连接到容灾中心。一旦用户有了进一步的需求,需要升级到SAN连接,只需要客户提出申请,由城域容灾中心将客户的连接转移到FC Router就可以轻松享受SAN的IP互连。当然,如果客户需要转移到高速的SAN连接,客户必须从电信公司申请或自己铺设DWDM/Dark Fibre的连接。然后,城域容灾中心也可以轻松完成转换客户的连接到高速的SAN网络。图5接入方式(D)就是典型的IP接入,当然具体的接入方式可以是ISDN、ADSL、DDN、Gigabit Ethernet、ATM或Frame-Relay等,这些接入方式我们在此一起称做城域IP接入。

4.3.3 几种接入方式的对比

不同的接入方式,不同的带宽能力,将决定采用的容灾方式和容灾能力,应该根据的实际情况和投入能力来决定最终和容灾中心的连接方式,不能一概而论。当然,从容灾中心的建设角度来讲,上面提供的接入模型已经可以满足各种终端用户的需求,可按需进行适应和调配。

下面的表格对上面提及的四种接入方式进行对比,以期能建立一个清晰的认识和对不同的用户选择接入方式提供很好的参考。   SAN接入 城域IP接入
DWDM/Dark Fibre FCIP iSCSI IP接入
优势 高速,可以实现数据实时同步镜像,数据没有滞后,可以通过卷管理软件等来实现数据管理,并可实现城域LAN-Free备份 速度依赖于IP连接速度,易于扩展,可以实现数据的分时同步,一般不建议建立镜像,因为可能会影响速度.易于实现集中备份 廉价的SAN接入方式,不需要购买任何SAN设备,只需要在服务器端安装普通的Gigabit网卡,就可以实现SAN共享 可以通过VVR实现数据的异步复制和远程数据集中备份,通过传统的IP连接,成本低,易于实施
客户适用 客户端需要有SAN架构支持,并要有高成本的DWDM / Dark Fibre支持,成本相对最高。适合于电信银行等关键业务 客户端需要SAN支持,但是不需要DWDM / Dark Fibre连接,成本较前一种方法低一些。适用于非关键业务系统的容灾业务 客户端不需要SAN网络,连接到容灾中心也只需要普通的IP网络,成本低 成本最低,可以升级到SAN接入,适用数据量小的要求很低的用户


4.4 现代容灾技术助力容灾在电信业的应用

对于电信企业来说,数据容灾已经随着企业信息化的进程而融入了电信企业运营的血液中。假如发生了数据的丢失,特别是计费数据和CRM数据等,损失将是惨重的,实际在国内的某几个运营商都曾经为数据丢失而痛心疾首过。

但是,我们不得不正视的现实时,由于技术和成本等方面的制约,电信企业的某些业务或某些电信企业原来都在容灾门前徘徊。随着容灾技术的进步,特别是SAN存储网络路由技术的推出和FCIP与路由技术的完美联姻,使得容灾已经不在要不可及,国内的很多企业,特别是电信企业已经纷纷着手打造企业全面的容灾系统。下面是国内某联通公司的容灾架构,是电信企业典型的容灾架构。通过该容灾体系的建立,为电信企业带来了如下的好处:




图6.国内某联通公司的容灾架构

・   通过DWDM或暗光纤建立了快速的容灾网络,实现了生产中心和容灾中心数据的实时同步,保障了灾难发生时数据的完整性;

・   引入了SAN路由技术,实现了生产中心和容灾中心逻辑上的隔离,部分设备的共享,大大提高了容灾系统的稳定性和可靠性;

・   通过SAN的广域连接技术,使得跨地域容灾轻松实现,保障了容灾系统对灾难抵御的完整性;

・   当然,对某些数据可靠性要求相对较低的数据,可以采用FCIP和SAN路由结合来作为传输链路,大大降低了总体的容灾成本,也符合大家倡导的信息生命周期(ILM)的思想;

・   通过SAN路由技术的引入,大大扩展了SAN的扩展能力,为将来全国容灾的整合打下了良好的基础,也保障了今天投资的有效性。

另外,容灾立法的呼声越来越高,许多国家在这方面已经作出了榜样,如:韩国政府规定银行、电信、证券、保险等行业必须在灾难发生后3小时内恢复商务功能;英国政府从2003年开始筹备具体的立法细则,来约束关键业务部门能够建立良好的容灾体系。在此推动下,我国某些地方政府也开始探讨容灾的实施方式,这些都为电信企业建立大型的容灾中心来提供对外服务推波助澜,从而为电信企业实施容灾找到了更多支持。

5. 容灾技术的未来

目前的容灾系统大多基于磁盘阵列实现,近两年被业界吵得沸沸扬扬的一个趋势就是存储应用的网络化。大家希望通过存储应用的网络化来降低存储本身的压力,充分发挥存储网络的能力。当然,将存储应用(比如:数据复制/镜像应用)迁移到存储网络上来,还可以大大减少不同厂商之间存储的互操作性,让用户有更多的选择余地。很多公司已经在这条道路上努力开拓着(如Brocade公司的FAP 7420存储应用平台等),但离开真正商业运用还需要时日,让我们拭目以待。

另外,到目前为止,我们前面设想的城域容灾中心也只是一个理想模型,要建立真正的城域容灾中心,需要整个社会的参与和相应法律条款的支持,没有这些基本的保障,城域容灾中心将无法生存。我们也期待着城域容灾中心的早日到来,因为城域容灾中心的建立将意味着城域容灾技术的真正普及。

本文可以从 [url]http://www.cqvip.com[/url]全文下载。
本文已经发表在《现代通信》2005年第2期。

你可能感兴趣的:(职场,休闲,城域容灾体系)