彻底解析连续数据保护CDP (上)

共享最好的CDP扫盲资料。

【转帖】彻底解析连续数据保护具体面貌(上) 

连续数据保护(CDP)是迄今出现过还原点选择弹性最大的数据保护产品,其效益在于极精细、无时间点限制的快速还原。本期比较四款CDP产品,让大家更了解CDP的相关运作及趋势。 

iThome3年前第一次介绍连续数据保护(Continuous Data ProtectionCDP)技术以来,各主要储存厂商均将CDP纳为旗下储存产品的一环,成为足堪企业第一线应用的成熟解决方案。这次我们将以4款当前市场上主要CDP产品为例,介绍相关的运作与应用。 

连续数据保护:打破传统备份周期概念,消除备份窗口束缚 
连续数据保护技术可像录像机一般,持续记录磁盘驱动器过去每个时间点下的状态,因此可摆脱传统数据保护的还原点概念,提供无限制的还原精细度。 

3
类部署架构 
CDP
有三种不同的部署架构,分别是主机端部署架构、网络端部署架构、储存端部署架构,三种架构都有其不同的优点,以下仔细为你说明之。 

4
CDP产品的10大比较 
目前台湾市场上最主要的CDP产品便是DataCore TravellerEMC RecoverPointIBM TSM FastBackFalconStor CDP4款。以下我们分别从几个面向出发,简单比较4款产品在架构、运作与操作等方面的异同。 

CDP
产品报导─DataCore Traveller CPR 
Traveller
CDP功能,是建立在DataCore SANSymphony储存虚拟化平台上的一种延伸应用,可为前端服务器指定磁盘区提供连续、无还原时间点限制的还原能力。

CDP
产品报导─EMC RecoverPoint/SE 3.0 
EMC RecoverPoint
可分标准版与SE两种版本,SE版是与Clariion储存设备搭售的版本。依应用环境又可分为针对本地端的CDP、跨广域网络的CRR,以及兼顾本地端与异地端的CLR三种版本,其建置架构弹性大,平台与应用程序支持广泛。 

CDP
产品报导─FalconStor CDP 
FalconStor CDP
原本是复制结合快照的数据保护产品,其最新版本添加了连续数据保护功能,可连续撷取受保护磁盘的写入I/O,并提供不受时间点限制的任意还原能力。 

CDP
产品报导─IBM TSM FastBack 
TSM FastBack
的架构与传统备份软件相同,除了传统的时间驱动排程机制外,还可提供连续数据保护(CDP)功能,提供无时间点限制的还原能力。 


连续数据保护:打破传统备份周期概念,消除备份窗口束缚 
连续数据保护(CDP)是迄今出现过还原点选择弹性最大的数据保护产品。 

传统的备份机制是一天产生一份复本,还原点是以「天」为计算单位,若原始数据发生损坏,需使用复本还原时,用户必须以「天」为单位来选择还原点,也将损失以「天」为单位的数据量;磁盘快照则可每隔数小时产生一份复本,还原点可达小时等级,用户可以小时为单位来选择还原时间点。 

CDP产品则能持续追踪与记录数据的「每次」异动状态,因此能提供无限制的还原能力,用户可将数据还原到过去任何一个时间点,选择的精细度甚至可达秒以下。 

摆脱保护周期的既定概念 
依储存网络工业协会(SNIA)的定义,CDP必须具备3个特性: 

1�{数据的更动必须连续的被记录与追踪。 

2)所有数据的变化历程都被保存在与主储存地点不同的独立地点。 

3)资料还原点(Recovery point objectivesRPO)是任意的。 

1)和(3)规定的是CDP基本特性,而且必须先要有(1)的对数据异动的连续追踪与记录,才能达到(3)的任意还原点目的。 

2)则是数据保护产品的基本要求,也就是复本必须独立保存,而不能与主储存放在一起,以免产生连带损失的风险。 

CDP
与传统数据保护机制最大的差异,便是启动机制的不同。备份或快照都是藉由时间点来作为启动作业的机制,使用者必须周期性的启动备份或快照,以便制作复本,因此当需要还原时,数据所能回复的状态也会受到备份周期设定的限制,使用者只能还原到启动备份作业的那几个时间点。 
CDP则是以系统的I/O活动来作为启动机制,透过持续地追踪系统磁盘区块的状态,CDP可实时地捕捉并复制应用程序对磁盘区块的每笔写入动作,并记录每个动作的时间,从而完整保存了系统存取变动历程。因此这也允许使用者将数据回复到指定的任一时间点状态,从而完全取消了备份周期的限制。 

换句话说,传统备份与快照可比拟成照相机,记录的是数据在某个时间点下的状态,即使多做几次备份或快照,也只是得到数据在一个个不同时间点下的状态;而CDP则类似摄影机的录像,可记录数据在过去一段时间内的「变动历程」,用户可像录像倒带一样,任意将数据倒回任一个时间点。 

CDP
的效益:极精细、无时间点限制的快速还原CDP不只是单纯的备份或是复制产品,而是一个整合了数据备份、复制与还原的综合解决方案,透过CDP,我们可以得到以下效益: 

「无备份窗口」的自动连续数据备份 
不需要停机即可进行备份作业,数据的备份在系统执行存取动作时就已自动完成数据写入磁盘的同时,也被复制到后端,因而消除了备份窗口。除了初始的安装设定外,后续其余的动作均可由CDP产品自动完成,也减轻了管理人员的负担。 

极精细的还原选择 
用户可将指定的数据,如单一档案、档案夹、逻辑磁盘区(Volumn)或应用程序(如邮件、日志文件或数据库)回复到过去任何一个时间点下的状态。某些CDP产品除可让使用者以时间点作为还原的参照基准外,也可以依照事先定义的特殊事件标记作为还原基准。 

快速的还原作业 
由于CDP是以磁盘为基础的技术,执行数据复制时是以异动的档案或者是区块来进行,因此只需很短的时间就能完成,还原时也能快速的将数据回存到原系统中。 

不过快速的备份与还原并不是CDP的主要卖点,其它以磁盘为基础的数据保护产品如远程复制或快照,都能达到类似的效果,因此CDP的真正价值是在于允许极精细、任意的还原点选择方面,这是目前其它技术均办不到的功能。 



3 类部署架构 
CDP
的基本原理是「复制每笔写入数据,并附加时间标记(copy on write + time stamp)」,另外还要求复本必须独立存放。这样的运作原理将需要几个不同组件的配合: 

1)独立的复本储存区。 

2)用来监控来源端磁盘状态,并复制任何写入数据的处理机制。 

3)将写入数据的复本送往复本储存区的传输通道。 

4)为每笔数据复本加上时间戳记的机制。 

其中(1)(3)是所有产品都相同的,独立的储存区即为CDP系统指定的磁盘区,而数据传输信道则通常是FCiSCSISAN 

至于(4)也是所有产品都相同,每个产品架构中都会有一套负责为数据加上时间戳记,以及设定、管理用的主控服务器。通常是由CDP系统主程序所在的服务器负责,当服务器收到前端送来的数据会,就为每笔数据加上时间戳记,然后送到复本储存区个别存放。 

因此会影响产品架构的就只有(2数据复制机制,不同的复制机制,也就构成了3类不同架构的产品。 

主机端(Host-Based 
在需要CDP保护的服务器上安装代理程序(Agent),让代理程序负责监控磁盘与复制异动数据的工作。代理程序会捕捉每一笔写入磁盘的数据,复制一份并加上时间戳记后放入缓冲区,再透过网络送到CDP服务器指定的储存位置。 

这种架构十分类似传统备份软件,限制也相同,每一台要保护的主机,都需个别安装代理程序,而代理程序除了会影响主机的效能外,还得考虑对不同作业平台与应用程序的兼容问题。 

网络端(Network-Based 
即利用储存局域网络设备来执行复制写入数据的动作。某些高阶的SAN交换器提供了复制功能,可将前端服务器经某一个端口写入后端磁盘的数据流,加以复制后,再送到指定的目的端磁盘区。因此CDP产品只要能支持这类SAN交换器的复制协议,如Cisco MDS 9000系列的SANTapBrocade AP-7600BSAS协议等,就能持续接收交换器取得的写入数据复本,CDP产品只需再为接收到的每笔写入数据加上时间戳记,并个别存放即可。 

这种架构优点是数据复制作业与前端主机无关,无须部署代理程序,因此也没有兼容不同应用程序或操作系统的问题。而且一台交换器就能同时复制多台前端主机的写入数据,只要前端主机是透过这台交换器存取后端磁盘区即可。 

但显然的,用户必须拥有这类SAN交换器才能享用这种架构带来的好处,而这类SAN交换器又十分昂贵,实际上导入的用户不多,因此能采用这种CDP部署架构的用户也很少。 

储存端(Storage-Based 
即利用储存设备来执行复制写入数据的动作。某些中高阶SAN磁盘阵列,或储存虚拟化平台均能提供复制功能,可为SAN环境的磁盘区建立镜像复本。 

建立镜像群组后,磁盘阵列控制器或储存虚拟化平台,便会维持来源端磁盘与镜像磁盘的一致,来源端磁盘的任何写入数据,都会被复制到镜像磁盘上。利用这种特性,只要CDP产品能兼容于这种磁盘阵列或储存虚拟化平台的复制机制,就能充当镜像群组中接收复本数据的目的端设备,持续接收来源端磁盘的复制复本,而CDP产品只需为接收到的每笔写入数据,加上时间戳记并个别存放即可。 

这种架构的优缺点与网络端架构相同,均为无代理程序架构,而限制也相同用户必须拥有支持镜像机制的SAN储存设备,且CDP产品也须能支持这种SAN储存设备才行。 

当前的CDP产品概况 
过去3年来,台湾市场上先后曾出现过至少7CDP产品,最早的是IBMCDP for File,接下来陆续出现DataCore TravellerEMC RecoverPointCA XOsoft Enterprise RewinderHPContinuous Information CaptureCIC)、FalconStorCDPIBM TSM FastBack 

不过经过几年的发展后,目前市场上只剩下IBMEMCDataCoreFalconStor4家厂商。CA台湾分公司大幅改组后,目前在XOsoft Enterprise Rewinder销售代理方面的状况仍不明朗。另外一些既有的产品也发生了变化,原来EMC1RecoverPointHP CIC同样都是来自Mendocino的技术,但Mendocino的产品后来被证明存在一些不足,因此EMC实际销售的RecoverPoint2版以后产品,是改用Kashya的技术为核心,目前已持续更新到3.0 SP1版。 

至于HPCIC的态度仍然不明朗。该公司网站上仍能找到CIC产品讯息,但自从20074月发布的CIC 1.4版后,已有18个月没有后续更新。 

至于FalconStor CDP原本是一套复制结合快照的产品,但在今年也纳入了CDP连续数据保护功能。而IBM则透过并购FilesX,取得了具备CDP功能的Xpress Restore产品线,补强了IBM原先功能有限的CDP for File 

3
CDP应用架构


4
CDP产品的10大比较 
目前台湾市场上最主要的CDP产品便是DataCore TravellerEMC RecoverPointIBM TSM FastBackFalconStor CDP4款。以下我们分别从几个面向出发,简单比较4款产品在架构、运作与操作等方面的异同。 

引进CDP产品时,需考虑的因素与一般数据保护产品差不多,同样都包括销售方式、部署架构、支持平台、储存媒体配置方式、管理接口,以及其它附带功能等。 

1.
产品销售与部署架构 
产品销售方式与部署架构,会影响到用户导入产品时的建置程序与总体开销。CDP基本上是软件产品,DataCore TravellerIBM TSM FastBack也都以纯软件方式销售,用户必须自行搭配服务器安装程序;而EMC RecoverPointFalconStor CDP则是捆绑了特定硬设备,以预载了软件的应用服务器形式出售,用户虽然失去选择弹性,但也省下安装的麻烦。 

在技术方面,4款产品同样都属于区块型的CDP,但在部署架构上各有差异。其中较单纯的是纯粹主机端部署的IBM TSM FastBack与纯粹储存端架构的DataCore Traveller 

DataCore Traveller
是建立在DataCore SANSymphony储存虚拟化平台上的产品,属于储存端架构。只要将Traveller控制的磁盘区,与SANSymphony控制的磁盘区建立镜像复制群组即可。但限制是用户必须先建置好SANSymphony,且所有前端主机都必须存取SANSymphony提供的虚拟磁盘区,才能纳入Traveller的保护。另外要注意的是,就整套架构「SANSymphonyTraveller」来说是属于in-band架构,但若只看Traveller本身,则属于out of bandTraveller服务存在与否,并不会影响到SANSymphony的运作。 

IBM TSM FastBack
则是一套十分标准的主从式备份软件,依靠安装在前端被保护主机上的代理程序,负责驱动将数据复制到后端的动作,属于标准的主机端架构。 

至于EMC RecoverPointFalconStor CDP则较为特别,可同时支持主机端、网络端与储存端3种架构。但两种产品对不同架构的支持又各有限制。 

EMC RecoverPoint来说,最基本的部署是主机端架构,也就是透过在前端主机上部署Splitter代理程序,负责监控磁盘状态与复制写入数据。若用户拥有Brocade AP-7600Cisco MDS 9000系列光纤信道交换器,且需要保护的主机是透过这些交换器存取后端的磁盘驱动器,则可采取网络端架构,让交换器执行将前端主机写入数据复制到RecoverPoint服务器。另外,若用户拥有Clariion储存设备,且需要保护的主机是以Clariion作为储存区,也可让Clariion的控制器负责执行将数据复制到RecoverPoint的工作,构成储存端部署。 

FalconStor CDP
基本的部署方式是在前端主机上安装DiskSafe代理程序,另外也支持透过Cisco MDS 9000系列光纤信道交换器的网络端部署,以及透过FalconStor CDP-X储存虚拟化平台的储存端架构。 

2.
平台与应用程序支持 
不同的部署架构对平台与应用程序的支持性有很大的影响,事实上,只有主机端部署架构,才需要考虑支持性的问题。就网络端架构来说,无论前端服务器的作业平台或应用程序类型为何,只要是透过兼容品牌、型号的交换器存取后端磁盘驱动器,则交换器就能执行数据复制工作。储存端架构也是一样,无论前端服务器是执行哪一种操作系统或应用程序,只要该服务器是存取特定品牌、型号的储存设备或储存虚拟化提供的储存空间,储存端就能执行将数据复制到CDP服务器上的动作。 

因此网络端与储存端架构的CDP产品,是与前端主机执行的平台/应用程序无关的,换句话说,就是能支持任何平台与应用程序。 

至于主机端架构,由于必须在前端主机上安装代理程序,因此就会面对代理程序的支持性问题。 

3种采用主机端架构的产品中,以EMC RecoverPointSplitter代理程序支持性最广,可支持WindowsAIXSolaris等操作系统,而FalconStor CDPDisksafe代理程序,虽只能支持Windows,但也能透过操作系统内建的逻辑磁盘区管理员(LVM)支持UnixLinux(但这种方式只能执行FalconStor CDP快照模式,不能执行连续数据保护的CDP Journal模式)。IBM TSM FastBack的支援性则较窄,只支援Windows平台。 

3.
储存媒体配置管理 
在储存媒体的配置管理方面,IBM TSM FastBack与传统备份软件一样,都是把存放复本的空间构成容器(Repository),前端来自不同服务器的复本数据,都是统一放在容器中。任何FastBack服务器所能存取的磁盘区皆可充作容器。 

其它3款产品基本上都是基于SAN与镜像复制的架构,但又各有差异。 

DataCore Traveller
基本上是一套特殊版本的SANSymphony,因此也具备虚拟储存功能,可把自身介接的储存空间构成储存池,然后再依需要仿真成不同容量的虚拟磁盘区,挂载给自身或其它主机使用。设定时,Traveller必须为前端每个需要保护的磁盘区设定1个缓冲磁盘区(Buffer)与1个参考磁盘区(Reference Volume),被加上时间戳记的数据,将先进入缓冲磁盘区,过期后再退到参考磁盘区。 

EMC RecoverPoint
本身是一套应用服务器,但其内部磁盘空间是专用于存放自身的系统,因此用户必须透过iSCSIFC SAN信道配置磁盘区给RecoverPoint使用。RecoverPoint的储存架构有些类似DataCore Traveller,加上时间戳记的数据将先进入Journal磁盘区,当超出Journal磁盘区容量后,旧数据将会退到另1Replica磁盘区。 

FalconStor CDP
则比较特别,其本身是一套内建大量磁盘空间的应用服务器,因此无须透过外界取得空间。设定时必须先为前端每个需要保护的磁盘区,在CDP服务器上设定一个镜像磁盘,只要前端磁盘有任何异动,异动区块就会被复制到CDP服务器的镜像磁盘。接下来的作业就依不同模式而定,普通的快照模式下,镜像磁盘将会忠实地保持与前端磁盘的同步,新状态将覆盖旧状态;若启动CDP Journal模式,则CDP服务器就会替前端送过来的每笔数据将上时间戳记并个别存放。 

4. Thin Provisioning
CDP的搭配 
建置CDP时,一大困难便是判断需要保留的带有时间戳记的数据量多寡,保留的量越多,则还原时能选择的「连续保护」时间范围也越长,但这也越耗磁盘空间,在数据还没成长到一定程度前,分配太大的空间会造成浪费。但若一开始设定的空间不够,将使得保留的数据量太少,造成还原时的麻烦。 

所幸近来逐渐普及的Thin Provisioning将可解决这个问题。在Thin Provisioning技术下,分配给前端主机的容量,和后端实体储存空间彼此脱钩分配给前端主机的空间都是「逻辑容量」,和后端实体储存空间无关。当写入的数据量占满实体容量后,系统再逐次分配实体空间到这个逻辑磁盘区中,这也就是「按需分配」的意义,只有真的写入了,才会分配到相对应的容量。 

前述4款产品中,DataCore TravellerFalconStor CDP都内建了Thin Provisioning技术,用户可以直接的启用这个功能。另2款产品则需搭配含有Thin Provisioning的储存设备,才能具备类似的功能。 

5.
保护群组设定 
TSM FastBack
的保护设定与传统备份软件大致相同, FastBack服务器的主控台可以看到网络上所有安装代理程序的主机,管理者只要选择这些主机建立保护群组、指定复本储存区域即可。 

Traveller
RecoverPointFalconStor CDP的保护群组则是镜像群组概念,也就是把欲保护的前端磁盘区与CDP磁盘区构成镜像。值得一提的是,RecoverPoint的保护群组采用「一致性群组」概念,可把同一应用程序所存取的多个磁盘区纳入到一个群组中,用以确保撷取、复制写入数据时的一致性。 

6.
排程备份与CDP的结合 
CDP
一执行以后,除非删除群组设定、停止代理程序,否则就会一直执行下去。不过TSM FastBack提供了特别的区块式排程备份与CDP混合搭配的功能,用户可对一个群组同时执行CDP与区块式备份,因而提供了更大的弹性。如用户可设定在数据存取最频繁的上班时段启动CDP,记录来源磁盘的每一次异动。而下班后的时段,由于存取频率低、数据异动小,可停止执行CDP,改为每隔数小时启动一次增量备份,如此就能兼顾还原弹性与资源消耗。 

FalconStor CDP
也可对同一个来源磁盘,混合使用连续式保护的CDP Journal与排程启动的快照两种保护模式,不过两种模式的运作是各自独立的,CDP Journal不能停止。透过两种模式的混用,用户可一边执行CDP Journal取得无限的还原点,同时间又搭配应用程序动作定期执行快照,确保每隔一段时间就能得到一份确定可用的快照复本。 

RecoverPoint
虽也能提供排程启动的快照模式与连续的CDP模式,但每个群组只能择一使用,不能混合搭配。 

7.
还原操作 
CDP
产品基本上有两种还原方式,第1种是把复本还原到原始的前端磁盘区,这时候前端磁盘区就好像是时光回溯一样,被Roll back到指定的时间点。 

2种模式是将指定时间点构成复本磁盘区,然后挂载到指定主机上成为新磁盘区,用户可从中寻找特定的数据再回存到原始磁盘区。 

4
款产品中只有RecoverPoint支持回滚到原始磁盘区的模式,不过这会改变整个磁盘区的状态,若用户只是想找出特定档案还原,或是整个原始磁盘区损毁,没得「回滚」时,将复本数据构成新磁盘驱动器挂载的第2种模式较为适用,所有4款产品都能支持这种模式。 

另外TSM FastBackFalconStor CDP虽然都支持由前端自行发起还原的功能,可无须透过CDP服务器还原,但2款产品的客户端还原模式都只适用于快照保护模式,不适用于CDP还原,若需要还原CDP,还是得登入CDP服务器的主控台才行。 

CDP
的最大优点是还原点是无限的,但对于管理者来说,要从这么多还原点中找出需要的时间点,也有许多困难,我们可以把这比拟为要从录像带倒带中找出特定的1格画面一样,若能事先对特定时间点的视讯做出标记,倒带时就能依照这个标记找出需要的影像。 

Traveller
RecoverPoint都支持了预先在数据流中做出标记的还原方式,也就是利用Script或应用程序内建功能,在特定时间向CDP服务器发出一个时间标记,以便管理者执行还原时可识别这个事件点。 

譬如管理者可在前端主机更新修补程序前,向CDP发出一个标记信号,日后若前端系统要回到更新以前的状态,就可直接回到这个标记点。另一种常见的标记应用是针对数据库,管理者可定期为数据库执行清除缓冲区、将所有数据写入磁盘的动作,然后向CDP发出标记指令,日后还原数据库时,可直接回到这个标记时间点,确保数据库复本立即可用,免除数据库执行相当费时的还原回补数据动作。 

8.
监控与管理 
CDP
由于必须持续不断的传输并写入保存前端磁盘的异动区块数据,因此传输信道与储存系统的负荷均相当重,若用户环境中同时有多台前端主机执行CDP作业,则对整个环境的I/O流量监控便成为相当重要的工作,4款产品中,TravellerRecoverPointFalconStor CDP3款都提供了流量监控功能,前2者还是图像式接口,而后者则是文字式接口。 

至于在进阶管理方面,4款产品都只提供基本的日志记录功能,没有更进一步的报表制作能力,必须依靠储存资源管理软件支持。 

9.
避免本地端复本损毁:远程复制 
CDP
像任何数据保护产品一样,是用来保护前端主机的数据,目的是提供一份复本以备不时之需,然而存放在CDP上的复本也有损毁的可能,一旦发生这种情况,前端的主机也就失去了保护,出状况时将没有复本可用。 

因此较讲究的用户通常会要求除了在本地端保有1份复本外,在异地端也同步维持一份复本,进一步提高复本的可靠性。为应付这类需求,许多数据保护产品都能提供远程复制功能,将本地端的复本复制一份送到远程保管,CDP产品自然也不例外,前述4款产品中,RecoverPointFalconStor CDPTSM FastBack都内建了远程复制功能,可将本地端CDP服务器的数据,透过WAN送到远程另一台CDP服务器。不过TSM FastBack远程复制的传输是透过FTP协议,安全性上较有疑虑。 

10.
避免出现保护空窗期:高可用性机制 
前面提到的远程复制,只是在远程保持一份复本,以备本地端复本损毁时仍有复本可用。但从另一方面来看,如果本地端CDP服务器损毁,即使远程还有一份复本备用,但直到本地端CDP服务器修复并恢复运作前,前端主机将得不到任何保护,也就是说会出现数据保护的空窗期。而且本地端CDP服务器损毁后,远程复制也会中断。 

会选择利用CDP,而不是传统备份来提供保护,通常都是执行关键性任务的主机,显然不允许出现数据保护空窗期。要解决这种困难,就必须建立高可用性机制,以在CDP服务器失效时,仍有备援的CDP可接手工作,避免空窗期出现。 

TSM FastBack外,TravellerRecoverPointFalconStor CDP都能支持高可用性机制,其中TravellerFalconStor CDP采取的是让两台CDP服务器为一个前端来源磁盘建立交错镜像(Cross Mirror)的方式,如此当某台CDP服务器失效时,来源磁盘仍能透过另一台CDP服务器继续获得保护。不过这种方式只适用于2个节点以下的环境,更多节点时,连接关系将会变得非常复杂。 

RecoverPoint的高可用性,则是让本地端的多台RecoverPoint服务器构成丛集,当某台RecoverPoint服务器失效时,其它RecoverPoint服务器将会自动接手,继续处理原由失效那台服务器负责的工作,让前端主机能获得持续保护。EMC出货时也是以2RecoverPoint服务器为基本架构,最大则能有8组服务器构成丛集,可适用于更大的应用环境。不过这种方式需要共享储存设备的支持才能执行,而交错镜像则不需要共享储存设备。 


你可能感兴趣的:(EMC,cdp,DataCore,FalconStor,RecoverPoint)