容灾介绍

1. 容灾相关概念
1.1 容灾定义
容灾(Disaster Tolerance),就是在灾难发生时,在保证应用系统的数据尽量少丢失的情况下,维持系统业务的连续运行。
和容灾比较容易混淆的概念有容错和灾难恢复。容错是指在计算机系统软硬件发生故障时,保证系统能继续运行的能力,主要通过硬件冗余和错误检查等技术来实现;容灾是通过系统 冗余、灾难检测和系统迁移等技术来实现。灾难恢复是指灾难发生后,系统恢复正常运行的能力;而容灾指灾难发生时保持系统不间断运行的能力。
1.2 容灾分类
容灾可以区分为离线式容灾(冷容灾)和在线容灾(热容灾)两种类型。
离线式容灾主要依靠备份技术来实现。首先通过备份软件将数据备份到磁带上,然后将磁 带异地保存、管理。数据的备份过程可以实现自动化管理,整个方案的部署和管理比较简单,投 资较少。缺点在于:系统的数据恢复较慢,备份窗口内的数据丢失严重,实时性差。对 RTO(Recovery Time Objective)和 RPO(Recovery Point Objective)要求较低的用户可以选择这 种方式。
在线式容灾中,源数据中心和灾备中心同时工作。数据在写入源数据中心的同时,实时地被复制传送到灾备中心。在此基础上,可以在应用层进行集群管理,当生产中心遭受灾难、出现故障,可由灾备中心自动接管并继续提供服务。应用层的管理一般由专门的软件来实现,可以代替管理员实现自动管理。在线容灾可以实现数据的实时复制,因此,数据恢复的RTO 和 RPO 都可以满足用户的高要求。因此,数据重要性很高的用户都应选择这种方式,比如金融行业的用户等。实现这种方式的容灾需要很高的投入。
容灾备份系统按照灾难防御程度的不同,可分为数据容灾和应用容灾。数据容灾是对应用 系统数据按照一定的策略进行异地容灾备份,当灾难发生时,应用系统暂时无法正常运行,必须花费一定时间从灾备中心恢复应用关键数据至本地系统以保证业务的连续性和数据的完整性 ,因为异地容灾备份系统只保存了灾难发生前应用系统的备份数据 因此数据容灾可能会产生部分数据丢失。应用容灾是在异地建立一个与本地应用系统相同的备份应用系统,两个系统同步运行, 当灾难发生时,异地系统会迅速接管本地系统继续业务的运行,不需要中断业务,这样使得应用 系统使用者察觉不到灾难的发生。应用容灾比数据容灾防御灾难破坏能力要强,它能够更好地保 持业务的连续性和数据的完整性,而数据容灾会出现业务的暂时中断,需要花费一定的时间后才 能重新维持业务的连续性,并且可能产生部分数据的丢失。
1.3 容灾等级
数据容灾备份是通过在异地建立和维护一个存储备份系统,利用地理上的分离来保证系统 和数据对灾难性事件的抵御能力。
根据对灾难的容忍能力、系统恢复所用的时间及数据丢失的程度,数据容灾备份系统可以 分为七个等级。
第 0 级:本地数据容灾。即只能在本地进行数据备份,数据本地保存。当灾难发生时,只 有很低的灾难恢复能力,而且无法保证业务的连续性。
第 1 级:本地应用容灾。当因磁盘损坏等灾难发生时,系统能够迅速切换,保证业务的连续性。
第 2 级:异地数据冷备份。将本地关键数据进行备份,并送往异地保存。当灾难发生时,对系统关键数据进行恢复。该级别的数据备份成本低,但存储介质难管理,当灾难出现时,损失 的数据量大。
第 3 级:异地异步数据容灾。在异地建立一个数据备份站点,通过网络采用异步方式进行数据备份。当灾难发生时,利用备份站点的数据进行恢复。它与第 2 级别的灾难容忍程度相同, 但它采用网络进行数据复制,两站点数据同步程度高。
第 4 级:异地同步数据容灾。在异地建立一个数据备份站点,通过网络以同步方式进行数据备份。当灾难发生时,数据丢失量比第 3 级小,但与第 3 级存在同样的问题,就是数据恢复 速度慢,无法保证业务连续性。
第 5 级:异地异步应用容灾。在异地建立一个与源应用系统完全相同的备用系统,并采用异步的方式进行数据同步。当灾难发生时,备用系统接替源问题系统继续工作,但会存在少了数 据丢失。
第 6 级:异地同步应用容灾。在异地建立一个与源应用系统完全相同的备用系统,并采用同步方式进行数据复制。当灾难发生时,备用系统完全接替源问题系统进行工作,并且可以实现 数据零丢失。
1.4 容灾技术指标
从技术上看 衡量容灾系统有三个主要指标: RPO、 RTO 和备份窗口 (BACKUP WINDOW) [8-9]。
1、 RPO(Recovery Point Objective),即数据恢复点目标。主要指的是业务系统所能 、 ( ) 容忍的数据丢失量,在同步数据复制方式下, RPO 等于数据传输时延的时间;在异步数据复制 方式下, RPO 基本为异步传输数据排队的时间。
2、RTO(Recovery Time Objective),即恢复时间目标。主要指的是所能容忍的业务停 、 ( ) 止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。RTO 描述了恢复过程需要花费的时间。例如:假设在时间点 t1 启动恢复过程并且在时间点 t2 完成恢 复,那么 RTO 就等于 t2-t1。RTO 值越小,代表容灾系统的数据恢复能力越强。
RPO 针对的是数据丢失,而 RTO 针对的是服务丢失,二者没有必然的关联性。RTO 和 RPO 的确定必须在进行风险分析和业务影响分析后根据不同的业务需求确定。对于不同企业的 同一种业务,RTO 和 RPO 的需求也会有所不同。 RPO 与 RTO 越小,系统的可用性就越高, 当然用户需要的投资也越大。目前,国际上通用的容灾系统的评审标准为 Share78:
(1) 备份/恢复的范围;
(2) 灾难恢复计划的状态;
(3) 业务中心与容灾中心之间的距离;
(4) 业务中心与容灾中心之间如何相互连接;
(5) 数据是怎样在两个中心之间传送的;
(6) 允许有多少数据被丢失;
(7) 怎样保证更新的数据在容灾中心被更新;
(8) 容灾中心可以开始容灾进程的能力。
Share78 只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的 设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所 以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。
3、BACKUP WINDOWS,即备份窗口 、 ,即备份窗口。一个备份窗口指的是在不严重影响使用待备份数 据的应用程序的情况下,完成一次给定备份的时间间隔,由需要备份数据的总量和处理数据的服 务架构的速度来决定。为了保证备份数据的一致性,在备份过程中数据不能被更改,所以在某些 情况下,备份窗口是数据和应用不可用的间隔时间。
2. 容灾系统关键技术
容灾备份系统常用的技术包括镜像技术、快照技术、连续数据保护技术和重复数据删除技 术等。
2.1 镜像技术
镜像(Mirroring)是数据冗余的一种形式,是将一个磁盘上的数据在另一个或多个磁盘系 统上生成完全相同的数据副本的过程。它分为主镜像系统和从镜像系统。根据两系统所处地理位 置的不同分为本地镜像和远程镜像。本地镜像的主从镜像系统处于一个局域网中,远程镜像的主 从镜像系统通过城域网或广域网相连。
本地镜像的一个明显缺陷是当地震、火灾等灾难发生时,主从镜像系统都会遭到破坏,起 不到容灾的目的。远程镜像避免了这个缺陷,是容灾备份的核心技术。远程镜像又分为同步远程 镜像和异步远程镜像。同步远程镜像是将本地数据以完全同步的方式复制到异地镜像系统中,每 一次本地 I/O 都需要等待远程复制结束后才能释放;异步远程镜像则是本地 I/O 操作由本地系统 确认,然后再向远程系统更新数据。同步远程镜像的优点是灾难发生时数据丢失率为零,保证了 数据的绝对安全,缺点是本地系统的性能受异地镜像系统影响。异步远程镜像则在灾难发生时会 有很小的数据丢失而导致主从镜像系统数据不一致 但是它减少了异地镜像系统对本地系统性能 , 的影响,加快了数据处理能力。远程镜像系统的成本要高于本地镜像,但 RPO 和 RTO 性能要 优于本地镜像,因此,企业或机构可以根据具体需求选择合适的解决方案。
2.2 快照技术
SNIA(存储网络行业协会)对快照(Snapshot)的定义是:关于特定数据集合的一个完全 可用拷贝,该数据集包含源数据在拷贝点的静态映像,是数据再现的一个副本或者复制。快照实 际上是建立了数据的目录表,保存了源数据在存储设备上的数据指针,作用是提供在线备份和恢 复服务,用户可以访问快照数据而不影响应用系统对元数据的正常操作,灾难发生时可以将数据 恢复到快照产生的时间点。
快照分为全拷贝快照和差分快照两大类。全拷贝快照是对整个数据集的复制(类似于全量 备份概念),具体实现方法有分离镜像(Splitting a mirror)技术;差分快照只对上次快照之后 改变的数据复制(类似于差量备份概念),具体实现方法包括写即复制(CoW)、写即重定向 (RoW)和随处写(WA)等。写即复制(CoW: Copy on Write)指写操作发生时,首先读出写 操作将要覆盖地址的当前数据至专门的空间并为这些数据建立索引,然后执行写操作,因此当前 磁盘的写路径受拷贝影响。写即重定向(RoW: Redirect on Write)指当执行写操作时,源磁盘 被冻结,新的写操作被存入日志中并建立索引,快照结束后,写日志必须全部执行以与源盘保持 数据状态的同步更新。
全拷贝快照占用的存储空间高于差分快照,但后者需要占用更多的系统资源。由于快照可 以迅速建立,因此可以缩小或消除了备份窗口,提高容灾系统防御灾难程度。
2.3 连续数据保护技术
CDP(Continuous Data Protection),即连续数据保护,是一种在不影响主要数据运行前 提下,持续捕捉或跟踪目标数据所发生的任何变化,可以在数据发生任何变化时将数据有效地保 护起来。最大的优势是可以对任何时间点的数据恢复。CDP 可以提供块级、文件级和应用级的 备份及恢复。 CDP 与快照相比的优势有以下几点:一是快照需要暂停业务系统较短的时间,而 CDP 能 够完全保证业务的连续性;二是快照需要保存修改后的全部数据,CDP 不需要,因此占用存储 空间少;三是快照只能恢复到过去某个时间点的数据,CDP 可以恢复到过去任意时刻的数据。 CDP 的优势为数据提供了一种更高级别的保护,因此成为当前存储领域的研究热点。
2.4 重复数据删除技术
重复数据删除( Data de-duplication )技术也称为“ 单实例存储( Single Instance Repository,简称 SIR)”或者容量优化(Capacity Optimization),顾名思义,其根本作用是消 减存储中的重复数据,使得任何一份数据只保存一份实例,达到充分利用存储空间的目的。从工 作原理上讲,重复数据删除技术可以分为两种,一种是基于哈希(Hash)算法的重复数据删除, 一种是基于内容识别的重复数据删除。
基于哈希算法的重复数据删除技术的基本原理是利用SHA、MD5 等算法将备份数据流切 分成“块”,并且为每一块数据生成一组哈希码序列。当备份新的数据时,按照索引把新数据的哈 希码和已存数据的哈希码进行比较,如果发现有相同的哈希码存在,则说明该数据块已经存在相 同的实例,此时新备份的数据将被放弃而在相应的位置代之以指向原有实例的指针。
基于内容识别的重复数据删除技术的基本原理是对记录的数据格式进行比对。在备份数据 时,该技术会读取数据并从中提取出每组备份集以及备份集中数据对象的元数据,存入到内嵌文 件系统的数据库内。当有新的数据进入时则对新的元数据与数据库中的元数据进行版本比对。如 果发现相同的元数据,接下来会对数据对象进行逐字节的比较,从而发现发生变化的数据。如果 数据对象确实是重复的,则删除该数据对象并代之以相应的指针。
3. 总结
容灾备份的实施是一项复杂的系统工程,需要容灾技术与管理策略的配合。随着信息技术 应用的日益发展,容灾备份系统及技术对信息系统的保护将发挥越来越关键的作用。如何建立更 可靠的容灾系统体系结构,提供高性价比、高可信的容灾能力,将会成为容灾备份这一领域的重 要研究方向。

你可能感兴趣的:(职场,计算机,硬件,休闲,灾难)