容灾 RTO和RPO

我自己的的理解

RTO(Recovery Time Objective):用我自己的话说就是多长时间能够恢复,业务能够运行,就是用最短的时间恢复业务

RPO(Recovery Point Objective):数据要求比较高,不允许丢失太多数据或者不允许丢失数据。

 

 

 

下面是网上的转载的两篇文章:

1、

在灾难恢复方面,目前业界公认有三个目标值得努力。一是恢复时间,企业能忍受多长时间没有 IT,处于停业状态;二是网络多长时间能够恢复;三是业务层面的恢复。整个恢复过程中,最关键的衡量指标有两个:一个是 RTO,另一个是 RPO。


所谓 RTO,Recovery Time Objective,它是指灾难发生后,从 IT 系统当机导致业务停顿之时开始,到 IT 系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为 RTO。


所谓 RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。

 

选择标准

 

对灾难恢复而言, RTO 与 RPO 哪个衡量指标更合适呢?
在考虑采用哪个指标之前,IT 人首先要弄清楚一个基本概念,企业的容灾系统预防的是什么灾害,是多少年一遇的,能忍受多少损失,需要算出一个大概的成本,当然不一定很精确。
其次,无论企业容灾系统是采用冷备、热备、温备、还是磁盘备份,几分钟恢复业务和几天恢复业务效果是完全不一样的。企业需要明确对恢复时间的容忍底限是多少。
再从灾备本身的意义来讲,无论采用哪种衡量指标,最终目的是要能够很好地检验灾备系统的实用性能,否则就失去建立灾备的意义了。而灾备最核心的作用就是确保灾难发生后业务能够连续运行,交易中的数据完整保存,丢失越少越好。因此业务层面的恢复,企业要有一个底限。
参考世界范围内一系列灾难恢复经验,国家之间的差别非常大。比如在美国,政府是第一位的,警察局对数据的恢复要求特别高。而在中国,无论什么性质,银行始终是排在第一位的。

 

综合平衡

 

作为银行,除开展自身业务之外,更多数据来自上下级银行间的财务汇兑与结算。站在管理者的位置上,一旦灾难发生,最重要的是在尽可能短的时间内排除障碍,恢复业务,保证系统做到连续运行。因此,从这个角度出发,银行容许系统停滞的时间应当越短越好。选择 RTO 刚好合适。

 

但是,RTO 对成本要求太高,与回报似乎不成正比。企业资金不可能无限制地投入到一个灾备系统中。对于银行证券这样的联机交易事故处理非常紧密的金融机构而言,可能每一笔、每一单、每一分钱都很重要,所以都需要恢复。RPO 显然更为合适。

 

许多时候进行选择并不意味着非此即彼,这与现实婚姻中一夫一妻的限制还是有差别的。RTO 和 RPO 对银行来讲都很重要。RTO 越短、RPO 越新,银行面临的损失就越小,但这也意味着系统开发成本将会急剧上升。许多时候,最佳的容灾解决方案却不一定是效益最好的。反之亦是。如何去平衡这中间的关系,不仅是门学问,更像是艺术。
根据国际经验,在选择“你”还是“她”的时候,企业应当考虑灾难发生后会在多大层面上冲击业务,这涉及到企业形象,商业机密,信誉评级,品牌竞争力等等方面,各个企业的情况不同,要根据自己的情况选择合适的“对象”。灾难恢复的目的是业务连续进行,因此无论采用 RTO 还是 RPO,都要朝着这个核心靠拢。

 

2、

许多企事业单位虽然已经认识到信息安全的重要性,却迟迟没有行动。其中的原因是多方面的,最主要的一个原因就是在如何建立容灾系统的问题上存在种种疑惑。容灾设计指标主要与容灾系统的数据恢复能力有关,最常见的设计指标有RTO 和RPO。RPO是指能把数据恢复到过去的那一个时间点,RTO 是指在出现问题后“什么时候”可以恢复数据。

  RPO可简单地描述为企业能容忍的最大数据丢失量。为了更好地理解,可以想一下传统数据备份方式,一般备份都是一天做一次,通常是在晚上。如果第二天出现错误,那从备份完成后到错误出现时所写入的数据都无法挽回了,这期间没有备份,数据就丢失了!如果错误出现在一天结束时,那一天的数据都丢失了,这种情况下,RPO就是24小时。

  为了改进RPO,数据保护必须更频繁地进行。大多数情况下,增加备份的频率是不现实的。原因有:1.应用的高峰时段无法进行备份操作;2.备份数据所花时间太长。为了改进RPO,需要有新的方法,这种方法就是恢复管理,用连续复制和快照技术能有效地改进RPO。

  RTO可简单地描述为企业能容忍的恢复时间。在传统的数据保护中,备份数据是不能立即使用的,必须先恢复。对象级别的恢复功能可以有效恢复单个的目标,如一个文件或一封邮件,甚至是许多文件和邮件的集合。然而,恢复整个数据库和海量数据时仍需要时间。

  要解决这个问题,不得不对生产数据进行复制,创建镜像快照或连续复制,或两者都做。因为复制是在线的,能立即投入使用,整个数据库或海量数据的RTO也许只有5分钟或更短。

  然而在设计一个容灾系统时,不能过分追求RPO和RTO,因为RPO和RTO越小,投资将越大。而总体投入成本越高,投资回报率将越低。从经济角度考虑,最佳的容灾解决方案不一定是效益最好的容灾解决方案,因为容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。

  数据保护一般有3个技术手段实现:持续可用、快速恢复、可以恢复。这3种方式的投资和造成数据丢失是不同的,请看图1。

 

  由此可以看出,不同的PRO指标实现的代价和方式都不同。而这些技术手段的RTO也是不同的,请看图2。

  可以看出,虽然备份的RPO指标比较差,但RTO也可以很好,因为可以采用事先恢复的方法,提高恢复响应时间。

  采用镜像方式虽然丢失的数据比较少,但是恢复运行时间可能比较长。由于数据库的日志机制,在不同的设置下,如果镜像中断,灾备中心有可能需要比较长的修复时间。所以如果要快速恢复应用运行,一般需要和快照、备份结合。同时,由于镜像不能避免逻辑错误,所以也必须和快照结合,来提高灾备数据的可用性。

  快照机制能够在灾备中心创建若干个恢复时间点,例如1个小时1个,保留4个等。快照丢失的数据有可能比较多,一般是1个小时,但是恢复的速度非常快。如果和应用快照结合的话,恢复数据库运行一般只要几分钟,因为修复的时间非常短,在某个时间点能够确保数据库数据完整一致。

你可能感兴趣的:(Storage)