数据备份知识

企业IT系统里最核心的就是数据,如何保证数据安全是每个企业重点关注的领域。数据安全是一个比较大的技术范畴,本文仅针对数据备份,谈谈如何在企业中做到合理的数据备份和有效的数据恢复。

1. 备份相关的基础知识

1.1. 什么是备份

首先先了解一下什么是数据备份,数据备份顾名思义,就是将数据以某种方式加以保留,以便在系统遭受破坏或其他特定情况下,重新加以利用的一个过程。在日常生活中,我们经常需要为自己家的房门多配几把钥匙,为自己的爱车准备一个备胎,这些都是备份思想的体现。

数据备份作为存储领域的一个重要组成部分,其在存储系统中的地位和作用都是不容忽视的。对一个完整的IT系统而言,备份工作是其中必不可少的组成部分。其意义不仅在于防范意外事件的破坏,而且还是历史数据保存归档的最佳方式。换言之,即便系统正常工作,没有任何数据丢失或破坏发生,备份工作仍然具有非常大的意义,为我们进行历史数据查询、统计和分析,以及重要信息归档保存提供了可能。

简单的说,一份数据备份的作用,不仅仅像房门的备用钥匙一样,当原来的钥匙丢失或损坏了,才能派上用场。有时候,数据备份的作用,更像是我们为了留住美好时光而拍摄的照片,把暂时的状态永久的保存了下来,供我们分析和研究。当然我们不可能凭借一张儿时的照片就回到从前,在这一点上,数据备份就更显神奇,一个存储系统乃至整个网络系统,完全可以回到过去的某个时间状态,或者重新“克隆”一个指定时间状态的系统,只要在这个时间点上,我们有一个完整的系统数据备份。

还有一个需要澄清的问题,数据备份更多的是指数据从在线状态,剥离到离线状态的过程,这与服务器高可用集群技术以及远程灾备技术,在本质上有所区别。虽然从目的上讲,这些技术都是为了消除或减弱意外事件给系统带来的影响,但是,由于其侧重的方向不同,实现的手段和产生的效果也不尽相同。集群和灾备技术的目的,是为了保证业务的连续性,也就是说,当意外发生时,系统所提供的服务和功能不会因此而间断,能够重续运行。对数据而言,集群和灾备技术是保护系统的在线状态,保证数据可以随时被访问。而相对来说,备份技术的目的,是将整个系统的数据或状态保存下来,这种方式不仅可以挽回硬件设备坏损带来的损失,也可以挽回逻辑错误和人为恶意破坏的损失。

然而,一般来说,数据备份技术并不保证系统的实时可用性。也就是说,一旦意外发生,备份技术只保证数据可以恢复,但是恢复过程需要一定的时间,在此期间,系统是不可用的。在具有一定规模的系统中,备份技术、集群技术和灾备技术互相不可替代,并且稳定和谐的配合工作,共同保证着系统的正常运转。

1.2. 手工备份和自动化备份

相比于系统、数据库管理人员手工备份,自动备份软件有如下的优势:

稳定性

备份的主要作用是为系统提供一个数据保护的方法,于是备份本身的稳定性和可靠性就变成了最重要的一个方面。相比于手工备份,自动备份软件更能保证备份的稳定可靠,能提供方法确保不会在恢复时才发现备份是不成功的。

全面性

在复杂的计算机网络环境中,可能会包括了各种操作平台,如各种厂家的UNIX、Linux、Windows等,并安装了各种应用系统,如数据库、文件系统等。备份软件可以全面支持这些平台、软件。

自动化

很多公司由于工作性质,对何时备份、用多长时间备份都有一定的限制。在下班时间系统负荷轻,适于备份。可是这会增加系统管理员的负担,由于精神状态等原因,还会给备份安全带来潜在的隐患。自动备份软件能提供定时的自动备份,并利用磁带库等技术进行自动换带。在自动备份过程中,还有日志记录功能,并在出现异常情况时自动报警。

高性能

随着业务的不断发展,数据越来越多,更新越来越快,在休息时间来不及备份如此多的内容,在工作时间备份又会影响系统性能。备份软件在备份时,可以尽量考虑到提高数据备份的速度,如利用多个磁带机并行操作的方法、利用合成备份的方法等等。

操作简单,集中管理

备份软件提供集中管理功能,能够对特别重要数据做多份拷贝,并能记录跟踪每次备份的不同版本,这样就可以按照需要恢复不同的数据。数据备份应用于不同领域,进行数据备份的操作人员也处于不同的层次。备份软件提供了一个直观的、操作简单的图形化用户界面,缩短操作人员的学习时间,减轻操作人员的工作压力,使备份、恢复工作得以轻松地设置和完成。

实时性

有些关键性的任务是要24小时不停机运行的,在备份的时候,有一些文件可能仍然处于打开的状态。那么在进行备份的时候,要采取措施,实时地查看文件大小、进行事务跟踪,以保证正确地备份系统中的所有文件。而这些仅凭借手工备份是很难做到的。

能更迅速、准确的恢复数据

备份软件精确的知道每次备份发生的时间和内容以及存放地点,能够迅速找到并恢复数据。同时,也可以采用多种技术如从快照恢复、多流恢复等方法提高恢复速度。备份软件也能提供更小颗粒的恢复功能。

1.3. 备份和恢复

数据备份的根本目的,是重新利用,这也就是说,备份工作的核心是恢复,一个无法恢复的备份,对任何系统来说都是毫无意义的。在实际情况中,厂商或集成商更多的是向用户吹嘘,自己的产品在备份过程中如何的巧妙。然而,作为最终用户,一定需要清醒的认识到,能够安全、方便而又高效的恢复数据,才是备份系统的真正生命所在。也许很多人会以为,既然备份系统已经把需要的数据备份下来了,恢复应该不成什么问题。这就大错而特错了,事实上,无论是在金融电信行业的数据中心,还是在普通的桌面级系统中,备份数据无法恢复,从而导致数据丢失的例子实在太多了。

众所周知,建造大楼时一定会配备消防系统,但是,并非有了消防系统就能高枕无忧。人们经常获悉,有的楼房突遭火灾时,消防系统却无故瘫痪了,或者消防栓里没有水,或者消防通道被堵塞,以致火势蔓延,造成巨大的生命财产损失。因此,并非所有的消防系统,在遭遇火灾时都能起作用。一样的道理,数据备份设施之于IT系统,就相当于消防系统之于楼房,它是保护IT系统的最后一道防线。即使配备了数据备份设施,并不表明在IT系统遇到问题时一定能将丢失的数据成功恢复。

为了进一步阐明恢复的重要性,让我们再来对比一下备份和恢复操作的区别。

首先、 备份是计划内的工作,而恢复则是计划外的工作。对于IT技术人员来说,备份是按照既定的备份策略,每隔一定时间,按部就班地操作即可。而恢复则是只有当发生数据丢失时,或者要查找历史数据时,才会进行的操作。通常情况下,实施恢复操作时,往往都是十万火急,越快越好,同时还希望恢复后的数据可用。由于备份对系统 环境 的影响比较大,所以备份的工作往往是在特定的时间内完成的,也即所谓的“备份窗口”,这时生产系统通常不工作。而恢复,因为是计划外的工作,对生产系统肯定会产生影响。下面以电子邮件数据的备份和恢复为例,来说明恢复对系统的影响。假定您对电子邮件系统的备份策略是每晚八点定时备份到磁带,备份完成后磁带里就会保存有昨天晚上八点之前收到的所有电子邮件。当然,收发电子邮件是一个连续的动作,晚上八点后,邮箱仍然在不停地收邮件。假设到了今天中午12点,您发现某一个重要的邮件不小心被删掉了,如果这个邮件是昨天晚上八点前收到的,那么您还是有可能从磁带里恢复该邮件。这时就要启动恢复操作了。如果备份软件能够实现邮件一级的恢复(恢复颗粒是单个邮件)的话,您只要能找到那封丢失的邮件,直接将它恢复到邮箱就可以了,恢复的过程对整个邮件系统没有任何影响;但是,如果您的备份软件只能做到邮箱级的恢复(恢复颗粒是一个邮箱),那么如果您想恢复该邮件的话,就不得不把整个邮箱恢复到昨晚八时的状态,造成的后果就是昨天晚上八点到今天上午12点收进的邮件会全部被覆盖。可见,如果从备份的角度来说,两者没什么区别;但是从恢复的角度来讲,两者差别很大。

第二、 备份是大批量的数据移动过程,往往需要将所有数据或所有增量数据全部拷贝到备份设备,而恢复往往是少量的数据移动过程,只需将需要恢复的数据从备份设备拷贝回主服务器。现在市场上流行的很多备份软件,基本上都是在上世纪80年代设计的,那时的数据量相对较小(几十兆到几百兆)。当进行备份操作的时候,备份软件会把所需要备份的数据文件打包成一个备份集(backup set),然后将它拷贝至备份设备中,并且针对该备份集形成相对应的索引,但一般不会对备份集里的内容建立详细的索引。那么当需要恢复该备份集中的某一个文件时,备份软件就必须从备份集中搜索到该文件,然后进行恢复。这在只有几百兆数据量的IT环境下完全可行,然而来到我们目前所处的海量数据的时代,由于数据量已经高达几十甚至几百TB,如果继续沿用这种方式,势必产生许多问题:从浩如烟淼的备份数据里,找到并恢复您需要的那一个,难度无异于大海捞针!例如,有的用户去电信公司要求查询自己的历史话单(如两年前的某一个月的通话记录),今天,很多电信公司无法满足用户的这一需求,因为很多情况下明知该历史话单一定存在于原先的备份介质中,但由于数据量实在太大,几乎没有可操作性。这种情况下,备份虽然是成功的,但是恢复的成功率却很低。早年的 调查 就 揭示了数据恢复的真相 ,即 恢复作业的平均成功率只有70%左右 。

当考虑数据保护时,应着眼于“恢复”,需着重考虑以下几点:

1.确保数据能够恢复

2.恢复速度要尽量快

3.恢复操作对系统的影响要尽可能小

4.能够恢复到用户指定的时间点

5.恢复的数据是可以使用的

当然,恢复是在备份的基础上进行的,如果备份失败,恢复肯定不会成功。为了确保能达到恢复的目的,对备份操作有以下几点基本要求:

1.提高备份成功率

备份过程中,当备份介质、备份设备和网络出现问题时,备份作业就会中断,要提高备份的成功率,备份系统就应具有容错机制。如果是备份介质或备份设备出现问题,可以将备份自动切换到其他的备份介质、设备或路径上,并能确保从中断处继续备份操作。另外,“备份的断点续传”也很重要,当网络发生阻塞时,备份也会中断;一旦网络恢复正常,备份能从中断处自动重启并继续进行。

2.精细的备份数据索引

当用户希望恢复数据时,绝大多数情况下并不需要恢复整个系统,而只要恢复部分数据,甚至只是一个文件或邮件。索引做得足够精细,有利于在恢复时能快速查找并定位所需要恢复的数据,实现小颗粒恢复,同时将对系统的影响降到最小,恢复速度大幅提高。

3.能产生多个数据副本

为了防止备份数据意外损坏,产生多个备份副本是必要的,也很有效。产生数据副本的方法有两种:同步和异步。同步的方法是,在备份时,同时把备份数据写入到两个不同的介质中;异步的做法是,先把备份数据写入一个介质,然后再利用空闲时段,将备份数据复制到其他介质上。当然也可以通过网络将其复制到异地,达到数据容灾的目的。

4.离场保护

如果数据备份是为了恢复而进行的,就应该考虑到万一数据中心遭遇灾难时,怎样进行恢复。这时“离场保护”中保存的数据副本就会起到很大的作用。

5.  操作界面应足够简单

用户界面应该面向恢复,而非面向备份。在面向数据恢复的用户界面,所有的备份数据是按照数据原先的结构来组织的,需要恢复哪个数据,很快就能找到,轻松点击一下就能恢复该数据了。

1.4. 备份结构

常见的数据备份系统主要有Host-Base、LAN-Base和基于SAN结构的LAN-Free、Server-Free等多种结构。

1.Host-Based备份方式:

Host-Based是传统的数据备份的结构这种结构中存储介质(例如磁带库)直接接在服务器上,而且只为该服务器提供数据备份服务。在大多数情况下,这种备份大多是采用服务器上自带的磁带机,而备份操作往往也是通过手工操作的方式进行的。

Host-Based备份结构的优点是数据传输速度快,备份管理简单;缺点是不利于备份系统的共享,不适合于现在大型的数据备份要求。

2.LAN-Based备份方式:

LAN-Based备份,在该系统中数据的传输是以网络为基础的。其中配置一台服务器作为备份服务器,由它负责整个系统的备份操作。磁带库则接在某台服务器上,在数据备份时备份对象把数据通过网络传输到磁带库中实现备份的。

LAN-Based备份结构的优点是节省投资、磁带库共享、集中备份管理;它的缺点是对业务网络传输压力大。

3.LAN-Free备份方式:

LAN-Free和Server-Free的备份系统是建立在SAN(存储区域网)的基础上的,其结构如下图所示。基于SAN的备份是一种彻底解决传统备份方式需要占用LAN带宽问题的解决方案。它采用一种全新的体系结构,将磁带库和磁盘阵列各自作为独立的光纤结点,多台主机共享磁带库备份时,数据流不再经过网络而直接从磁盘阵列传到磁带库内,是一种无需占用网络带宽 (LAN-Free) 的解决方案。

目前随着SAN技术的不断进步,LAN-Free的结构已经相当成熟,而Server-Free的备份结构则不太成熟。LAN-Free的优点是数据备份统一管理、备份速度快、业务网络传输压力小、磁带库资源共享;缺点是投资高。

4.Server-Free备份方式

另外一种减少对系统资源消耗的办法是采用无服务器(Serverless)备份技术。它是LAN-free的一种延伸,可使数据能够在SAN结构中的两个存储设备之间直接传输,通常是在磁盘阵列和磁带库之间。这种方案的主要优点之一是不需要在服务器中缓存数据,显著减少对主机CPU的占用,提高操作系统工作效率,帮助企业完成更多的工作。

无服务器备份有几种实施方式。

方法一,备份数据通过名为数据移动器的设备从磁盘阵列传输到磁带库上。该设备可能是光纤通道交换机、存储路由器、智能磁带或磁盘设备或者是服务器。数据移动器执行的命令其实是把数据从一个存储设备传输到另一个设备。实施这个过程的一种方法是借助于SCSI-3的扩展拷贝命令,它使服务器能够发送命令给存储设备,指示后者把数据直接传输到另一个设备,不必通过服务器内存。数据移动器收到扩展拷贝命令后,执行相应功能。它的 主要缺点是必须具备特殊的设备。无服务器备份要求使用支持SCSI-3 扩展复制命令集的智能设备。

方法二,通过备份服务器发送控制指令,首先对需要备份的数据卷做一个快照(或者其他类似操作),形成一个副本,然后用备份服务器将此快照卷Mount上,利用备份服务器将此卷上的数据备份至备份设备上。

1.5. 备份分类

备份类型主要有三种:全备份,增量备份,差异备份,除此之外,很多备份软件在这个基础上还延伸出一些缩短备份或者恢复时间的备份方式,例如辅助副本备份、合成完全备份等等。

1.全备份

全备份将备份所有选定的文件,然后将每个文件标记为已备份(换句话说,存档属性被清除)。如果使用全备份,恢复所有文件时仅需具备最新的备份文件副本或磁带,全备份通常在首次创建备份集时执行。全备份的优点是 易于查找文件,因为文件都位于当前备份媒体上。文件恢复只需要一种媒体或一组媒体。缺点是浪费时间和浪费空间, 如果文件不频繁进行更改,备份内容几乎完全相同。

2.增量备份

增量备份仅备份那些自上次全备份或增量备份以来创建或更改的文件。增量备份将文件标记为已备份(换句话说,存档属性被清除)。如果结合全备份和增量备份,恢复所有数据时必须具备最新的全备份集和所有增量备份集。增量备份的优点是 需要存储的数据最少 , 备份速度最快。缺点是 完全 恢复 系统需要的时间比 全 备份或差异备份长。

3.差异备份

差异备份仅备份那些自上次全备份或增量备份以来创建或更改的文件。差异备份不将文件标记为已备份(换句话说,存档属性不被清除)。如果结合全备份和差异备份,恢复所有数据时既需要最新全备份的文件或磁带,也需要最新差异备份的文件或磁带。差异备份的优点是 恢复时仅需 要 最新 全 备份的媒体和差异备份的媒体 , 备份速度比 全 备份快。缺点是 完全 恢复 系统需要的时间比 全 备份长。如果大量数据发生变化,备份所需的时间长于增量备份的时间。

4.辅助副本

辅助(或次要)副本是备份数据的副本。已复制的数据是主要备份副本的真实映像。如果主要备份服务器、设备和媒体丢失或损坏,已复制的数据可用作热备用备份副本。主要副本和次要副本使用不同的媒体,通常使用不同的备份库。辅助副本的优点是 制作备用的备份磁带原样副本。与实际副本相比,辅助副本的生成速度更快。副本可现场保存供灾难恢复之用。但是这种延伸的技术不是所有备份管理软件都很好支持的功能。

5.合成全备份

合成备份(Synthetic backup)的含义就是将一个全备份和一些增量备份或者差分备份重新组成一个全备份,这样在恢复的时候,就好像一个全备份恢复一样快捷;而且这部分发生在介质管理器而不是客户端,可以有效利用空间并且减小客户端的负载。一般的用户可能不熟悉合成备份的用法,一般来说,合成备份可以将多个备份整合成一个可用的恢复文件,所以可以将它和传统备份统一起来使用。举例来说,如果用户创建一个三个月一次的全备份、每天一次的差分备份、一周一次的合成备份,那么每个星期一次的合成备份就会把上周的全备份和周内的差分备份,重新合成一个全备份文件,就好像每周一次全备份一样,而这样做的好处是将合成备份的工作移到介质服务器中完成,减少了客户端的负载。合成备份的优点是 将 全 备份和增量备份合并到一个新的 全 备份中,该 全 备份位于保存在网络和/或关键服务器之外的库中。备份和还原时间减少。这种功能也是某些备份管理软件的增值功能,不具有普适性。

1.6. RTO与RPO

在业务连续性管理中,RPO(Recovery Point Objective)是指能把数据恢复到过去的那一个时间点,RTO(Recovery Time Objective)是指在出现问题后,什么时候可以恢复数据。RPO可简单的描述为企业能容忍的最大数据丢失量,RTO可简单的描述为企业能容忍的恢复时间。

1.7. 备份设备

现在企业常用的备份设备和介质是磁盘,磁带和光盘。历史上很多其他备份介质逐渐淘汰了。

1.磁盘备份设备

磁盘备份设备通常是H DD(硬盘驱动器(Hard Disk Drive)) 或者S DD ( 固态硬盘(Solid State Drive)) 介质,用于备份的磁盘一般考虑大容量,价格低廉。在备份管理软件中通常是由一个或者多个访问路径组成,可以是本地磁盘,也可以是远程访问路径的网络文件系统。每个访问路径就是在磁盘上的一个目录。在备份管理软件中定义的磁盘备份设备一般采用文件系统,备份的数据都是以文件方式存放在磁盘备份设备上的。这样便于数据的管理和跨平台的迁移。

磁盘备份设备有一些特点,例如不支持硬件压缩;随机访问速度快;在大数据流的备份和恢复中,可能比磁带设备慢,磁带更容易实现多流并发操作;通常情况下,备份数据不能离线拿走;由于磁盘设备是一个在线检测设备,所以存放备份数据的可靠性,通常会比磁带高。

2.磁带备份设备

磁带设备通常分为2种:

物理磁带机:只有一个磁带驱动器,通常不包括任何其它机器装置。通常磁带机都是内置在服务器中的。由于磁带机的物理特性,所以管理比较复杂。

物理磁带库:包括自动装载机(AutoLoader)和带库(TapeLibrary)。它们的特点都是除了磁带驱动器外,还有一个机器手臂,来自动控制和装载磁带。

3.光盘备份设备

光盘是以光信息做为存储的载体并用来存储数据的一种物品。分不可擦写光盘,如 CD-ROM 、 DVD-ROM 等;和可擦写光盘,如CD-RW、 DVD-RAM 等。蓝光光碟( Blu-ray Disc ,简称BD)是指DVD之后的下一代光盘格式之一,用以存储高品质的影音文件以及高容量的 数据存储 。

光盘是利用激光原理进行读、写的设备,是迅速发展的一种辅助 存储器 ,可以存放各种文字、声音、图形、图像和动画等多媒体数字信息。

光盘备份设备也分为光盘刻录机和光盘库。

4.虚拟磁带库

虚拟带库( Virtual Tape Library,VTL )就是以磁盘作为自身存储介质,并能仿真为物理磁带库的产品。简单的说,虚拟带库就是将磁盘空间虚拟为磁带空间,能够在传统的备份软件上实现和传统磁带库同样功能的产品。

传统的磁带库的存储介质为磁带,磁带的优势是可以集中的保存,数据的移动比较方便,但是磁带介质不是非常稳定,容易受粉尘、湿度、磁粉、粘连、霉点等因素的影响,出现读写错误 ,对保存环境的要求比较高。带库里面的机械手和驱动器属于精密机械设备,经常容易发生故障,速度比较慢,恢复时间比较长。

虚拟带库将使用磁盘做为存储介质,使用软件在逻辑上将磁盘存储系统(包括SCSI或者光纤阵列或者SAN存储网络等)虚拟为传统的磁带库设备,自动的在逻辑上实现机械手,驱动器的功能,磁盘存储系统的RAID,镜像等功能可以从底层保护备份的数据。虚拟磁带库能够和各大厂家的备份软件无缝的兼容,实现许多高级的备份功能,最大程度上保护用户的数据。

虚拟带库的实现可以大致分为三种方式。第一,纯软件方式,即 将磁带库模拟软件直接安装在备份服务器上,把备份 管理 服务器的文件系统分区模拟成磁带库,从而使备份软件以磁带库方式使用磁盘文件系统 ,目前有厂家在备份软件里面集成了类似的产品 。这种方式磁盘本质上仍然在线,而且对备份主机的负担比较大,使用的环境有局限性,优点是成本比较低。第二种, 专用服务器级虚拟磁带库方案 , 该方案实际上是另外一种虚拟磁带库的软件实现方案 , 通过把虚拟磁带库管理软件安装在一台独立的专用服务器内,而将该服务器及所连接的磁盘存储设备模拟成磁带库。这种方案的 特点是速度比较快,而且数据受主机的影响小, 不足是需要利用一台的服务器作为虚拟磁带库管理器,系统优化性略低。第三, 专用控制器级集成虚拟磁带库设备方案, 将磁带库模拟管理软件固化在特别设计的硬件设备中,就形成了专用的虚拟磁带库设备,这种设备需要配置一定数量和类型的主机接口和后端存储磁盘阵列接口。专用的虚拟磁带库设备硬件结构与不同于服务器,设计采用了精简的硬件模块和精简的操作系统内核(一般为Linux内核),并且充分考虑了与主机及存储设备的连接能力 。专用的虚拟磁带库设备 的出现 标志着虚拟磁带库技术终于突破了操作系统和PC服务器架构的限制,使虚拟磁带库真正成为了一种独立的外设,其使用方式也更接近普通磁带库,而其优越性能也体现得更加充分。

1.8. 备份的数据类型

需要备份的数据主要分两类,即非结构化数据和结构化数据。

通常把没有“数据模型”的计算机信息称为非结构化数据,例如文字、图、音频、视频Microsoft Office 文档, Web页面,等。非结构化数据多存放于文件系统中,所以备份的时候多数按照文件系统备份方式进行备份。

结构化数据,通常是数据库的数据,例如传统的关系型数据库。结构化数据的备份根据不同的数据库特点,有各自独特的备份方式。

2. 数据备份策略设计

企业在做数据备份策略设计的时候通常考虑备份对象,备份结构,备份方式,备份周期,备份窗口,数据保留周期,备份介质等等方面。

2.1. 备份对象的确定

备份对象,即备份哪台主机上的哪些数据,企业用户在收集这个信息的时候需要细致,因为不同的备份对象,有不同的备份实现方案,例如操作系统本身的备份,看似和普通文件系统类似,但是操作系统通常不能按照普通文件系统来进行备份,需要考虑操作系统崩溃之后如何从备份介质中恢复,如何引导操作系统启动,同时基于windows和unix、linux操作系统还有不同的备份和恢复方式。又例如,同样是linux文件系统,但是挂载本地文件系统和挂载远程共享文件系统,所需要的备份方案也不尽相同。一个大型的I T 系统里自身比较复杂,有多种类型的备份对象,也有一些大型的I T 系统是有很多耦合度较高的子系统组成,那么在考虑备份对象的时候,不可以只考虑单一系统的某个单个类型的备份对象,要基于整个系统能够恢复为出发点来综合考虑所有相关联的备份对象。

2.2. 备份方式

备份方式,采用全备份或全备份与增量备份相结合的方式;这是需要结合恢复来综合考虑的,因为备份的主要目的是用来恢复,例如每天全备份,那么恢复的时候复杂程度就降低了,直接拿匹配的备份集来恢复就可以了。但是带来的问题是每天备份窗口时间长,需要的备份存储空间大,备份时系统性能影响时间长。如何取舍,需要根据系统的重要程度,备份的数据量,备份窗口,恢复的要求等等方面综合考虑。

2.3. 备份计划

在备份系统中,用户必须制定备份计划来实施备份;备份计划说明了,用户准备在何时,对哪台服务器上的哪些内容,进行什么类型的备份。备份计划牵涉到了备份的时间,备份的内容,备份的类型,备份的方式。一般而言,在备份系统中,用户可以制定一个或多个备份计划的策略,从而减少制定备份计划的工作量。

企业用户的IT 环境复杂多样,不同的系统、应用对备份都有各自的需求,所以针对不同的需要,往往需要制定不同的备份计划。

采用全备份还是全备份与增量备份相结合的备份方式,这是需要结合恢复来综合考虑的,因为备份的主要目的是用来恢复,例如每天全备份,那么恢复的时候复杂程度就降低了,直接拿匹配的备份集来恢复就可以了。但是带来的问题是每天备份窗口时间长,需要的备份存储空间大,备份时系统性能影响时间长。如何取舍,需要根据系统的重要程度,备份的数据量,备份窗口,恢复的要求等等方面综合考虑。

可以参考一些备份计划设计的原则:

典型常用的备份方式

计划特点

适用范围

每天作全备份

备份产生的数据量大恢复的速度快备份数据的可靠性高,所以可恢复性强

小数据量的,重要的数据备份(例如,小型的数据库系统,AD等)

每周作1次合成全备份其它工作日作增量备份

比较常规的备份方式,备份的数据量少全备份的时候,不需要从客户端读取数据;所以全备份效率高;可恢复性较差,因为必须依赖于每周的全备份;恢复性能很慢;该数据备份必须支持合成全备份

邮件系统的备份(Exchange,Lotus)文件系统的备份

每周作1次全备份其它工作日作增量备份

比较常规的备份方式,备份的数据量少;可恢复性较差,因为必须依赖于每周的全备份;恢复性能很慢;

中大型数据库(全备份数据量比较多)

每天作1次全备份每隔1小时作日志备份或者是每周作1次全备份每天作日志备份

非常特殊的备份方式;日志备份的时候对业务系统基本没有影响;丢失的数据可能最少;恢复的速度可能最慢,因为采用的是日志回滚的方式;

非常大型的数据库,作增量备份对应用影响太大用户要求丢失的数据量最少

2.4. 备份周期

备份周期,每隔多长时间进行一次备份;这个需要和备份方式以及备份窗口相结合来设计。在保护客户投资期间内,一个完整的备份周期是指包含第n-1次完全备份和第n-1次完全备份与第n次完全备份之间的增量备份总合。如何评估备份对象应该每隔多长时间做一次备份呢,可以参考R PO 这个指标的设定,即能够容忍最多丢失多长时间段的数据。比如企业能够容忍丢失 10 个小时的数据,一次备份需要花费1个小时的时间,那么每两个备份周期的时间间隔,应该小于9个小时。

2.5. 备份窗口

备份窗口,每次数据备份何时开始,所占用的时间窗口;业界有两种观点,一种认为备份窗口是备份所消耗的时间,另一种认为是企业可以允许某个时间段对于某一个系统进行备份。更多的观点更倾向于后者,请注意,备份作业会占用系统资源的,所以需要合理规划出一个时间段来进行备份,那么这就是备份窗口。

2.6. 数据保留

数据保存周期,备份数据在多长时间内有效;这是和企业对数据生命周期管理的约定,以及监管部门对企业数据保护的要求。

数据备份到备份介质上的时候,会占用介质空间;如果不制定数据保留策略的话,那么每天产生的备份数据将不停的占用备份介质,从而将所有的备份介质空间占满。所以必须制定一个数据保留策略,来回收过期数据所占用的介质空间,或者将备份数据从一个备份介质上搬迁到其它介质上。

数据保留策略的几个术语:

归档数据:往往指的是这些备份介质必须被保留很长时间,往往>=1年;同时经常是被保留在异地,例如:银行,保险柜等。这些数据通常是以全备份的方式保留的。例如:每年保留1个全备份,保留10年。

循环周期:指的是备份数据经过了一个循环,1个循环包括了1个全备份和到下一个全备份间的所有其它类型的备份。

保留时间:指的是备份数据需要保留的天数。

数据保留策略关系到介质空间容量的设计,同时还应该定义一个保护用户投资的期限,即空间容量的设计要满足一定时期内的峰值。

数据保留设计原则:

典型常用的存储策略

策略说明和特点

适用范围

磁盘保留数据保留15天和2个周期

所有的备份数据都存放在磁盘上磁盘上的数据保留15天或者是2个循环周期(至少2个全备份和相关备份数据)

最常用的磁盘保留策略

磁带保留数据保留15天和2个周期

所有的备份数据都存放在磁带上磁带上的数据保留15天或者是2个循环周期(至少2个全备份和相关备份数据)

最常用的磁带保留策略

磁盘和磁带同时保留备份,而磁盘备份是为了快速恢复磁盘上保留备份的时间短磁带上保留备份的时间长

在磁盘上保留7天1个周期的备份数据在磁带上保留30天4个周期的数据每周将磁盘上的备份数据复制到磁带上恢复数据的时候,通过磁盘恢复,恢复速度快;而磁带作为最后一级保障;

最常用的磁盘,磁带同时保留策略

磁盘上保存增量备份,磁带上保留全备份数据

在磁盘上只保留增量备份数据全备份数据都备份到磁带上磁带上保留30天4个周期

磁盘备份空间较少的情况

磁盘到磁带或者是磁带到磁带的同时双重保护策略;

在常规磁盘或磁带备份介质上保留15天2个周期的备份数据在另外一个磁带池上创建Inline备份,保留策略为30天4周期;此时往上一级备份的同时,也同时往该磁带上备份;

这样防止备份的时候,备份介质或设备出错;

需要归档的磁带备份常规数据保留为15天2周期,在磁盘或磁带上归档数据为保留7年内的年全备份和保留最近1年的月全备份

在磁盘或磁带上,设置常规保留策略,为15天2个周期在需要归档的磁带上设置保留策略是:365天中保留月全备份365 x 7中保留年全备份

需要将数据异地并且离线保存,或长期归档

2.7. 备份结构

备份结构,采用 LAN-Free 还是 LAN 方式进行备份;目前企业中的备份结构绝大部分都可以归纳为这两种,主要关注的是备份的时候的数据流和控制流的走向,通常情况下控制流需要通过L AN 网络传输,数据流是根据备份结构设计的。充分计算数据量的总量和备份效率,评估备份对L AN 网络的压力,这里的L AN 网络通常指业务网络,当前企业中通常是以太网网络作为业务访问网络。L AN- Free的诞生主要就是为了解放对业务网络的压力,请注意L AN- Free设计的初衷是针对业务网络而不是特指以太网络,这其实也是S AN 网络诞生的时候被称为第二网络的原因。基于这个观点,只要备份的数据流通过非业务网络传输,就实现了L AN-F ree。但是业界也有很多人的观点,直接就把L AN-F ree和基于光纤通道技术的S AN 网络结合在一起了。请注意备份结构的设计,在投资允许的情况下,尽可能的要把备份的网络,即备份数据流传输的网络,和业务网络分开。

2.8. 多份拷贝

备份数据是否进行多份拷贝;多个副本是非常有意义的,能够更好的保证数据安全,如何做多个拷贝不同的备份管理软件是有区别的,有备份的同时就生成两个副本,也有通过主拷贝生成的副本拷贝,还有通过介质的特性例如虚拟磁带库实现副本的本地或者异地拷贝。

2.9. 介质和备份设备

备份介质,备份数据使用哪种备份设备存储数据(物理磁带库、虚拟磁带库、磁盘缓存设备,或者以上设备的组合),以及所使用的磁带逻辑卷池等。

介质离线存放,监管机构和有一些企业自身对数据安全的管理比较严格,是需要做介质离线并异地存放的。物理磁带和光盘介质是具备离线存放的。拿物理磁带库来说,做物理磁带的出库,并做登记,异地存放。需要注意的是要有比较完善的管理,最好的方式通过软件进行出库管理,并且能够和备份和恢复结合起来。介质存放的地点环境要符合介质长期存放的要求,确保介质不会受损影响未来需要时的恢复。

备份设备在备份系统里的功能主要是提供了备份数据路径和提供了备份介质用来存储数据。目前企业主要的备份设备是磁盘、磁带和光盘。有一些备份一体机实际存储介质是磁盘,物理和虚拟磁带库的存储方式是按照磁带的数据格式存储,但是虚拟磁带库实际的存储介质也是磁盘,光盘介质不同于磁带的线性存储方式,写入和读取的方式和磁带不同,和物理磁盘接近,同时也具有离线存储的功能特性。

针对磁盘备份设备而言,相对来说管理设计比较简单,只要有足够的空间,磁盘有足够的性能,就能备份。而且由于磁盘是个随机设备,所以在剪除过期数据的时候,没有比较多的考虑。而磁带备份设备相对复杂,备份的时候采用驱动器往往只能备份一个任务;而备份的介质是以磁带方式存放在带库中的磁带槽位中;因此在这里我们主要介绍备份系统中磁带备份设备和相关的设计原则,光盘备份设备也可以参考。

磁带备份设备的设计主要考虑两个方面:一是备份数据流,这个主要涉及驱动器池设计;另一个是备份介质池,这个涉及备份磁带池设计。

备份数据流设计原则:在备份系统中,可以将磁带库中一个或多个驱动器分配到一个或多个驱动器池中。这样用户就可以根据备份数据的多少和重要程度,合理的调配驱动器资源;确保重要数据能够及时备份,或者将多个任务负载均衡。

划分驱动器池的原则:确保最重要的备份任务有足够的驱动器能够备份数据。确保驱动器池最少,避免浪费。可以通过划分任务优先级,来使得重要的备份任务能够优先得到驱动器池中的资源。

备份介质池:在备份系统中,可以将不同槽位上的磁带分配到不同的介质池中,从而便于管理和维护。建议在备份管理系统中开启介质的条码或者标签管理,介质池的划分可以按保留时间或存储策略方式来划分的。

划分介质池的原则:介质池的数量尽量少,从而减少管理复杂度,使得磁带空间能够尽量共享,减少磁带空间浪费。按保留时间的不同来划分介质池。例如:14天的1个介质池,1个月的1个介质池。按磁带的用途来划分介质池。例如:1个介质池是专门存放在线磁带,用于恢复的;1个介质池是存放离线拿走磁带的。按存储策略个数或者用途来划分。

2.10. 元数据备份

备份管理系统是做备份管理的,备份数据的主要目的就是用来做恢复,备份的数据是企业的重要数据,那么管理备份数据的管理系统也是重要系统,备份系统元数据包括:备份的汇总索引,用户定义的备份计划和保留策略,相关客户端和备份设备。所以保护元数据非常重要。

专业的企业级备份管理系统都有专门的工具和策略来保护元数据库。如果备份系统没有保护元数据的专用工具,请定期将备份管理服务器上备份系统安装路径上的文件,复制到其它硬盘或设备上。请特别注意每一个备份集和备份管理系统的元数据中的备份索引之间的联系,备份数据的同时要关注备份索引的备份,恢复数据的时候要考虑备份索引数据的恢复和极限情况下整个备份管理系统的恢复。

你可能感兴趣的:(Basic,Knowledge,数据库,网络,大数据)