也来谈谈虚拟化备份
原创: 邵博 大兵说安全 2018-03-09
一、概述
虚拟化备份技术最早是由VMware提供和发起的,随着虚拟化应用在企业和各个行业的普及,主流的备份产品基本都支持VMware、Hyper-V、Citrix和基于Xen或KVM派生出来的虚拟化平台。
虚拟机备份,不同于虚拟机快照,虚拟机备份是虚拟化数据保护最重要的基础措施。很多刚接触虚拟化的用户经常将虚拟机快照认为是备份,其实是严重错误的。原因如下:
1. 快照永远不能成为虚拟化本地备份的解决方式。
2. 一旦使用快照恢复以前的状态就永远无法返回到现在状态。
3. 一旦虚拟机磁盘文件损坏,快照也随之失效。
4. 快照只能进行基于整个虚拟机镜像的恢复,无法做到文件级或者应用粒度还原。
5. 快照只能作为一种保护虚拟化快速恢复的一种辅助手段。
6. 不是所有的虚拟机都能使用快照,但是所有的虚拟机都可以使用备份。
7. 过多的快照极度影响虚拟机性能,同时快照建立或删除过程中有可能损毁虚拟机数据。
虚拟化平台备份目前有两种主流备份方案,一种为无代理备份(Agentless),另一种为有代理备份(Agent)或称为Guest OS级别备份。本文将通过分析对比无代理和有代理备份的优势、缺点来总结虚拟化备份的最佳实践经验。
二、无代理备份分析
无代理备份通常是指,在虚拟机上不需要安装任何备份代理程序(或称为客户端、探针),通过在ESXI主机或Hypervisor集群上部署一个或几个代理虚拟机(备份代理应用)来捕获备份VM。
无代理备份的优势非常明显:
1. 部署安装简单,无需在每个虚拟机上安装备份代理,仅通过配置hypervisor集成即可全自动部署完毕。
2. 无代理备份充分利用虚拟化厂家提供的专用备份接口,在备份虚拟机时,可优化资源耗用,降低备份时虚拟机自身负载压力。
3. 在专属适配的虚拟化平台上使用无代理备份产品,可实现一些虚拟化平台特有的备份、恢复功能。(比如CBT\RCT块跟踪、瞬时恢复、虚拟机复制等)
4. 按虚拟化厂家宣传,无代理备份和恢复速度更快。
5. 无代理备份在实现LAN-FREE或Server-Free备份方式上更有优势。
正如上所述,无代理备份被很多备份厂家,特别是虚拟化厂家极力推崇。很多用户也认为无代理备份能跟虚拟化平台结合更好。
但实际应用上无代理备份也有很多问题,实际操作中,发现无代理备份的缺陷如下:
1. 受限于虚拟化厂家提供的备份接口,部分无代理备份产品无法做到应用程序感知、细粒度数据恢复以及RDM(裸磁盘映射)虚拟机备份。
2. 无代理备份对VM做备份时,虚拟化平台先对要备份的VM抓取快照,再将快照信息传递给无代理备份软件。而正是这个VM快照,对于高I/O或数据量极大的VM(TB级的VM)和有多磁盘结构的VM最容易出现问题,快照时间可能会持续数小时甚至数天。快照过程中一旦虚拟机磁盘文件出现异常,很有可能导致VM崩溃。在备份即将结束,删除快照时也可能出现类似的情况。而且,虚拟化平台自身快照经常出现无法静默应用的情况。特别是数据库类型VM,在恢复时可能会出现数据一致性问题。
3. 在实际场景下,无代理备份资源耗用并不比有代理方式低,而且在某些情况下消耗更多。无代理虚拟化备份需要特别注意CPU资源的消耗,因为宿主机CPU是一种更有限的资源,通常1个core与6个或更多的虚拟机共享。仔细分析,在备份时造成CPU使用率峰值有两个主要原因。其一,当备份代理必须扫描整个文件系统以查找符合备份条件的文件(通常是自上次备份以来更改的那些文件)时,CPU会出现峰值。例如,在增量备份或差异备份期间,这种目录树的遍历非常耗时且需占用大量CPU资源。其二,备份过程中的数据的实际传输会导致CPU出现峰值。目前虚拟化厂家针对第一个CPU峰值问题,相继开发出了块跟踪技术(例如VMware的CBT、Hyper-V 2016的RCT等),通过跟踪底层磁盘块的改变,不再遍历对比VM内的目录文件,来优化增量\差异备份时的资源消耗,。
4. 真实场景下,无代理备份速度较慢。在不降低业务应用程序速度的情况下,无代理备份一般限制每个宿主机上同时备份2个VM。尽管无代理解决方案声称具有优势,它们使用块跟踪技术,可减少传输的数据。但是无代理备份方法更多的采用是一种盲扫,需要对备份过程采用“拉取”方法,会降低CPU的速度。很多无代理备份产品可调整VM并发备份数量,一般最大为10-15个左右并发(最大数量限制也是由虚拟化平台自身限制,同备份软件无关)。但实际场景下,不建议开启最大并发,会极大加重虚拟化平台的负载压力,要根据实际虚拟机数量以及平台性能来确定最合理的并发备份数。
5. 无代理备份严重依赖Tools类工具(例如VMware Tools、Hyper-v系统集成工具、KVM的virt-tools等),当VM的tools无法正常运行或者没有及时更新时,会导致无代理备份出现无法使用CBT/RCT块跟踪或快照异常、VM无法静默等情况。
6. 无代理备份通常要求虚拟机所在存储卷至少保留有25%的剩余空间,如果存储空间不足,无代理备份快照会引起存储卷告警或者虚拟机快照失败。
7. 如果虚拟机所在的存储卷发生掉卷或者处于非活动状态,无代理备份将失败。
三、 有代理备份分析
有代理是指安装在服务器上执行特定功能的小型应用程序。常见的例子是备份应用程序在服务器上安装的客户端,用于备份服务器并为运行在该服务器上的应用程序提供特定的服务。自从虚拟化流行起来后,有代理备份方式并不受虚拟化用户欢迎。其原因如下:
1. 部署方式复杂,需要在要备份的虚拟机中安装客户端代理程序,对于拥有庞大虚拟机数量的用户来说,这是个致命的问题。
2. 软件兼容性问题,有代理方式在VM中安装,通常要先做环境检查,排除与备份软件不兼容的情况(例如防病毒、系统兼容性、特殊安全应用等)。
3. 当要备份的VM都过于集中在集群中某几台宿主机时,会导致并发备份时宿主机资源负载加重,并冲击业务虚拟网络。
4. 有些备份软件不具备针对物理设备的磁盘块跟踪功能,有代理备份时采用文件级备份,增量\差异备份时会加重VM的负载压力。同时备份速度慢。
5. 有代理相比无代理维护更困难。比如,关机的VM无法备份或者个别VM基于安全需要只开放部分端口,导致代理程序无法连接或无法传输数据等。
尽管有代理备份方式在虚拟化环境下劣势明显,但自身也有很多优势:
1. 备份VM时不依赖虚拟化平台快照,在Guest OS系统上直接调用系统快照(系统vss或LVM快照等),对于高I/O和数据量大的VM以及多磁盘结构VM的备份,稳定性更好。
2. 备份VM时带有应用程序感知,可支持Exchange、SQL-server、AD、Oracle、SharePoint、文件等细粒度恢复。
3. 对于支持物理设备块跟踪的备份软件来说,有代理备份相比无代理备份备份和恢复速度更快。
4. 有代理备份在备份带有数据库业务的虚拟机时,可配置调取数据库备份脚本,不仅可以单独备份数据库,还可使数据库的数据一致性更有保障。
5. 有代理备份不受虚拟化平台并发备份数限制,只要网络能够承受,并发VM备份数量无上限。
6. 可支持的虚拟化平台广泛,有代理备份方式几乎可以支持所有的虚拟化平台,在软件授权允许的情况下,基本不受虚拟化厂家限制。
四、 虚拟化备份的实践经验
根据自己在项目中的一些实施经验,在大规模的虚拟机备份上可以采用以下备份步骤(以VMware虚拟化为例):
1. 在当前虚拟化平台中提取全部虚拟机信息到EXCEL表单中,将数据量大(超TB的)、多磁盘结构、RDM、核心数据库类型(高I/O)、已掉存储卷(或所在存储卷非活动状态的)的VM等全部筛选出来。在这类无法使用无代理备份的VM中安装有代理备份。
2. 除上述类型之外的虚拟机可采用无代理方式备份。
3. 采用无代理备份虚拟机(特别是Windows系统虚拟机)务必确认VMware Tools已经正确安装,并且VMware Tools各项系统服务正常运行。有发生提示VMware Tools更新或无法运行的,需要及时更新VMware Tools或卸载重新安装。
4. 规划备份网络架构,环境要求是否符合使用LAN-BASE\LAN-FREE\SERVER-FREE等配置要求。
1) 传统LAN-BASE架构中,无代理虚拟化备份网络要最少达到千兆网络标准(推荐万兆网络)。最佳实践建议,在每台ESXI主机上富余至少一个物理网口,将该物理网口分配至备份专用虚拟网络中,备份数据通过每台ESXI主机上的专用网口走备份传输网络,与业务网络隔离,避免备份时大数据量传输对业务网络造成冲击。备份存储服务器,可考虑采用多网卡绑定,同时如果交换机支持,可在备份存储服务器连接的交换机端口上使用多链路汇聚方式,增加备份存储服务器带宽。如无法满足最佳实践要求,建议备份数据流走虚拟网络中负载压力较低的非核心业务网段。
2) 在LAN-FREE架构中,要特别注意实施前环境检查,主要检查VMFS卷结构以及存储状态、多路径映射、存储LUN结构等。如发现虚拟化存储中存在组合卷(由多个存储lun组成的一个VMFS卷),这种卷VMware自身不支持LAN-FREE备份,只能使用LAN-BASE方式。此外,LAN-FREE架构的备份涉及到生产存储mapping,实施有一定风险,如果操作不当,后果严重。
3) Server-Free架构一般需要存储设备和备份软件之间互相兼容,不同的备份产品支持的存储设备不同,因此实际项目中使用该方法不多。
5. 虚拟机备份要准备单独的备份存储服务器或备份存储设备,不可占用宝贵的生产存储空间。同时基于安全性考虑,备份数据如果同生产数据放置在同一存储上,一旦存储发生故障,将无备份数据可供恢复。要做到备份数据同生产数据分开存放。
6. 备份时间窗口规划。任何备份产品在备份时均会对前端应用造成不同程度的业务影响。因此,在实施备份项目中,一定要预留好备份时间窗口。备份时间窗口一般预留在业务较少时段,根据备份数据的总体大小以及传输率可大概计算出备份所需时间。由于虚拟化平台虚拟机数量多,建议根据不同业务类型划分成虚拟机组,为虚拟机组预留不同的备份窗口。
7. 虚拟机备份周期直接影响数据可恢复的时间点,因此,要针对不同业务的虚拟机分组,按照RPO/RTO的要求制定不同的备份周期。
8. 是否采用重复数据删除。要根据虚拟化存储数据量、备份存储所需空间以及备份时间窗口来决定是否采用重复数据删除。如要备份的虚拟机多,数据量大,且备份所需存储空间不足,备份窗口时间短,采用重复数据删除是最佳方案。但重复数据删除对备份存储服务器硬件性能有一定要求,因此建议参考备份产品厂家要求配置重删服务器。此外,重删有一定风险,一旦重删数据库损坏,所有备份将无法恢复。建议对于开启重删的备份数据,一定要有第二份副本,尽量满足备份的3-2-1原则要求。最后,重复数据删除每个备份厂家均有最佳实践做法,但基本思路一致,一般先备份虚拟化平台中几个典型虚拟机,之后再批量备份可达到最佳重删效果。
9. 无代理备份虚拟机并发限制,一般建议一个备份计划按照VMware默认2个虚拟机并发备份为佳。可根据虚拟化平台性能、网络带宽使用综合考虑后,调整并发数量。但建议不要将并发数调整过多或启用最大并发,否则虚拟化平台压力极大,可能出现通信问题,虚拟机业务出现意外,备份失败。
10. 根据业务制定好备份计划,备份计划之间要确保留有一定的时间间隔。避免在同一时间段,出现大批量虚拟机同时启动备份的情况,造成网络和CPU负载大面积波动。
11. 依据不同业务类型,确定备份保留周期。时效性强的业务建议备份可保留1-2周时间。需要归档的虚拟机建议保留周期设定为3个月以上。保留周期同备份存储使用率密切相关,因此要细致规划不同虚拟机组的数据保留时间。
12. 采用有代理备份的Windows VM,为了部署方便,可采用远程推送方式安装备份代理。如果推送条件不满足,则使用本地安装。推送或本地安装代理前一定要注意安装环境检查,可从补丁、兼容性、网络、配置等方面逐一排查。
13. 虚拟化备份方案实施后,要密切观察1-2周每天的备份情况以及业务影响情况,发现备份异常或影响正常业务要及时调整备份策略,不断优化备份方案直至备份稳定。
五、总结
虚拟化备份项目看似简单,但需要从虚拟机数量、存储架构、网络架构、备份计划周期等多方面考虑备份方案,结合虚拟化平台的实际情况确定实施流程,并不断优化备份策略。
本文部分内容参考STORAGE SWITZERLAND虚拟化和存储市场分析公司,高级研究员George Crump《5 MISPERCEPTIONS OF AGENTLESS VMWARE BACKUP》文章观点。原文地址http://wenku.it168.com/d_001235781.shtml
文章最后感谢山东Mark给予的帮助和支持。
欢迎关注:大兵说安全