玩转HBase快照

常见的HBase数据迁移和备份的方式

我们知道目前HBase可以通过如下几种方式对数据进行数据的迁移和备份：

1、通过distcp命令拷贝hdfs文件的方式实现数据的迁移和备份

这种方式使用MapReduce实现文件分发，把文件和目录的列表当做map任务的输入，每个任务完成部分文件的拷贝和传输工作。在目标集群再使用bulkload的方式导入就实现了数据的迁移。

这种方式不好的地方在于需要停写，不然会导致数据不一致，比较适合迁移历史表（数据不会被修改的情况）

2、通过copytable的方式实现表的迁移和备份

这种方式是以表级别进行迁移的，其本质也是使用MapReduce的方式进行数据的同步，和上面distcp不一样的是吗，copytable的方式是利用MapReduce去scan源表的数据，然后把scan出来的数据写到目标集群，从而实现数据的迁移和备份。

这种方式相当于逻辑备份，需要通过大量的scan数据，对于很大的表，如果这个表本身又读写比较频繁的情况下，会对性能造成比较大的影响，并且效率比较低。

3、通过replication的方式实现表的复制

这种方式类似mysql的同步方式，HBase通过同步WAL日志中所有变更来实现表的同步，异步同步。

这种方式需要在两个集群数据一样的情况下开启复制，默认复制功能是关闭的，配置后需要重启集群，并且如果主集群数据有出现误修改，备集群的数据也会有问题。

4、通过Export/Import的方式实现表的迁移和备份

这种方式和copytable的方式类似，将HBase表的数据转换成Sequence File并dump到HDFS，也涉及Scan表数据。和copytable不同的是，Export不是将HBase的数据scan出来直接Put到目标集群，而是先转换成文件并同步到目标集群，再通过Import的方式导到对应的表中。

这种方式需要scan数据，也会对HBase造成负载的影响，效率不高。

5、通过snapshot的方式实现表的迁移和备份

这种方式就是我们今天要重点介绍的HBase快照，通过快照的方式实现HBase数据的迁移和拷贝。这种方式比较常用，效率高，也是最为推荐的数据迁移方式。

综上，我们可以分析了各种HBase数据的迁移和备份的方式的优劣，强烈推荐使用snapshot的方式来进行数据的迁移和备份，那么什么是snapshot？原理是什么？以及如何使用snap？在下面的篇幅中就来详细介绍一下HBase的快照功能。

一、HBase快照简介

HBase快照（snapshot）顾名思义就是在某个时刻对某个HBase表的数据做了快速备份，就像拍照一下，让数据停留在那个时刻不再变动，后面用来做数据的恢复或者迁移。HBase在0.94版本开始提供了快照功能，0.95版本以后默认开启快照功能。

HBase的snapshot其实就是一组metadata信息的集合（文件列表），通过这些metadata信息的集合，就能将表的数据回滚到snapshot那个时刻的数据。

二、HBase快照使用场景

简单概括HBase快照的使用场景如下：

1、HBase表的定期快速备份

2、升级前的HBase数据备份

3、集群间的数据迁移

4、构建测试环境数据

5、做数据恢复

三、HBase快照的详细原理

既然HBase的snapshot能快速实现HBase的数据备份，那么具体是怎么做到的呢？如何保证快照完后数据的完整性、一致性问题？下面就来详细介绍一下HBase快照的原理。

在介绍HBase的snapshot之前，首先我们要了解一下所谓的HBase的LSM类型的系统结构，我们知道在HBase中，数据是先写入到Memstore中，当Memstore中的数据达到一定条件，就会flush到HDFS中，形成HFile，后面就不允许原地修改或者删除了。如果要更新或者删除的话，只能追加写入新文件。

既然数据写入以后就不会在发生原地修改或者删除，这就是snapshot做文章的地方。做snapshot的时候，只需要给快照表对应的所有文件创建好指针（元数据集合），恢复的时候只需要根据这些指针找到对应的文件进行恢复就Ok。这是原理的最简单的描述，下图是描述快照时候的简单流程：

由上图可以看出创建snapshot的流程主要分为4个步骤，分别是：

1、对该表添加全局锁，不允许任何数据的写入、更新和删除

2、将该表内存中的数据（memstore）flush到HFile文件中

3、为该表涉及的各个region中所有HFile文件创建引用指针，并记录到snapshot文件中

4、Hmaster将所有的region的snapshot文件进行汇总形成总体的snapshot文件

四、HBase相关问题解析

了解了HBase快照的原理，这里自然就会有一些疑惑，下面是我再学习HBase快照的疑惑。

问题1：HBase的HFile会存在合并的机制，当HFile合并了以后，就不再是原来的HFile了，那么快照是如何保证在HFile合并后防止snapshot失效的问题？

解答：HBase的实现是将原始表的数据复制到archive目录下，再进行compact，这样spapshot就不会因为HBase的合并而失效了。在做完快照以后，你可以尝试对该表做major_compact操作，执行major_compact后，就能在archive目录下看到对应表的相关备份文件了。

问题2：如果一个表存在大量的region，在做快照的时候，那么多的region都需要做快照，那些region又分布在不同的regionserver上，怎么保证全部都能成功或者失败？

解答：HBase采用两阶段提交的方式来保证snapshot的原子性，要么成功，要么失败。两阶段提交分为prepare阶段和commit阶段，具体步骤如下：

1、prepare阶段：在prepare阶段HMaster在zookeeper上创建一个’/acquired-snapshot’节点，并记录snapshot表的相关信息。所有regionserver监测到这个节点后，会获取/acquired-snapshot节点中snapshot表的相关信息，并查看自身服务器上是否存在snapshot表的相关region，如果不存在，就忽略。如果存在就那些region做snapshot，并将snapshot的结果写入到临时文件夹【备注：之所以写入临时文件夹，是为了再失败的时候回滚方便】。regionserver再执行完后会在/acquired-snapshot下新建一个子节点/acquired-snapshot/nodex，表示nodex完成了该regionserver上所有相关region的snapshot的准备工作。

2、commit阶段：一旦Hmaster检查到/acquired-snapshot目录下的子节点全部都已经创建，则认为snapshot的prepare的阶段已经完成，这个时候，Hmaster会在ZK上创建一个新的节点/reached-snapshotname，表示发一个commit命令给参与的regionserver，regionserver监测到/reached-snapshotname节点后，就执行snapshot的commit操作。commit的操作只是将prepare阶段写到临时目录的snapshot结果移动到最终的文件夹中。执行成功后，regionserver会在/reached-snapshotname下创建/reached-snapshotname/nodex节点，表示nodex完成了snapshot工作。

如果所有参与的regionserver都在/reached-snapshotname下创建的子节点，则Hmaster确认快照创建已经成功。如果一定时间内，/reached-snapshotname下的子节点没有满足条件或者prepare阶段中/acquired-snapshot下的子节点不满足条件，则会进入第3个节点，abort阶段

3、abort阶段：HMaster会认为快照创建超时，进行回滚操作。此时Hmaster会在ZK上创建/abort-snapshotname节点，所有regionserver监听到会清理临时snapshot在临时文件夹中的生成结果。

五、HBase快照实战

1、创建snapshot

snapshot 'tableName', ‘snapshotName'

2、查看snapshot

list_snapshots

查找以map开头的snapshot

list_snapshots 'map.*'

3、删除snapshot

delete_snapshot 'snapshotName'

4、迁移snapshot

hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot \

   -snapshot snapshot_src_table \

   -copy-fromhdfs://src-hbase-root-dir/hbase\

   -copy-tohdfs://dst-hbase-root-dir/hbase\

   -mappers 20 \

   -bandwidth 1024

这种方式用于将快照表迁移到另外一个集群的时候使用，使用MR进行数据的拷贝，速度很快，使用的时候记得设置好bandwidth参数，以免由于网络打满导致的线上业务故障。

5、恢复snapshot

restore_snapshot ‘snapshotName’

备注：这种方式需要对表进行过disable才能进行restore_snapshot的操作，如果这个还在写入数据，则需要采用bulkload的方式导入。

6、将snapshot使用bulkload的方式导入

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles \

-Dhbase.mapreduce.bulkload.max.hfiles.perRegion.perFamily=1024 \

hdfs://dst-hbase-root-dir/hbase/archive/datapath/tablename/filenametablename

备注1：这种方式需要将所有的文件进行遍历并全部通过bulkload导入，上面的只是一个文件的导入，这种方式不需要disable表。

备注2：上面的操作1、2、3、5都是在hbase shell中执行。

参考资料

Introduction to Apache HBase Snapshots：http://blog.cloudera.com/blog/2013/03/introduction-to-apache-hbase-snapshots/

Introduction to Apache HBase Snapshots, Part 2: Deeper Dive：http://blog.cloudera.com/blog/2013/06/introduction-to-apache-hbase-snapshots-part-2-deeper-dive/

http://hbasefly.com/2017/09/17/hbase-snapshot/

http://km.oa.com/group/26245/articles/show/325482