通过Bulk Load导入HBase海量数据

如果我们一次性入库hbase巨量数据,处理速度慢不说,还特别占用Region资源,一个比较高效便捷的方法就是使用“Bulk Load”方法,即HBase提供的HFileOutputFormat类。
它是利用hbase的数据信息按照特定格式存储在hdfs内这一原理,直接生成这种格式文件,然后上传至合适位置,即完成巨量数据快速入库。配合mapreduce完成,高效便捷,而且不占用region资源。
使用bulk load功能最简单的方式就是使用importtsv工具。importtsv是从TSV文件直接导入数据至HBase的一个内置工具。
importtsv工具不仅支持将数据直接加载进HBase的表中,还支持直接生成HBase自有格式文件(HFile),所以你可以用HBase的bulk load工具将生成好的文件直接加载进运行中的HBase集群。

步骤

首先将tsv格式的数据文件上传到HDFS上。然后运行

hbase org.apache.hadoop.hbase.mapreduce.ImportTsv 
-Dimporttsv.columns=HBASE_ROW_KEY,columnfamily:qualifier table_name input_file

Importtsv工具默认使用了HBase的Put API来将数据插入HBase表中,在map阶段使用的是TableOutputFormat 。但是当-Dimporttsv.bulk.output输入选项被指定时,会使用HFileOutputFormat来代替TableOutputFormat,输出HFile文件。而后我们能够使用LoadIncrementalHFiles来加载生成的文件到一个运行的集群中。

加上-Dimporttsv.bulk.output=output选项,则输出bulk,如不用此选项,目标表需在HBase已存在。
HBASE_ROW_KEY指定rowkey,必选。
HBASE_TS_KEY指定时间戳,可选,最多指定一列时间戳,带无效时间戳的record将是bad record。如果使用这个选项,importtsv.timestamp选项将被忽略。
其他选项
-Dimporttsv.skip.bad.lines=false - fail if encountering an invalid line
‘-Dimporttsv.separator=|’ - eg separate on pipes instead of tabs
-Dimporttsv.timestamp=currentTimeAsLong - use the specified timestamp for the import
-Dimporttsv.mapper.class=my.Mapper - A user-defined Mapper to use instead of org.apache.hadoop.hbase.mapreduce.TsvImporterMapper
-Dmapred.job.name=jobName - use the specified mapreduce job name for the import
-Dcreate.table=no - can be used to avoid creation of table by this tool
Note: if you set this to ‘no’, then the target table must already exist in HBase

For performance consider the following options:
-Dmapred.map.tasks.speculative.execution=false
-Dmapred.reduce.tasks.speculative.execution=false

如果输出是HFile文件,还需要用下面的命令导入HBase:

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles  bulk_path table_name

运行该命令的本质是一个hdfs的mv操作,并不会启动MapReduce。读取生成的文件,判断它们归属的区域,然后访问适当的区域服务器。区域服务器会将HFile文件转移进自身存储目录中,并且为客户端建立在线数据。

参考文献

《HBase Administration Cookbook》
HBase数据迁移
http://www.importnew.com/3912.html
LoadIncrementalHFiles是copy而不是move的疑惑
http://www.thinksaas.cn/group/topic/233674/


初次导入的时候还存在这种情况(《Hadoop权威指南》P427):

如果一个表是新的,并且一开始只有一个区域。此时所有的更新都会到这个区域,知道区域出现分裂为止。即使数据行的键是随机分布的,我们也无法避免这种情况。这种启动现象意味着上传数据在开始时比较慢,知道有足够的区域被分布到各个节点,集群的成员都能参与上传为止。

可以通过预先建立多个区域,来实现随机分布,较少分裂。
另一种解决办法是直接生成HFile文件。

执行

hbase org.apache.hadoop.hbase.util.RegionSplitter -c 10 -f info new UniformSplit

可新建一个表new,拥有列族info,10个区域。不带参数可查看其用法。

你可能感兴趣的:(Old,Hadoop)