Hbase写入性能优化

背景

HBase是一个nosql数据库，既然是数据库，就会涉及到增删改查，而且hbase一般是海量数据场景下使用，使用的不好就会出现性能问题，这里我将自己总结的一些经验分享给大家，仅供参考。

1.数据格式

io是影响性能的主要方面，数据要经过client提交给server端，然后再持久化到磁盘，数据本身越小性能越高。

hbase可以通过rowkey快速查询，也可以通过filter进行过滤搜索（不建议使用，性能很差），其他不需要查询的数据可以尽可能的减小，比如将其他数据进行压缩（同时需考虑解压缩的性能开销），一般我们用protobuf进行编码后再进行存储（编码后会不方便查看，但比存json性能高，反序列化性能也比json好）；另外，在定义cloumn时，也尽可能短，不要使用超长字符串定义属性。

2.启用表压缩

启用表压缩可以很大程度节约磁盘，一般采用LZO或者snappy进行压缩，如果是json数据，压缩效率可以达到90%。

3.启用分表策略

超大表在使用时会存在诸多不便，region非常多，不按rowkey的数据访问性能极差，一些数据导出功能基本不可用，数据迁移要命等都是致命问题。

hbase不像elasticsearch天生就支持分表，因此需要自己定义分表策略，可以根据数据的规模和使用途径，按业务类型或者年，月，日等进行分表，分表会带来几个问题：

（1）无法知道某个用户（假设存的是用户数据）是否产生过数据，因为分布在很多表里，这个时候如果要查询数据，需要定义查询范围，比如最近一个月或者6个月。

（2）如果想查询某个用户最后一次上报数据，需要通过视图，快照的方式弥补。

（3）由于分表之后会不断创建新表，需要注意写热点问题。

但分表的好处也不少：

（1）方便做数据老化，可以按天或者按月做数据删除或者归档到磁带。

（2）分表之后，新表的region相对要少的多，数据量也少的多，再做数据扫描时效率要高。

（3）数据迁移和备份的效率要高，可以对单个表做迁移和备份。

4.启用建表预分区

hbase建表是默认只有一个region，也就是说所有的数据都会往一个region里面写，当然可以通过region拆分策略分成多个region，但具体多少region才会匹配当前服务器的能力？再加上如果启用了分表策略，每次新建表的时候都会出现写热点，这个时候会是致命的。

region预分区就是提前创建多个region，每个region有startkey和endkey，不同的数据根据自己生成的rowkey会落入不同的region。具体分多少个region，可以根据集群的数量，数据的并发等来决定，预分的region数不代表将来总的region数，在预分的region达到region拆分的策略后还会进行自动拆分。

5.多线程写入

多线程写入，一是可以充分利用client端物理资源，避免客户端的逻辑处理，导致写入性能卡在客户端；二是可以快速写满buffer，快速的刷写磁盘，一般我们采用线程池进行写操作，但同时要注意线程队列的控制，避免OOM，对于客户端的内存容量，也需要适当调高一些。

6.批量异步提交

hbase1.x之后，有新的api支持异步提交，通过BufferedMutator API，每次提交List的数据。一般我们会结合kafka进行实时数据存储，通过kafka的批量拉取特性，批量提交hbase。

7.hbase日志文件写入（WAL）

WAL又可以理解HLOG操作，是保证数据可靠性的重要举措，HLOG存储在hdfs上，当出现宕机或者regionserver挂掉等场景，数据可以从hlog恢复。

WAL分异步和同步，也可以关闭，hbase默认是同步写hlog，为了提升性能，我们可以改为异步写hlog或者不写hlog（需要评估数据的重要性，短暂的少量数据丢失是否可以容忍），WAL有以下几种策略。

SKIP_WAL：只写缓存，不写HLog日志。这种方式因为只写内存，因此可以极大的提升写入性能，但是数据有丢失的风险。在实际应用过程中并不建议设置此等级，除非确认不要求数据的可靠性。

ASYNC_WAL：异步将数据写入HLog日志中。

SYNC_WAL：同步将数据写入日志文件中，需要注意的是数据只是被写入文件系统中，并没有真正落盘，默认。

FSYNC_WAL：同步将数据写入日志文件并强制落盘。最严格的日志写入等级，可以保证数据不会丢失，但是性能相对比较差。

同样，除了在创建表的时候直接设置WAL存储级别，也可以通过客户端设置WAL持久化等级，代码：

put.setDurability(Durability.SYNC_WAL);

8.关于Compaction

hbase默认是自动进行Compaction，即hfile的自动合并操作，合并会带来较大的资源开销，因此我们需要合理的Compaction策略，一个是Compaction文件数量的合理设置，另一个是选择凌晨等数据写入较少的时候Compaction，需要采用手动Compaction，禁用自动Compaction。

Hbase写入性能优化

Hbase写入性能优化

背景

1.数据格式

2.启用表压缩

3.启用分表策略

4.启用建表预分区

5.多线程写入

6.批量异步提交

7.hbase日志文件写入（WAL）

8.关于Compaction

你可能感兴趣的:(Hbase写入性能优化)