HBASE表设计细节

首先我们来看下HBase表特点
特点1:每行数据都必须指定一个行键,而且行键是唯一的,HBase本质上是一种Key Value结构存储系统。
特点2:HBase的列族数量在建表时固定,但是列可以后续增加。
特点3:HBase表可以设计的很稀疏,如果某个Cell没有数据,不会浪费磁盘空间。
特点4:HBase表按行键做排序,按字典序排序。
HBASE表设计细节_第1张图片

Rowkey设计

Rowkey是不可分割的字节数,按字典排序由低到高存储在表中,在设计HBase表时,Rowkey设计是最重要的事情,应该基于预期的访问模式来为Rowkey建模,Rowkey决定了访问HBase表时可以得到的性能,原因有两个:
1)Region基于Rowkey为一个区间的行提供服务,并且负责区间的每一行;
2)HFile在硬盘上存储有序的行。
这两个因素是相互关联的,当Region将内存中数据刷写为HFile时,这些行已经排过序,也会有序地写到硬盘上。Rowkey的有序特性和底层存储格式可以保证HBase表在设计Rowkey之后的良好性能。关系型数据库可以在多列上建立索引,但是HBase只能在Rowkey上建立索引,而设计Rowkey有各种技巧,而且可以针对不同访问模式进行优化,接下来我们就研究一下。
1.将Rowkey以字典顺序从大到小排序
原生HBase只支持从小到大的排序,但是现在有个需求想展现影片热度排行榜,这就要求实现从大到小排列,针对这种情况可以采用Rowkey=Integer.MAX_VALUE-Rowkey的方式将Rowkey进行转换,最大的变最小,最小的变最大,在应用层再转回来即可完成排序需求。
2.RowKey尽量散列设计
最重要的是要保证散列,这样就会保证所有的数据都不是在一个Region上,从而避免读写的时候负载会集中在个别Region上。比如ROWKEY_Random
3.RowKey的长度尽量短
如果Rowkey太长,第一存储开销会增加,影响存储效率;第二内存中Rowkey字段过长,会导致内存的利用率降低,进而降低索引命中率。Rowkey是一个二进制码流,Rowkey的长度被很多开发者建议说设计在10~100个字节,不过建议是越短越好,不要超过16个字节。原因如下:
1)数据的持久化文件HFile中是按照KeyValue存储的,如果Rowkey过长比如100个字节,1000万列数据光Rowkey就要占用100*1000万=10亿个字节,将近1G数据,这会极大影响HFile的存储效率;
2)MemStore将缓存部分数据到内存,如果Rowkey字段过长内存的有效利用率会降低,系统将无法缓存更多的数据,这会降低检索效率。因此Rowkey的字节长度越短越好。
4.RowKey唯一
5.RowKey建议用String类型
虽然行键在HBase中是以byte[]字节数组的形式存储的,但是建议在系统开发过程中将其数据类型设置为String类型,保证通用性。常用的行键字符串有以下几种形式:
1)纯数字字符串,如9559820181226;
2)数字+特殊分隔符,如95598-20181226;
3)数字+英文字母,如city20181226;
4)数字+英文字母+特殊分隔符,如city_20181226
6.RowKey设计得最好有意义
RowKey的主要作用是为了进行数据记录的唯一性标示,但是唯一性并不是其全部,具有明确意义的行键对于应用开发、数据检索等都具有特殊意义。譬如数字字符串:9559820181226,其实际意义是这样:95598(电网客服电话)+20181226日期)。行键往往由多个值组合而成,而各个值的位置顺序将影响到数据存储和检索效率,所以在设计行键时,需要对日后的业务应用开发有比较深入的了解和前瞻性预测,才能设计出可尽量高效率检索的行键。
7.具有定长性
行键具有有序性的基础便是定长,譬如20181226080500、20181226083000,这两个日期时间形式的字符串是递增的,不管后面的秒数是多少,我们都将其设置为14位数字形式,如果我们把后面的0去除了,那么201812260805将大于20181226083,其有序性发生了变更。所以我们建议,行键一定要设计成定长的。此外,目前操作系统是都是64位系统,内存8字节对齐。控制在16个字节,8字节的整数倍利用操作系统的最佳特性。列族的设计在设计hbase表时候,列族不宜过多,尽量的要少使用列族。经常要在一起查询的数据最好放在一个列族中,尽量的减少跨列族的数据访问。
下面我们看两个案例:
案例一、网络数据访问

假如现在我们数据库里有两张表:
1.用户表
id name age gender email
001 zhang 19 男 [email protected]
002 wang 20 男 [email protected]
2.用户访问的网页表
host viewtime content userid
www.baidu.com 2018-12-26 xxxx 001
www.sina.com 2018-11-10 xxxx 001
www.souhu.com 2018-11-09 xxxx 001
www.baidu.com 2018-11-20 xxxx 002
www.163.com 2018-12-20 xxxx 002

如果现在要将这两张表设计为Hbase表,如何设计行键?

行键怎么设计,直接决定了查询语句怎么写,在这里我们可以将行键设为:日期_姓名这种形式:
2018-12-26_zhang
2018-11-10_zhang
2018-11-09_zhang
2018-11-20_wang
2018-12-20_wang
则在查询时,我们可以利用hbase提供的过滤器进行日期范围的查询:
Filter filter=new PrefixFilter(“2018-12-26”.getBytes());
也可以查询以人名为过滤条件的查询。所以在hbase中,行键的设计很重要,要结合具体业务。
案例二、 动物分类
如果一位生物科学家要存储一些动物相关信息,其中要包括动物的大类,以及一些大类动物下包括的小类,这样可以方便今后查询某种具体动物属于哪一类别,以及动物名字具体是什么。下面简单列举一些动物分类如下:
Animal
Pig
Cat
Monkey
Dog:Red dog和Black dog
Tiger:Tiger of northeast
其中,Animal是顶级分类,Pig、Cat、Monkey、Dog和Tiger属于一级分类,而Dog中的Red dog和Black dog,以及Tiger中的Tiger of northesst属于二级分类。
RDBMS表结构设计
动物分类在关系型数据库的设计中只需要考虑主键的映射关系即可,需要一个分类表结构。每种动物都有几个关键字段:id、name、parent_id和child_id,如表所示:
HBASE表设计细节_第2张图片
HBase中表结构设计
对于动物分类的HBase表结构设计,Rowkey对应RDBMS中的id,共有三个列族:name、parent和child,详细设计如下表
HBASE表设计细节_第3张图片
通过这个简单的例子可以看出,这两种表结构设计有本质的区别,一个是行式存储,一个是列式存储,所以刚刚接触HBase的读者需要转换思维设计表结构,这样才能够更好地掌握HBase的表模式设计。

你可能感兴趣的:(大数据)