HBase调优:预分区与行键设计

HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey,在数据写入时,所有数据都会写入这个默认的region,随着数据量的不断增加,当该region不能承受不断增长的数据量时,会进行split,分成2个region。在此过程中,会产生两个问题:
1.数据往一个region上写,会有写热点问题。
2.region split会消耗宝贵的集群I/O资源。

基于此我们可以控制在建表的时候,创建多个空region,并确定每个region的起始和终止rowkey,这样只要我们的rowkey设计能均匀的命中各个region,就不会存在写热点问题。自然split的几率也会大大降低。当然随着数据量的不断增长,该split的还是要进行split。像这样预先创建hbase表分区的方式,称之为预分区。

1.行键设计

hash(主键) + 年月日时(2019062315)
这里只取hash(主键)的前6位,使得行键的长度正好是16,也就是8的整数倍,在64位计算机中,效果最好。

2.标签设计

列族固定,只有一个,设为f,标签为分钟加上秒数:
分秒(5623)
如果需要精确到毫秒,可以为列族f设置有多个版本或者将标签设计为分秒毫秒(5623142)或者分秒.版本号(5623.1)

3.计算预分区的分割键

  1. 计算所有主键的前6位MD5值
  2. 利用TreeSet对MD5值进行排序
  3. 按分区的数量,通过均匀平分的方法,找出特定的分割键
  4. 注意:如果主键的数量很多,导致前6位MD5值不唯一,需要适当增大位数。

4.代码实现

import org.springframework.util.DigestUtils;
import java.util.Map;
import java.util.Set;
import java.util.TreeSet;
//计算前6位的MD5值
public static String hash(String key){
    return DigestUtils.md5DigestAsHex(key.getBytes()).substring(0, 6);
}
//计算预分区的分割键
public static String[] getSpiltKeys(int regionNum)
{
    if (regionNum < 2)
        return null;
    Set set = new TreeSet<>();
    DCSPoint[] points = DCSPoint.values();
    for (DCSPoint point : points)
    {
        set.add(hash(point.getFullName()));
    }
    int size = set.size();
    if (size < points.length)
    {
        return null;
    }
    String[] array = new String[size];
    set.toArray(array);
    String[] keys = new String[regionNum-1];
    for (int i = 0; i < regionNum-1; ++i)
    {
        keys[i] = array[size/regionNum * (i+1)];
    }
    return keys;
}

5.预分区

一个regionserver可以管理的region数量和列族数量与每个列族缓存的大小有关,计算公式如下:

((RS memory) * (total memstore fraction)) / ((memstore size)*(families))

我这里只分了三个region,用hbase shell命令创建表,设置预分区数量为3

create 'DCS', 'f', SPLITS => ['541319','a49d81'] ;

下图中,可以看到,预分区以后,数据的读写访问请求数量均匀分布在3台RegionServer上,避免了热点问题。


HBase调优:预分区与行键设计_第1张图片
预分区效果

你可能感兴趣的:(HBase调优:预分区与行键设计)