rowkey之字典序

rowkey是不可分割的字节数,按字典顺序由低到高存储在表中。一个空的数组用来标示表空间的起始或结尾。
大家需要对ascii码表有个清晰地认识。比如说为什么“19”的字典顺序是在“2”的前面呢。因为在hbase中rowkey是按照每一个字节的顺序比较的,先比较第一个字节,如果第一个字节小就不比较后面的,如果第一个字节相同比较第二个字节的大小,以此类推。所以“19”是两个字节,第一个字节的ascii码是49,比“2”的ascii的50小,所以字符串的19字典顺序比字符串小。

创建以19,2为start key 与end key的hbase表

 Configuration conf = HBaseConfiguration.create();
 conf.set("hbase.zookeeper.quorum", "m1,m2,m3");
 conf.set("hbase.zookeeper.property.clientPort", "2181");
 Connection connection = ConnectionFactory.createConnection(conf);
 Admin admin = connection.getAdmin();
 HTableDescriptor desc = new HTableDescriptor(TableName.valueOf(namespaceAsString + ":" + tableName));
 desc.addFamily(new HColumnDescriptor(familyName));
 String startKeyString="19";
 String endKeyString="2";
 byte[] startKey=startKeyString.getBytes();
 byte[] endKey=endKeyString.getBytes();
 byte[][] splitKeys = new byte[2][];
 System.out.println(splitKeys.length);
 splitKeys[0]=startKey;
 splitKeys[1]=endKey;
 admin.createTable(desc,splitKeys);

执行代码后,查看表的region分布为:


image.png

插入记录到表中的代码

 Table table = connection.getTable(TableName.valueOf(namespaceAsString, tableName));
 byte[] rowKey=Bytes.toBytes("3");
 Put put = new Put(rowKey);
 put.addColumn(Bytes.toBytes(familyName), Bytes.toBytes(columnName),  rowKey);
 table.put(put);

运行程序后,发现请求数变化,记录写入到start key为2的分区,而不是第一个region分区(start key为空,end key为19),因为记录存储在哪个region上,是根据记录的rowkey与分区的key进行按字节比较,决定最终存储位置。
“3“与”19“的第一个字符”1“比较,比”1“大,继续向接下来的key比较,”3“与”2“字符比较,比“2”大,所以存储在start key为“2”的region。


image.png

即使我们在创建分区指定的分区byte[]是乱序的,创建好表后table页面展示的region也是按照rowkey的字典序排列。

byte[][] splitKeys = new byte[4][];
System.out.println(splitKeys.length);
splitKeys[0]="a".getBytes();
splitKeys[1]="2".getBytes();
splitKeys[2]="19".getBytes();
splitKeys[3]="100".getBytes();
admin.createTable(desc,splitKeys);

创建好表后,各个region的信息,看到100排在了,19的前面,因为当rowkey比较完第一个字符后,会比较第二个字符,发现“0”小于“9”,所以"100"放在了"19"的前面。


image.png

ASCII Table参考

image.png

你可能感兴趣的:(rowkey之字典序)