hbase 顺序序列rowkey设计

import org.apache.hadoop.hbase.util.Bytes;
import org.apache.hadoop.hbase.util.MD5Hash;

public class SequenceIdRowKeyHash {

	/**
	 * @param args
	 */
	public static void main(String[] args) {
		// TODO Auto-generated method stub
		long userid = 100L;
		
		byte[] bytes = Bytes.toBytes(userid);
		String hashPrefix = MD5Hash.getMD5AsHex(bytes).substring(0, 4);
		System.out.println(hashPrefix);

		byte[] bytes2 = Bytes.toBytes(hashPrefix);
		//rowkey取md5(userid)的前四位+userid.前四位用来散列userid,避免写入热点。缺点,不支持顺序scan userId.
		byte[] rowkey = Bytes.add(bytes2, bytes);
		
		System.out.println(rowkey);
		
		//可通过rowkey逆推得到 userid
		System.out.println(Bytes.toLong(rowkey, 4, rowkey.length - 4));
	}

}
暂时想到这种设计方法,可以避免写入热点问题,也可以进行预分区提高并行写入的速度。单值rowkey查询也能保证,不过缺点也显而易见,就是scan范围查询出的不是连续的userid了。有没有人知道有两全其美的设计呢,或者更好的设计方案,请指导。

你可能感兴趣的:(hbase)