从零开始java分布式主键篇:分布式id

目录

 

一:Mysql自增排序  

二:Mysql的主键排序

三.分布式主键策略

1.集群或者分布式下数据库自增主键带来的风险

2.分布式主键方向  

3.数据库层面方案(一)设置步长

(1)方案

(2)优点

(3)缺点

4.数据库层面方案(二)查询MAX(ID)  

          (1)方案

(2)优点

(3)缺点

5.数据库层面方案(三)-单独一张id表

6. 数据库层面方案(四)-redis 

(1)方案

(2)优点

(3)缺点

7.应用层面(一)-UUID

 (1)方案

(2)优点

(3)缺点

8.应用层面(二)-其他算法

(1)方案

(2)优点

四:雪花算法


一:Mysql自增排序  

  在日常的开发中,大都数的时候我们熟悉使用了Mysql的自增主键。但是这种方案使用在单体单机应用下,一旦出现集群或者分布式环境就会出现主键不唯一的问题。

  下面我们将从Mysql的自增主键说起以及解决分布式主键生成策略。

二:Mysql的主键排序

   谈到主键排序就不得不提到引擎,因为在Mysql的之间排序是由引擎来决定的。在Mysql中,我们常用的数据库引擎有2个:MyISAM和InnoDB,在大多数的开发的场景我们使用的是后者。我大概记得应该在Mysql5.4之后,Mysql的默认引擎由MyISAM变成了InnoDB。

  下面我们简单比较一下这2个引擎的区别:

(1)InnoDb:支持事物,行级锁,以及全文索引。

(2)MyISAM:大数据读取快(因为MysISAM会存储select count(*)),不支持事务杭锁等。

  下面再来简单比较一下2个引擎读取数据的顺序

(1)InnoDB:按照主键进行排序(因为主键实则就是一种索引规则)

(2)MyISAM:按照堆表结构方式排序

                         ps:一旦MyISAM出现增删改时,顺序就会乱

  下面我们再来简单标记一下2个引擎的使用场景

(1)InnoDB:大多数的开发场景,目前我们使用的MYSQL都是使用的默认引擎

(2)MyISAM:一些不需要事物支出的,比如单纯的订单,操作日志等

  下面我们来简单比较一下2个引擎排序的原理

(1) InnoDB:聚簇索引表

   聚簇索引表,表数据和主键一期存储,一级节点存储行数据,二级节点存储主键值。因此,我们常常在建表就指定一个默

             认。大大提高了I/O密集型应用的性能。

(2)MyISAM:堆表结构

   在默认的情况下,不做修改等,会按照插入的顺序。

三.分布式主键策略

  不用问这里的策略针对分布式,针对InnoDB引擎。

1.集群或者分布式下数据库自增主键带来的风险

  在数据库集群或者分布式数据库情况下,依照Mysql自增主键会带来主键不唯一的问题。比如A,B俩表做了集群部署,数据随机插入2个表,查询时就会出现2个表一定会出现同样主键问题。

2.分布式主键方向  

  结合翻阅的资料,目前解决分布式主键有2个方向的:应用层面和数据库层面。

  应用层面:由应用程序作为生成主键的主要解决方案。一般参考UUID和时间戳作为唯一方向。

  数据库层面:由存储数据库本身或者全局数据库比如Redis作为依据。

3.数据库层面方案(一)设置步长

(1)方案

  修改数据库的自增步长:比如A数据库从1开始每次增长2(即1,3,5,7,9,11...),B数据库从2开始从2开始步长(即2,4,6....)。具体步长依照数据库个数决定。

  修改my.cnf文件

set global auto_increment_increment=1; — 设置序列的增长值
show global variables; — 显示所有的global变量
show global variables like ‘%test%’ — 查询包含test字符串的global变量

(2)优点

  实现简单,通用性强

(3)缺点

 必须已知库个数,来决定步长。对于需要扩容的项目不合适。

4.数据库层面方案(二)查询MAX(ID)  

(1)方案

  在每一次插入的时候去对一个的数据库查询最大的Id。

(2)优点

  在单表,小并发的情况下,可以保证唯一性

(3)缺点

性能消耗有所增加,但是不大,但是在高并发的情况下就有些捉襟见肘了。并且如果在应用层面做了分库分表,查询就特别麻烦

5.数据库层面方案(三)-单独一张id表

 方案答题同上,只不过每一次在id表中去取,并在插入式触发+1;

6. 数据库层面方案(四)-redis 

(1)方案

  建立一个id的(k,v)在redis中,每一次读取自动触发+1

(2)优点

reids的全局缓存可以保证分布式系统的主键唯一性。

(3)缺点

  如果Redis宕机情况下,(k,v)丢失,即使重启也会出错。(即保证Redis或者Redis集群一定不能宕机)风险较高

7.应用层面(一)-UUID

 (1)方案

这个方案就不用说了吧

(2)优点

UUID完全保证id的独立性

(3)缺点

UUID过长,而且插入到数据库中无规则,会导致数据库重新物理排序,影响性能

8.应用层面(二)-其他算法

(1)方案

  使用算法,更具时间戳和设备号生成唯一的(主流方案),下面介绍一种雪花算法

(2)优点

  规则定好,可以保证唯一性,并且可以对旧项目进行修改,只要不和之前的方案冲突

四:雪花算法

package commons.utils.fbsId;
 
import org.apache.commons.lang3.RandomUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.commons.lang3.SystemUtils;
 
import java.net.Inet4Address;
import java.net.UnknownHostException;
 
/**
 * Twitter_Snowflake
* SnowFlake的结构如下(每部分用-分开):
* 0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000
* 1位标识,由于long基本类型在Java中是带符号的,最高位是符号位,正数是0,负数是1,所以id一般是正数,最高位是0
* 41位时间截(毫秒级),注意,41位时间截不是存储当前时间的时间截,而是存储时间截的差值(当前时间截 - 开始时间截) * 得到的值),这里的的开始时间截,一般是我们的id生成器开始使用的时间,由我们程序来指定的(如下下面程序IdWorker类的startTime属性)。41位的时间截,可以使用69年,年T = (1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69
* 10位的数据机器位,可以部署在1024个节点,包括5位datacenterId和5位workerId
* 12位序列,毫秒内的计数,12位的计数顺序号支持每个节点每毫秒(同一机器,同一时间截)产生4096个ID序号
* 加起来刚好64位,为一个Long型。
* SnowFlake的优点是,整体上按照时间自增排序,并且整个分布式系统内不会产生ID碰撞(由数据中心ID和机器ID作区分),并且效率较高,经测试,SnowFlake每秒能够产生26万ID左右。 */ public class FbsId { // ==============================Fields=========================================== /** 开始时间截 (2015-01-01) */ private final long twepoch = 1489111610226L; /** 机器id所占的位数 */ private final long workerIdBits = 5L; /** 数据标识id所占的位数 */ private final long dataCenterIdBits = 5L; /** 支持的最大机器id,结果是31 (这个移位算法可以很快的计算出几位二进制数所能表示的最大十进制数) */ private final long maxWorkerId = -1L ^ (-1L << workerIdBits); /** 支持的最大数据标识id,结果是31 */ private final long maxDataCenterId = -1L ^ (-1L << dataCenterIdBits); /** 序列在id中占的位数 */ private final long sequenceBits = 12L; /** 机器ID向左移12位 */ private final long workerIdShift = sequenceBits; /** 数据标识id向左移17位(12+5) */ private final long dataCenterIdShift = sequenceBits + workerIdBits; /** 时间截向左移22位(5+5+12) */ private final long timestampLeftShift = sequenceBits + workerIdBits + dataCenterIdBits; /** 生成序列的掩码,这里为4095 (0b111111111111=0xfff=4095) */ private final long sequenceMask = -1L ^ (-1L << sequenceBits); /** 工作机器ID(0~31) */ private long workerId; /** 数据中心ID(0~31) */ private long dataCenterId; /** 毫秒内序列(0~4095) */ private long sequence = 0L; /** 上次生成ID的时间截 */ private long lastTimestamp = -1L; private static FbsId idWorker; static { idWorker = new FbsId(getWorkId(),getDataCenterId()); } //==============================Constructors===================================== /** * 构造函数 * @param workerId 工作ID (0~31) * @param dataCenterId 数据中心ID (0~31) */ public FbsId(long workerId, long dataCenterId) { if (workerId > maxWorkerId || workerId < 0) { throw new IllegalArgumentException(String.format("workerId can't be greater than %d or less than 0", maxWorkerId)); } if (dataCenterId > maxDataCenterId || dataCenterId < 0) { throw new IllegalArgumentException(String.format("dataCenterId can't be greater than %d or less than 0", maxDataCenterId)); } this.workerId = workerId; this.dataCenterId = dataCenterId; } // ==============================Methods========================================== /** * 获得下一个ID (该方法是线程安全的) * @return SnowflakeId */ public synchronized long nextId() { long timestamp = timeGen(); //如果当前时间小于上一次ID生成的时间戳,说明系统时钟回退过这个时候应当抛出异常 if (timestamp < lastTimestamp) { throw new RuntimeException( String.format("Clock moved backwards. Refusing to generate id for %d milliseconds", lastTimestamp - timestamp)); } //如果是同一时间生成的,则进行毫秒内序列 if (lastTimestamp == timestamp) { sequence = (sequence + 1) & sequenceMask; //毫秒内序列溢出 if (sequence == 0) { //阻塞到下一个毫秒,获得新的时间戳 timestamp = tilNextMillis(lastTimestamp); } } //时间戳改变,毫秒内序列重置 else { sequence = 0L; } //上次生成ID的时间截 lastTimestamp = timestamp; //移位并通过或运算拼到一起组成64位的ID return ((timestamp - twepoch) << timestampLeftShift) | (dataCenterId << dataCenterIdShift) | (workerId << workerIdShift) | sequence; } /** * 阻塞到下一个毫秒,直到获得新的时间戳 * @param lastTimestamp 上次生成ID的时间截 * @return 当前时间戳 */ protected long tilNextMillis(long lastTimestamp) { long timestamp = timeGen(); while (timestamp <= lastTimestamp) { timestamp = timeGen(); } return timestamp; } /** * 返回以毫秒为单位的当前时间 * @return 当前时间(毫秒) */ protected long timeGen() { return System.currentTimeMillis(); } private static Long getWorkId(){ try { String hostAddress = Inet4Address.getLocalHost().getHostAddress(); int[] ints = StringUtils.toCodePoints(hostAddress); int sums = 0; for(int b : ints){ sums += b; } return (long)(sums % 32); } catch (UnknownHostException e) { // 如果获取失败,则使用随机数备用 return RandomUtils.nextLong(0,31); } } private static Long getDataCenterId(){ int[] ints = StringUtils.toCodePoints(SystemUtils.getHostName()); int sums = 0; for (int i: ints) { sums += i; } return (long)(sums % 32); } /** * 静态工具类 * * @return */ public static String generateId(){ long id = idWorker.nextId(); return id+""; } //==============================Test============================================= /** 测试 */ public static void main(String[] args) { System.out.println(System.currentTimeMillis()); long startTime = System.nanoTime(); for (int i = 0; i < 500000; i++) { String id = FbsId.generateId(); System.out.println(id); } System.out.println((System.nanoTime()-startTime)/1000000+"ms"); } }

 

你可能感兴趣的:(从零开始)