ChaITSimpleLove

C# 实现分布式自增 ID 算法 Snowflake（雪花算法）

需求概述

分布式系统中，有一些需要使用全局唯一 ID 的场景，这种时候为了防止ID冲突可以使用36位的通用唯一识别码/UUID（Universally Unique Identifier），但是 UUID 有一些缺点，首先他相对比较长，另外 UUID 一般是无序的。有些时候我们希望能使用一种简单一些的 ID，并且希望 ID 能够按照时间有序生成。

Twitter-Snowflake 产生背景

Twitter 早期用 MySQL 存储数据，随着用户的增长，单一的 MySQL 实例没法承受海量的数据，后来团队就研究如何产生完美的自增 ID，以满足两个基本的要求：

每秒能生成几十万条 ID 用于标识不同的记录；
这些 ID 应该可以有个大致的顺序，也就是说发布时间相近的两条记录，它们的 ID 也应当相近，这样才能方便各种客户端对记录进行排序。

【Twitter-Snowflake】算法就是在这样的背景下产生的。

Snowflake 核心结构

Twitter 解决这两个问题的方案非常简单高效：每一个 ID 都是 64 位数字，由时间戳、工作机器节点和序列号组成， ID 是由当前所在的机器节点生成的。如图：

下面先说明一下各个区间的作用。

符号位（Symbol bit）：用于区分正负数。1为负数，0为整数。一般不需要负数，所以值固定为0。
时间戳（Time stamp）：一共预留 41bit 保存毫秒级时间戳。因为毫秒级时间戳长度是 13 位：41 位二进制最大值 (T) 是：$2^{41}-1 = 2199023255551 $ , 刚好 13 位。可以表示的年份 = T / (360024 365 * 1000) = 69.7 年（时间戳是从 1970, 1, 1, 0, 0, 0 开始）。换算成 Unix 时间也就是可以表示到：2039-09-07 23:47:35：

大家会觉得这个时间不够用啊，没关系，后面会讲如何优化。

工作机器（Work machine）：预留了 10bit 保存机器ID。由5位 datacenterId 和 5位 workerId (10位的长度最多支持部署1024个节点）组合，只要机器 ID 不一样，每毫秒生成的 ID 是不一样的。一共可以支持多少台机器同时生成 ID 呢？答案是 1023 台（$2^{10}-1$）。
如果工作机器比较少，可以使用配置文件来设置这个 ID，或者使用随机数。如果机器过多就得单独实现一共工作机器 ID 分配器了，比如使用 redis 自增，或者利用 Mysql auto_increment 机制也可以达到效果。
序列号（Serial number）：序列号一共是 12bit，为了处理在同一机器同一毫秒内需要给多条消息分配 ID 的情况，一共可以产生4095个序列号(0~4095， $2^{12}-1$)。

综上：一共加起来刚好 64=>（1+41+10+12）位，为一个 Long 型(转换成字符串长度为 19)，同一台机器 1 毫秒内可产生 4095 个 ID，全部机器1毫秒内可产生 4095 * 1023 个 ID。snowflake 生成的 ID 整体上按照时间自增排序，并且整个分布式系统内不会产生 ID 碰撞（由 datacenter 和 workerId 作区分），由于全是在各个机器本地生成，效率非常高。

优化

1、时间戳优化

如果时间戳取当前毫秒级时间戳，那么只能表示到2039年，远远不够。我们发现，1970到当前时间这个区间其实是永远都不会用了，那么，为何不使用偏移量呢？也就是时间戳部分不直接取当前毫秒级时间戳，而是在此基础上减去一个过去时间：

id = (1572057648000 - 1569859200000) << 22;

输出：

id=9220959240192000

上面代码中，第一个时间戳是当前毫秒级时间戳，第二个则是一个过去时间戳（1569859200000表示2019-10-01 00:00:00）。这样我们可以表示的年大概是 当前年份(例如2019) + 69 = 2088 年，很长一段时间内都够用。

2、序列号优化

序列号默认取0，如果已经使用了则自增。若自增到4096，也就是同一毫秒内的序列号用完了，怎么办呢？需要等待至下一毫秒。部分代码示例：

//同一毫秒并发调用
if (ts == (iw.last_time_stamp)) {
    //序列号自增
    iw.sequence = (iw.sequence+1) & MASK_SEQUENCE;

    //序列号自增到最大值4096，4095 & 4096 = 0
    if (iw.sequence == 0) {
        //等待至下一毫秒
        ts = time_re_gen(ts);
    }
} else { //同一毫秒没有重复的
    iw.last_time_stamp = ts;
}