一致性哈希算法

传统哈希算法的局限性

在分布式系统中,通常使用多个节点来保存数据,以提高并发能力和容量,那么如果决定数据保存到哪个节点上呢?一般的做法是通过一个哈希函数对数据key进行计算,然后对节点数量取模,从而得到数据分配的节点:
node_id = hash(key) % N
但是这种做法在节点数量N变化的时候,大部分key的计算的节点都会重新分配。如果是应用在分布式缓存,就会导致大规模的缓存失效,引起缓存雪崩。

一致性哈希算法

原理

一致性哈希算法将哈希空间分配到哈希环的数据结构上,取值范围0~2^32-1,并且起点与终点相连。


  1. 将服务器通过哈希函数(以IP或者主机名作为key)放置到环上
  2. 对数据key使用相同的哈希函数,落到哈希空间上的某个点,如果该点不是服务器节点的位置,则顺时针向前寻找,直到碰到第一个服务器节点,将数据分配到该节点。

新增节点


新增了节点S4,那么影响的只是哈希空间S3到S4之间的数据,如原来key4是分配到节点S1,现在分配到了S4。

下线节点


节点S2下线,只影响哈希空间S1到S2之间的数据,如原来key2分配到了S2,现在分配到了S3。

虚拟节点优化

当服务节点比较少的时候会出现分配不平衡的问题,造成大量数据集中到一个节点上,如下图所示:



大部分的哈希空间都会分配到S1上,少量分配到S2上。
为了解决这种数据倾斜问题,一致性哈希引入了虚拟节点机制:对每一个服务器节点计算多个哈希,每个计算结果都防止一个此服务器对应的虚拟节点。具体做法可以在服务器IP后面加上编号再计算哈希值。



如上图所示,对S1和S2分别虚拟出两个节点,形成四个虚拟节点,数据分配方式不变,不过多了先顺时针找到服务器的虚拟节点,再映射到对应的物理服务器节点。

特点

  • 良好的伸缩性。一致性哈希算法保证了增加或减少服务器时,数据存储的改变最少,比传统的哈希算法大大节省了数据移动的开销。
  • 更好的适应数据增长。当数据不断增长,部分虚拟节点可能包含很多数据,造成数据分配不平衡,此时可以将包含数据多的虚拟节点分裂,这种分裂仅仅是将原有的虚拟节点一分为二,不需要对全部数据重新哈希划分。

参考

【1】 图解一致性哈希算法
【2】一致性Hash算法详解

你可能感兴趣的:(一致性哈希算法)