一文读懂什么是一致性hash算法

Hash,一般翻译做散列、杂凑,或音译为哈希,是把任意长度的输入通过散列算法变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入值的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来确定唯一的输入值。看是不是有点像分类,按照一定规则算出来一个分类值。

一致性Hash,是一种Hash算法,简单地说在移除或者添加一个服务器时,此算法能够尽可能小地改变已存在的服务请求与处理请求服务器之间的映射关系,尽可能满足单调性的要求。在普通分布式集群中,服务请求与处理请求服务器之间可以一一对应,也就是说固定服务请求与处理服务器之间的映射关系,某个请求由固定的服务器去处理。这种方式无法对整个系统进行负载均衡,可能会造成某些服务器过于繁忙以至于无法处理新来的请求。而另一些服务器则过于空闲,整体系统的资源利用率低,并且当分布式集群中的某个服务器宕机,会直接导致某些服务请求无法处理。

进一步的改进可以利用hash算法对服务请求与处理服务器之间的关系进行映射,以达到动态分配的目的。通过hash算法对服务请求进行转换,转换后的结果对服务器节点值进行取模运算,取模后的值就是服务请求对应的请求处理服务器。这种方法可以应对节点失效的情况,当某个分布式集群节点宕机,服务请求可以通过hash算法重新分配到其他可用的服务器上。避免了无法处理请求的状况出现

一文读懂什么是一致性hash算法_第1张图片

但这种方法有个缺点,如果服务器中保存有用户请求对应的数据,那么如果n发生变化,同一个用户请求的hash值就会发生变化,会造成大量的请求被重定位到不同的服务器,造成用户请求所要使用的数据找不到。例如用这个方法来做分布式缓存,当某台服务器宕机,或者要扩容一台服务器,n值发生变化,就可能导致很多key无法命中。一个设计良好的分布式系统应该具有良好的单调性,即服务器的添加与移除不会造成大量的哈希重定位,而一致性哈希恰好可以解决这个问题。
 
一致性哈希算法将整个哈希值空间映射成一个虚拟的圆环, 整个空间按顺时针方向组织。接下来使用如下算法对服务请求进行映射,将服务请求使用哈希算法算出对应的hash值,然后根据hash值的位置沿圆环顺时针查找,第一台遇到的服务器就是所对应的处理请求服务器。当增加一台新的服务器,受影响的数据仅仅是新添加的服务器到其环空间中前一台的服务器(也就是顺着逆时针方向遇到的第一台服务器)之间的数据,其他都不会受到影响。综上所述,一致性哈希算法对于节点的增减都只需重定位环空间中的一小部分数据,具有较好的容错性和可扩展性
一文读懂什么是一致性hash算法_第2张图片
 

服务器节点太少时,容易分布不均,造成数据倾斜(被缓存的对象大部分集中缓存在某一台服务器上)问题,一致性Hash算法引入了虚拟节点机制,对每一个服务节点计算多个哈希,每个计算结果位置都放置一个此服务节点,称为虚拟节点。具体做法可以在服务器IP或主机名的后面增加编号来实现。

你可能感兴趣的:(一文读懂什么是一致性hash算法)