一致性hash算法

前言

在分布式系统中,很多服务需要进行负载均衡,负载均衡算法中,如果有映射需求且允许少量不可达重新映射,比如分布式缓存集群和url、rpc映射负载均衡,可以使用一致性hash算法作为负载均衡算法。强一致性映射的就不存在负载均衡算法了。下面的介绍以分布式缓存集群为例子讲述一致性hash算法。

普通hash

比如现在有4台缓存服务器,一个key进来之后,通过hash值求余4,得到的存在哪一台机器。如果增加一台服务器或者减少一台服务器,此时这样的负载均衡算法在存的时候是没有问题的,但读取的时候会大量缓存不可达,造成缓存击穿,进而雪崩,如果是高并发环境,服务可能直接挂掉。由此引入一致性hash,解决大量缓存失效问题。当然还有别的解决办法,就是重新预热所有缓存,这种方式比较笨,因为每次服务器节点变化都需要重新预热。


一致性hash算法_第1张图片

一致性hash算法

设计一个环(数组),起始值是0,最大值是int的最大值,将上面的4台服务器放在环的四个等长位置,key的hash值得到后,如果服务器不在这个hash值上面,就进行循环加一,直到找到服务器位置为止。所有的key也都均匀散列。当加入1台服务器之后,服务器放在环的某一个位置,结果就是上一个节点到新增这个节点之间的缓存失效,需要重新缓存,其他节点正常。


一致性hash算法_第2张图片

特性

单调性:在已经配置好映射的系统中加入新的节点,原有的请求会被映射到新的服务器或者原来的服务器,而不是打乱重新映射到别的服务器。

避免分散性:一个调用者只能看到一个或者部分服务节点,而所有调用者看到的所有服务节点组合起来就是一个完整的hash环,在随机hash或随机负载均衡中,一个调用者的请求会打到不同的服务器,分散性就是指这种分散的严重情况,好的hash算法应该避免分散性,一致性hash就有很低的分散性。

平衡性:也就是负载均衡,所有调用者的请求应该分散到不同的服务器上面去,一致性hash算法能做到这种平衡请求,但不能做到所有每个服务器处理的请求相同。

缺点

如果所有服务器性能一致,会导致新增节点和新增节点的下一个节点流量减半,其他正常,解决方法可以增加当前节点一样多的节点,但会造成一半缓存失效和代价过高,依旧不灵活。由此引入虚拟节点。

虚拟节点实现可伸缩的一致性hash

还是以4个缓存服务器为例子,现在的环上面有int最大值的节点,为了计算方便,假定就是100个虚拟节点,那么真实的服务器,每个服务器就管理了25个节点,当key的hash映射到0到100中的每个数值,再由这个数值找到真实节点进行存取。新增了一个服务器,那么每个服务器应该管理20个节点,就在原来的4台服务器管理的节点中,每个服务器摘出5个节点,给新的服务器使用,这样新的key进来之后映射到摘出的节点接放到新的服务器。这时候,失效的缓存数量和一致性hash算法得到的数量是一致的,并且实现的服务器负载均衡。


一致性hash算法_第3张图片

拓展

如果机器的性能不同,需要进行权重的负载均衡,那么管理权重相当的节点即可。

你可能感兴趣的:(一致性hash算法)