前言

在分布式系统中，很多服务需要进行负载均衡，负载均衡算法中，如果有映射需求且允许少量不可达重新映射，比如分布式缓存集群和url、rpc映射负载均衡，可以使用一致性hash算法作为负载均衡算法。强一致性映射的就不存在负载均衡算法了。下面的介绍以分布式缓存集群为例子讲述一致性hash算法。

普通hash

比如现在有4台缓存服务器，一个key进来之后，通过hash值求余4，得到的存在哪一台机器。如果增加一台服务器或者减少一台服务器，此时这样的负载均衡算法在存的时候是没有问题的，但读取的时候会大量缓存不可达，造成缓存击穿，进而雪崩，如果是高并发环境，服务可能直接挂掉。由此引入一致性hash，解决大量缓存失效问题。当然还有别的解决办法，就是重新预热所有缓存，这种方式比较笨，因为每次服务器节点变化都需要重新预热。

一致性hash算法

设计一个环（数组），起始值是0，最大值是int的最大值，将上面的4台服务器放在环的四个等长位置，key的hash值得到后，如果服务器不在这个hash值上面，就进行循环加一，直到找到服务器位置为止。所有的key也都均匀散列。当加入1台服务器之后，服务器放在环的某一个位置，结果就是上一个节点到新增这个节点之间的缓存失效，需要重新缓存，其他节点正常。

特性

单调性：在已经配置好映射的系统中加入新的节点，原有的请求会被映射到新的服务器或者原来的服务器，而不是打乱重新映射到别的服务器。

避免分散性：一个调用者只能看到一个或者部分服务节点，而所有调用者看到的所有服务节点组合起来就是一个完整的hash环，在随机hash或随机负载均衡中，一个调用者的请求会打到不同的服务器，分散性就是指这种分散的严重情况，好的hash算法应该避免分散性，一致性hash就有很低的分散性。

平衡性：也就是负载均衡，所有调用者的请求应该分散到不同的服务器上面去，一致性hash算法能做到这种平衡请求，但不能做到所有每个服务器处理的请求相同。

缺点

如果所有服务器性能一致，会导致新增节点和新增节点的下一个节点流量减半，其他正常，解决方法可以增加当前节点一样多的节点，但会造成一半缓存失效和代价过高，依旧不灵活。由此引入虚拟节点。

虚拟节点实现可伸缩的一致性hash

还是以4个缓存服务器为例子，现在的环上面有int最大值的节点，为了计算方便，假定就是100个虚拟节点，那么真实的服务器，每个服务器就管理了25个节点，当key的hash映射到0到100中的每个数值，再由这个数值找到真实节点进行存取。新增了一个服务器，那么每个服务器应该管理20个节点，就在原来的4台服务器管理的节点中，每个服务器摘出5个节点，给新的服务器使用，这样新的key进来之后映射到摘出的节点接放到新的服务器。这时候，失效的缓存数量和一致性hash算法得到的数量是一致的，并且实现的服务器负载均衡。

拓展

如果机器的性能不同，需要进行权重的负载均衡，那么管理权重相当的节点即可。

一致性hash算法

前言

普通hash

一致性hash算法

特性

缺点

虚拟节点实现可伸缩的一致性hash

拓展

你可能感兴趣的:(一致性hash算法)