memcached之memcached的分布式算法

memcached之memcached的分布式算法
---------
memcached的分布式
memcached虽然称为"分布式"缓存服务器,但服务器端并没有"分布式"功能memcached的分布式,则是完全由客户端程序库实现的。这种分布式是memcached的最大特点。如例:下面假设memcached服务器有node1~node3三台,应用程序要保存键名为:"tokyo","kanagawa","chiba","saitama","gunma"的数据。首先向memcached中添加"tokyo"。将"tokyo"传给客户端程序库后,客户端实现的算法就会根据"键"来决定保存数据的memcached服务器。服务器选定后,即命令它保存"tokyo"及其值。同样,"kanagawa"、"chiba"、"saitama"、"gunma"都是选择服务器再保存。
接下来获取保存的数据。获取时也要将要获取的键"tokyo"传递给函数库。函数库通过与数据保存时相同的算法,根据"键"选择服务器。使用的算法相同,就能选中与保存时相同的服务器,然后发送get命令。只要数据没有因为某些原因被删除,就能获得保存的值。
这样,将不同的键保存到不同的服务器上,就实现了memcached的分布式。memcached服务器增多后,键就会分散,即使一台memcached服务器发生故障无法连接,也不会影响其他的缓存,系统依然能继续运行。

Cache::Memcached的分布式方法
Perl的memcached客户端函数库Cache::Memcached是memcached的作者Brad Fitzpatrick的作品,可以说是原装的函数库了。该函数库实现了分布式功能,是memcached标准的分布式方法。
根据余数计算分散
Cache:Memcached的分布式方法简单来说,就是"根据服务器台数的余数进行分散"。求得键的整数哈希值,再除以服务器台数,根据其余数来选择服务器。
Cache::Memcached在求哈希值时使用了CRC。首先求得字符串的CRC值,根据该值除以服务器节点数目得到的余数决定服务器。当选择的服务器无法连接时,Cache::Memcached会将连接次数添加到键之后,再次计算哈希值并尝试连接。这个动作称为rehash。不希望rehash时可以在生成Cache::Memcached对象时指定"rehash=>0"选项。
根据余数计算分散的缺点
余数计算的方法简单,数据的分散性也相当优秀,但也有其缺点。那就是当添加或移除服务器时,缓存重组的代价相当巨大。添加服务器后,余数就会产生巨变,这样就无法获取与保存时相同的服务器,从而影响缓存的命中率。
Consistent Hashing算法
首先求出memcached服务器(节点)的哈希值,并将其配置到0到2的32次方的圆上。然后用同样的方法求出存储数据的键的哈希值,并映射到圆上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上。如果超过2的32次方仍然找不到服务器,就会保存到第一台memcached服务器上。如果添加一台memcached服务器。余数分布式算法由于保存键的服务器发生巨大变化而影响缓存的命中率,但Consistent Hashing中, 只有在圆上增加服务器的地点逆时针方向的第一台服务器之间的键会受到影响。因此,Consistem Hashing最大限度地抑制了键的重新分布。而且,有的Consistent Hashing的实现方法还采用了虚拟节点的思想。使用一般的hash函数的话,服务器的映射地点的分布非常不均匀。因此, 使用虚拟节点的思想,为每个物理节点(服务器)在圆上分配100~200个点。这样就能抑制分布不均匀,最在限度地减小服务器增减时的
缓存重新分布。

你可能感兴趣的:(memcached之memcached的分布式算法)