Memcached称为'分布式'缓存服务,但是服务器端并没有'分布式'的功能。服务器端主要有内存存储功能,而要想
实现‘分布式’,则必须完全由客户端的应用程序库来完成。
一,理解Memcached的分布式含义
用实例说明一下Memcached的分布式是怎么回事:
假设memcached服务器有node1~node3三台,应用程序要保存键名为“tokyo”“kanagawa”“chiba”“saitama”“gunma” 的数据。
分布式准备图:
首先向memcached中添加“tokyo”。将“tokyo”传给客户端程序库后,客户端实现的算法就会根据“键”来决定保存数据的memcached服务器。
服务器选定后,即命令它保存“tokyo”及其值。
分布式保存数据图:
同样,“kanagawa”“chiba”“saitama”“gunma”都是先选择服务器再保存。
接下来获取保存的数据。获取时也要将要获取的键“tokyo”传递给函数库。
函数库通过与数据保存时相同的算法,根据“键”选择服务器。
使用的算法相同,就能选中与保存时相同的服务器,然后发送get命令。
只要数据没有因为某些原因被删除,就能获得保存的值。
分布式获取数据图:
这样,将不同的键保存到不同的服务器上,就实现了memcached的分布式。
memcached服务器增多后,键就会分散,即使一台memcached服务器发生故障无法连接,也不会影响其他的缓存,系统依然能继续运行。
二,Cache::Memcached的分布式方法
(1)根据余数计算分散
Cache::Memcached的分布式方法简单来说就是“根据服务器台数的余数进行分散”。
求得键的整数哈希值,再除以服务器台数,根据其余数来选择服务器。
将Cache::Memcached转换为pel脚本说明:
use strict;
use warning;
use String::CRC32;
my @nodes = ('node1','node2','node3');
my @keys = ('tokyo', 'kanagawa', 'chiba', 'saitama', 'gunma');
foreach my $key (@keys) {
my $crc = crc32($key);#CRC值
my $mod = $crc % ( $#nodes + 1 );#根据CRC值除以服务器节点数得选择服务器的余数
my $server = $nodes[ $mod ];#根据余数选择服务器
printf "%s => %s\n", $key, $server;
}
Cache::Memcached在求哈希值时使用了CRC,首先求得字符串的CRC,根据该值除以服务器节点数,选择服务器。
(2)根据余数计算分散的缺点
余数计算的方法简单,数据的分散性也相当优秀,但也有其缺点。
那就是当添加或移除服务器时,缓存重组的代价相当巨大。
添加服务器后,余数就会产生巨变,这样就无法获取与保存时相同的服务器,从而影响缓存的命中率。
在Web应用程序中,添加Memcached服务器的瞬间缓存效率大大降低,这个时候等于负载都集中到
数据库服务器上,可能数据库服务会出现崩溃,导致无法提供正常服务。
为了解决添加服务出现负载到数据库,可能无法提供正常服务的问题,提供了新的分布式算法,
叫做Consistent Hashing
三,Consistent Hashing分布式算法
Consistent Hashing如下所示:首先求出memcached服务器(节点)的哈希值,并将其配置到0~232的圆(continuum)上。
然后用同样的方法求出存储数据的键的哈希值,并映射到圆上。然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上。
如果超过232仍然找不到服务器,就会保存到第一台memcached服务器上。
Consistent Hashing的基本原理图如下:
从上图的状态中添加一台memcached服务器。
余数分布式算法由于保存键的服务器会发生巨大变化而影响缓存的命中率,但Consistent Hashing中,
只有在continuum上增加服务器的地点逆时针方向的第一台服务器上的键会受到影响。
Consistent Hashing添加服务器图:
Consistent Hashing最大限度地抑制了键的重新分布。而且,有的Consistent Hashing的实现方法还采用了虚拟节点的思想。
使用一般的hash函数的话,服务器的映射地点的分布非常不均匀。因此,使用虚拟节点的思想,为每个物理节点(服务器)在continuum上分配100~200个点。
这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。
总结:
Memcached的分布式算法由客户端的函数库实现分布式,求余分布式添加服务器时效率低,存在添加后负载集中访问数据库等缺点,
使用Consistent Hashing分布式算法高效率地分散数据。