Redis集群是Redis提供的分布式数据库方案,集群通过分片来进行数据共享,并提供复制和故障转移操作。
一个Redis集群通常由多个节点组成,在刚开始的时候每个节点都是相互独立的,他们处于一个只包含自己的集群当中,我们通过使用CLUSTER MEET命令将节点连接到一起,构成一个包含多节点的集群。
集群的数据结构:
clusterNode结构保存了一个节点的当前状态,比如节点创建时间、节点名称、节点当前的配置纪元、节点的ip端口。每个节点都会使用一个clusterNode结构记录自己的状态,并为集群中的所有其他节点都创建一个相应的clusterNode结构。
struct clusterNode{ //创建节点的时间 mstime_t ctime; //节点的名称,由40个十六进制字符组成 char name[REDIS_C:USTER_NAMELEN] //节点标识(标识节点的角色以及节点目前状态) inf flags; //节点当前的配置纪元 uint64_t configEpochl; //节点的ip地址 char ip; //节点的端口号 int port; //保存连接节点所需要的有关信息 clusterLink *link; }
typedef struct clusterLink{ //连接的创建时间 mstime_t ctime; //TCP 套接字描述 int fd; //输出缓冲区,保存着等待发送给其他节点的消息 sds sndbuf; //输入缓冲区,保存着从其他节点接收到的消息 sds rcvbuf; //与这个连接相关联的节点,如果没有的话为NULL struct clusterNode *node; } clusterLink;
每个节点都保存着一个clusterState结构,这个结构记录了在当前节点的视角下,集群目前所处的状态,
typedef struct clusterState{ //指向当前节点的指针 clusterNode *myself; //集群当前的配置纪元,用于实现故障转移。 uint64_t currentEpoch; //集群当前的状态:在线或下线 int state; //集群中至少处理着一个槽的节点数量 int size; //集群节点名单(包括myself节点) //字典的键为节点的名称,字典值为节点对应的clusterNode结构 dict *node; } clusterState;
槽指派:
Redis集群通过分片的方式来保存数据库中的键值对:集群的整个数据库被分成16348个槽,数据库中的每个键都属于16384个槽的其中一个,集群中的每个节点可以处理0个最多16384个槽。
使用cluster meet 命令将节点连接到集群里面后,这时集群仍处于下线状态,因为集群中的节点没有处理任何槽
通过使用cluster addslots < slot > 命令,可以为节点分配槽
记录节点的槽指派信息:
clusterNode 结构的slots属性和numslot属性记录了节点负责处理那些槽:
struct clusterNode{ unsigned char slots[16348/8]; int numslots; };
同时,节点会将自己的slots数组通过消息发送给集群中的其他节点,以此来告知其他节点自己目前负责处理那些槽。
clusterState结构中的slots数组记录了集群中所有16384个槽的指派信息。
typedef struct clusterState{ clusterNode *slots[16384]; }clusterState;
clusterState.slots是为了更快的定位槽所在的节点O(i)。
clusterNode.slots 当程序需要将某个节点的槽指派信息通过消息发送给其他节点时,程序只需要将相应节点的clusterNode.slots数组整个发送过去就可以,clusterState.slots记录了集群中所有的槽指派讯息,而clusterNode.slots只记录了当前节点的槽指派信息。
当客户端向节点发送与数据库键有关的命令时,接收命令的节点会计算出命令要处理的数据库键属于哪个槽,并检查这个槽是否指派给了自己:
如果键所在的槽正好是指派给了当前节点,那么节点直接执行这个命令;如果键所在的槽并没有指派给当前节点,那么节点会向客户端返回一个MOVED错误,指引客户端转向到正确节点,并再次发送之前想要执行的命令。
节点使用以下算法来计算给定键key属于哪个槽:
def slot_number(key): return CRC16(key) & 16383
当节点计算出键所属的槽i之后,节点就会检查自己在clusterState.slots数组中的项i,判断所在的槽是否由自己负责:如果clusterState.slots[i]等于clusterState.myself,那么说明槽i由当前节点负责,节点可以执行客户端发送的命令;反之节点会根据slusterState.slots[i]指向的clusterNode结构所记录的节点IP和端口号,向客户端返回MOVED错误指引客户端转向至再处理槽i的节点。
MOVED错误的格式为:MOVED < slot >
当客户端接收到节点返回的MOVED错误时,客户端根据MOVED错误提供的IP地址和端口号,转向至负责处理槽slot的节点,并向该节点重新发送之前想要执行的命令。一个集群客户端通常会与集群中的多个节点创建套接字连接,而所谓的节点转向实际上就是换一个套接字来发送命令。
集群模式的redis-cli 客户端在接收到MOVED错误时,并不会打印出MOVED错误,而是根据MOVED错误自动进行节点转向,并打印出转向信息,所以我们时看不见节点返回的MOVED错误。
节点和单机服务器在数据库方面的一个区别时,节点只能使用0号数据库,而单机Redis服务器则没有这一限制。除了将键值对保存在数据库里面之外,节点还会用clusterState结构中slots_to_keys跳跃表来保存槽和键之间的关系:
typedef struct clusterState{ zskiplist *slots_to_keys; } clusterState;
slots_to_keys跳跃表每个节点的分值score都是一个槽号,而每个节点的成员(member)都是一个数据库键:每当节点往数据库中添加一个新的键值对时,节点就会将这个键以及键的槽号关联到slots_to_keys跳跃表;当节点删除数据库中的每个键值对时,节点就会在slots_to_keys跳跃表解除被删除键与槽号的关联。
通过在slots_to_keys跳跃表中记录各个数据库键所属的槽,节点可以很方便地对属于某个或某些槽的所有数据库键进行批量操作。
Redis集群的重新分片操作可以将任意数量已经指派给某个节点(源节点)的槽改为指派给另一个节点,并且相关槽所属的键值对也会从源节点被移动到目标节点。重新分派操作可以在线进行,在重新分片的过程中,集群不需要下线,并且源节点和目标节点都可以继续处理命令请求。
Redis集群的重新分片操作是由Redis的集群管理软件redis-trib负责执行的,Redis提供了进行重新分片所需要的所有命令,而redis-trib则通过源节点和目标节点发送命令来进行重新分片操作。
1)redis-trib对目标节点发送CLUSTER SETSLOT < slot > IMPORTING
2)redis-trib对CLUSTER SETSLOT< slot > MIGATING < target_id > 命令,让源节点准备好将属于槽slot的键值对迁移至目标节点。
3)redis-trib向源节点发送CLUSTER GETKEYSINGSLOT < slot > < count > 获得最多count 个属于槽slot的键值对的键名。
4)对于步骤3获得的键名,redis-trib都向源节点发送一个MIGRATE < target_ip > < target_port > < key_name > 0
5)重复 3,4步骤,直到所有键值对都被迁移至目标节点。
6)redis-trib向集群中的任意一个节点发送CLUSTER SETSLOT < slot > NODE < target_id > 命令,将槽slot指派给目标节点,这一指派信息通过消息发送至整个集群,最终集群中的所有节点都会直到槽slot已经指派给了目标节点。
当客户端向源节点发送一个与数据库键有关的命令,并且命令要处理的数据库键恰好就属于正在被迁移的槽时:源节点会先在自己的数据库里查找指定的键,如果找到的话,就直接执行客户端发送的命令;相反,如果源节点没能在自己的数据库里找到指定的键,那么这个键有可能已经被迁移到目标节点,源节点向客户端返回一个ASK错误,指引客户端转向正在导入槽的目标节点,并再次发送之前想要执行的命令。
clusterState结构的importing_slots_from 数组记录了当前节点正在从其他节点导入的槽:
typedef struct clusterState{ clusterNode *importing_slots_from[16384]; } clusterState;
如果 importing_slots_from[i]的值不为NULL,而是指向一个clusterNode结构,那么标识当前节点正在从clusterNode所标识的节点导入槽i
clusterState结构migrating_slots_to数组记录了当前节点正在迁移至其他节点的槽:
typedef struct clusterState{ clusterNode *migratubg_slots_to[16384]; }clusterState;
如果migrating_slots_to[i]的值不为NULL,而是指向一个clusterNode结构,那么表示当前节点正在将槽i迁移至clusterNode所标识的节点。
ASK错误与MOVED错误的区别:
MOVED错误代表槽的负责权已经从一个节点转移到另一个节点:在客户端收到槽i的MOVED错误之后,客户端每次遇到关于槽i的命令请求时,都可以直接将命令请求发送至MOVED错误所指向的节点,因为该节点就是目前负责槽i的节点。
ASK错误只是两个节点在迁移槽的过程中使用的一种临时措施。ASK错误的转向不会对客户端今后发送关于槽i的命令请求产生任何影响,客户端仍然会将关于槽i的命令请求发送至目前负责处理槽i的节点。
每天学一点,总会有收获。
说明:尊重作者知识产权,文中内容参考《Redis设计与实现》,仅在此做学习与大家分享。