Redis的主从复制模式下,一旦主节点由于故障不能提供服务,需要人工将从节点晋升为主节点,同时还要通知应用方更新主节点地址,对于很多 应用场景这种故障处理的方式是无法接受的。Redis从2.8开始正式提供了Redis Sentinel(哨兵)架构来解决这个问题.
Redis Sentinel是Redis的高可用实现方案,在实际的生产环境中,对提高整个系统的高可用性是非常有帮助的.
1 主从复制的问题
Redis的主从复制模式可以将主节点的数据改变同步给从节点,这样从节点就可以起到两个作用:第一,作为主节点的一个备份,一旦主节点出了 故障不可达的情况,从节点可以作为后备“顶”上来,并且保证数据尽量不丢失(主从复制是最终一致性)。第二,从节点可以扩展主节点的读能力,一旦主节点不能支撑住大并发量的读操作,从节点可以在一定程度上帮助主节点分担读压力。
但是主从复制也带来了以下问题:
·一旦主节点出现故障,需要手动将一个从节点晋升为主节点,同时需要修改应用方的主节点地址,还需要命令其他从节点去复制新的主节点,整个过程都需要人工干预。
·主节点的写能力受到单机的限制。
·主节点的存储能力受到单机的限制。
其中第一个问题就是Redis的高可用问题, 第二、三个问题属于Redis的分布式问题。
2 高可用
当主节点出现故障时,Redis Sentinel能自动完成故障发现和故障转移,并通知应用方,从而实现真正的高可用。使用Redis Sentinel,建议使用2.8以上版本.
Redis Sentinel是一个分布式架构,其中包含若干个Sentinel节点和Redis 数据节点,每个Sentinel节点会对数据节点和其余Sentinel节点进行监控,当它发现节点不可达时,会对节点做下线标识。如果被标识的是主节点,它还 会和其他Sentinel节点进行“协商”,当大多数Sentinel节点都认为主节点不可 达时,它们会选举出一个Sentinel节点来完成自动故障转移的工作,同时会 将这个变化实时通知给Redis应用方。整个过程完全是自动的,不需要人工 来介入,所以这套方案很有效地解决了Redis的高可用问题。
注意:这里的分布式是指:Redis数据节点、Sentinel节点集合、客户端分布在 多个物理节点的架构,不要与第10章介绍的Redis Cluster分布式混淆。
下面以1个主节点、2个从节点、3个Sentinel节点组成的Redis Sentinel为 例子进行说明,拓扑结构如下图所示。
整个故障转移的处理逻辑有下面4个步骤:
1)主节点出现故障,此时两个从节点与主节点失去连接,主从复制失败。
2)每个Sentinel节点通过定期监控发现主节点出现了故障。
3)多个Sentinel节点对主节点的故障达成一致,选举出 sentinel-3节点作为领导者负责故障转移。
4) 如下图所示,Sentinel领导者节点执行了故障转移,整个过程是自动化完成的.
5)故障转移后整个Redis Sentinel的拓扑结构如下图所示。
通过上面介绍的Redis Sentinel逻辑架构以及故障转移的处理,可以看出 Redis Sentinel具有以下几个功能:
·监控:Sentinel节点会定期检测Redis数据节点、其余Sentinel节点是否可达。
·通知:Sentinel节点会将故障转移的结果通知给应用方。
·主节点故障转移:实现从节点晋升为主节点并维护后续正确的主从关系。
·配置提供者:在Redis Sentinel结构中,客户端在初始化的时候连接的 是Sentinel节点集合,从中获取主节点信息。
同时看到,Redis Sentinel包含了若个Sentinel节点,这样做也带来了两个好处:
·对于节点的故障判断是由多个Sentinel节点共同完成,这样可以有效地防止误判。
·Sentinel节点集合是由若干个Sentinel节点组成的,这样即使个别Sentinel 节点不可用,整个Sentinel节点集合依然是健壮的。
但是Sentinel节点本身就是独立的Redis节点,只不过它们有一些特殊, 它们不存储数据,只支持部分命令。
3 部署
Redis哨兵的部署大家可以参考这篇博文,我这边也是按照这个配置成功的.
https://www.cnblogs.com/jaycekon/p/6237562.html
4 部署技巧
在实际生产环境中都有哪些部署的技巧?下面总结一下。
1)Sentinel节点不应该部署在一台物理“机器”上。
这里特意强调物理机是因为一台物理机做成了若干虚拟机或者现今比较流行的容器,它们虽然有不同的IP地址,但实际上它们都是同一台物理机,同一台物理机意味着如果这台机器有什么硬件故障,所有的虚拟机都会受到影响,为了实现Sentinel节点集合真正的高可用,请勿将Sentinel节点部署在同一台物理机器上。
2)部署至少三个且奇数个的Sentinel节点。
3个以上是通过增加Sentinel节点的个数提高对于故障判定的准确性,因 为领导者选举需要至少一半加1个节点,奇数个节点可以在满足该条件的基 础上节省一个节点。有关Sentinel节点如何判断节点失败,如何选举出一个 Sentinel节点进行故障转移将在后面进行介绍。
4)只有一套Sentinel,还是每个主节点配置一套Sentinel?
Sentinel节点集合可以只监控一个主节点,也可以监控多个主节点,也 就意味着部署拓扑可能是图9-19和图9-20两种情况。
那么在实际生产环境中更偏向于哪一种部署方式呢,下面分别分析两种方案的优缺点。
方案一:一套Sentinel,很明显这种方案在一定程度上降低了维护成本,因为只需要维护固定个数的Sentinel节点,集中对多个Redis数据节点进行管理就可以了。但是这同时也是它的缺点,如果这套Sentinel节点集合出现异常,可能会对多个Redis数据节点造成影响。还有如果监控的Redis数据节点较多,会造成Sentinel节点产生过多的网络连接,也会有一定的影响。
方案二:多套Sentinel,显然这种方案的优点和缺点和上面是相反的, 每个Redis主节点都有自己的Sentinel节点集合,会造成资源浪费。但是优点也很明显,每套Redis Sentinel都是彼此隔离的。
Sentinel节点是一个特殊的Redis节点,它有自己专属的API,下面将对其进行介绍。为了方便演示,以下图进行说明:Sentinel节点集合监控着两组主从模式的Redis数据节点。
1.sentinel masters
展示所有被监控的主节点状态以及相关的统计信息,如下:
127.0.0.1:26379> sentinel masters
1) 1) "name"
2) "mymaster-2"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "6382"
.........忽略............
2) 1) "name"
2) "mymaster-1"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "6379"
.........忽略............
2.sentinel master
展示指定
127.0.0.1:26379> sentinel master mymaster-1
1) "name"
2) "mymaster-1"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "6379"
.........忽略............
3.sentinel slaves
展示指定
127.0.0.1:26379> sentinel slaves mymaster-1
1) 1) "name"
2) "127.0.0.1:6380"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "6380"
.........忽略............
2) 1) "name"
2) "127.0.0.1:6381"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "6381"
.........忽略............
4.sentinel sentinels
展示指定
127.0.0.1:26379> sentinel sentinels mymaster-1
1) 1) "name"
2) "127.0.0.1:26380"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "26380"
.........忽略............
2) 1) "name"
2) "127.0.0.1:26381"
3) "ip"
4) "127.0.0.1"
5) "port"
6) "26381"
.........忽略............
5.sentinel get-master-addr-by-name
返回指定
127.0.0.1:26379> sentinel get-master-addr-by-name mymaster-1
1) "127.0.0.1"
2) "6379"
6.sentinel reset
当前Sentinel节点对符合
127.0.0.1:26379> sentinel reset mymaster-1
(integer) 1
7.sentinel failover
对指定
例如,对mymaster-2进行故障转移:
127.0.0.1:26379> sentinel failover mymaster-2
OK
执行命令前,mymaster-2是127.0.0.1:6382
127.0.0.1:26379> info sentinel
# Sentinel
sentinel_masters:2 sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=mymaster-2,status=ok,address=127.0.0.1:6382,slaves=2,sentinels=3 master1:name=mymaster-1,status=ok,address=127.0.0.1:6379,slaves=2,sentinels=3
执行命令后:mymaster-2由原来的一个从节点127.0.0.1:6383代替。
127.0.0.1:26379> info sentinel
# Sentinel
sentinel_masters:2 sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=mymaster-2,status=ok,address=127.0.0.1:6383,slaves=2,sentinels=3 master1:name=mymaster-1,status=ok,address=127.0.0.1:6379,slaves=2,sentinels=3
8.sentinel ckquorum
检测当前可达的Sentinel节点总数是否达到
127.0.0.1:26379> sentinel ckquorum mymaster-1
OK 3 usable Sentinels. Quorum and failover authorization can be reached
9.sentinel flushconfig
将Sentinel节点的配置强制刷到磁盘上,这个命令Sentinel节点自身用得比较多,对于开发和运维人员只有当外部原因(例如磁盘损坏)造成配置文件损坏或者丢失时,这个命令是很有用的。
127.0.0.1:26379> sentinel flushconfig
OK
10.sentinel remove
取消当前Sentinel节点对于指定
例如sentinel-1当前对mymaster-1进行了监控:
127.0.0.1:26379> info sentinel
# Sentinel sentinel_masters:2
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=mymaster-2,status=ok,address=127.0.0.1:6382,slaves=2,sentinels=3 master1:name=mymaster-1,status=ok,address=127.0.0.1:6379,slaves=2,sentinels=3
例如下面,sentinel-1节点取消对mymaster-1节点的监控,但是要注意这 个命令仅仅对当前Sentinel节点有效。
127.0.0.1:26379> sentinel remove mymaster-1
OK
再执行info sentinel命令,发现sentinel-1已经失去对mymaster-1的监控:
127.0.0.1:26379> info sentinel
# Sentinel
sentinel_masters:1
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=mymaster-2,status=ok,address=127.0.0.1:6383,slaves=2,sentinels=3
11.sentinel monitor
这个命令和配置文件中的含义是完全一样的,只不过是通过命令的形式 来完成Sentinel节点对主节点的监控。
例如命令sentinel-1节点重新监控mymaster-1节点:
127.0.0.1:26379> sentinel monitor mymaster-1 127.0.0.1 6379 2
OK
命令执行后,发现sentinel-1节点重新对mymaster-1节点进行监控:
# Sentinel
sentinel_masters:2
sentinel_tilt:0
sentinel_running_scripts:0
sentinel_scripts_queue_length:0
master0:name=mymaster-2,status=ok,address=127.0.0.1:6383,slaves=2,sentinels=3 master1:name=mymaster-1,status=ok,address=127.0.0.1:6379,slaves=2,sentinels=3
12.sentinel set
动态修改Sentinel节点配置选项
13.sentinel is-master-down-by-addr
Sentinel节点之间用来交换对主节点是否下线的判断,根据参数的不 同,还可以作为Sentinel领导者选举的通信方式
1 Redis Sentinel的客户端
Sentinel节点集合具备了监控、通知、自动故障转移、配置提供者若干 功能,也就是说实际上最了解主节点信息的就是Sentinel节点集合,而各个 主节点可以通过
2 Redis Sentinel客户端基本实现原理
实现一个Redis Sentinel客户端的基本步骤如下:
1)遍历Sentinel节点集合获取一个可用的Sentinel节点,后面会介绍 Sentinel节点之间可以共享数据,所以从任意一个Sentinel节点获取主节点信息都是可以的,如下图所示。
2)通过sentinel get-master-addr-by-name master-name这个API来获取对应 主节点的相关信息,如下图所示:
3)验证当前获取的“主节点”是真正的主节点,这样做的目的是为了防止故障转移期间主节点的变化,如下图所示:
4)保持和Sentinel节点集合的“联系”,时刻获取关于主节点的相关“信 息”,如下图所示。
从上面的模型可以看出,Redis Sentinel客户端只有在初始化和切换主节 点时需要和Sentinel节点集合进行交互来获取主节点信息,所以在设计客户 端时需要将Sentinel节点集合考虑成配置(相关节点信息和变化)发现服务。
上述过程只是从客户端设计的角度进行分析,在开发客户端时要考虑的 细节还有很多,但是这些问题并不需要深究,下面将介绍如何使用Java的 Redis客户端操作Redis Sentinel,并结合本节的内容分析一下相关源码。
3 Java操作Redis Sentinel
Jedis能够很好地支持Redis Sentinel,并且使用Jedis连接Redis Sentinel也很简 单,按照Redis Sentinel的原理,需要有masterName和Sentinel节点集合两个参 数。第4章我们介绍了Jedis的连接池JedisPool,为了不与之相混淆,Jedis针 对Redis Sentinel给出了一个JedisSentinelPool,很显然这个连接池保存的连接 还是针对主节点的。Jedis给出很多构造方法,其中最全的如下所示:
public JedisSentinelPool(String masterName, Set sentinels,
final GenericObjectPoolConfig poolConfig, final int connectionTimeout,
final int soTimeout, final String password, final int database,
final String clientName)
具体参数含义如下:
·masterName——主节点名。
·sentinels——Sentinel节点集合。
·poolConfig——common-pool连接池配置。
·connectTimeout——连接超时。
·soTimeout——读写超时。
·password——主节点密码。
·database——当前数据库索引。
·clientName——客户端名。
例如要想通过简单的几个参数获取JedisSentinelPool,可以直接按照下 面方式进行JedisSentinelPool的初始化。
JedisSentinelPool jedisSentinelPool = new JedisSentinelPool(masterName, sentinelSet, poolConfig, timeout);
此时timeout既代表连接超时又代表读写超时,password为空,database 默认使用0,clientName为空。具体可以参考JedisSentinelPool源码。和JedisPool非常类似,我们在使用JedisSentinelPool时也要尽可能按照 common-pool的标准模式进行代码的书写,和第4章介绍的JedisPool的推荐使用方法是一样的
Jedis jedis = null;
try {
jedis = jedisSentinelPool.getResource();
// jedis command
} catch (Exception e) {
logger.error(e.getMessage(), e);
} finally {
if (jedis != null)
jedis.close();
}
jedis.close()是和第4章介绍的一样,并不是关闭Jedis连接。JedisSentinelPool和JedisPool一样,尽可能全局只有一个。
Jedis源码中的JedisSentinelPool就是按照2 Redis Sentinel客户端基本实现原理来实现的,所以 有必要介绍一下JedisSentinelPool的实现过程,下面给出的代码就是JedisSentinelPool的初始化方法。
public JedisSentinelPool(String masterName, Set sentinels,
final GenericObjectPoolConfig poolConfig, final int connectionTimeout,
final int soTimeout, final String password, final int database,
final String clientName) {
…
HostAndPort master = initSentinels(sentinels, masterName);
initPool(master);
… }
下面的代码就是JedisSentinelPool初始化代码的重要函数 initSentinels(Set
private HostAndPort initSentinels(Set sentinels, final String masterName) {
// 主节点
HostAndPort master = null;
// 遍历所有sentinel节点
for (String sentinel : sentinels) {
// 连接sentinel节点
HostAndPort hap = toHostAndPort(Arrays.asList(sentinel.split(":")));
Jedis jedis = new Jedis(hap.getHost(), hap.getPort());
// 使用sentinel get-master-addr-by-name masterName获取主节点信息
List masterAddr = jedis.sentinelGetMasterAddrByName(masterName);
// 命令返回列表为空或者长度不为2,继续从下一个sentinel节点查询
if (masterAddr == null || masterAddr.size() != 2) {
continue;
}
// 解析masterAddr获取主节点信息
master = toHostAndPort(masterAddr);
// 找到后直接跳出for循环
break;
}
if (master == null) {
// 直接抛出异常,
throw new Exception();
}
// 为每个sentinel节点开启主节点switch的监控线程
for (String sentinel : sentinels) {
final HostAndPort hap = toHostAndPort(Arrays.asList(sentinel.split(":")));
MasterListener masterListener = new MasterListener(masterName, hap.getHost(),
hap.getPort());
masterListener.start();
}
// 返回结果
return master;
}
具体过程如下:
1)遍历Sentinel节点集合,找到一个可用的Sentinel节点,如果找不到就 从Sentinel节点集合中去找下一个,如果都找不到直接抛出异常给客户端:
new JedisException("Can connect to sentinel, but " + masterName + " seems to be not
2)找到一个可用的Sentinel节点,执行 sentinelGetMasterAddrByName(masterName),找到对应主节点信息:
List masterAddr = jedis.sentinelGetMasterAddrByName(masterName);
3)JedisSentinelPool中没有发现对主节点角色验证的代码,这是因为 get-master-addr-by-name master-name这个API本身就会自动获取真正的主节点(例如故障转移期间)。
4)为每一个Sentinel节点单独启动一个线程,利用Redis的发布订阅功能,每个线程订阅Sentinel节点上切换master的相关频道+switch-master。
for (String sentinel : sentinels) {
final HostAndPort hap = toHostAndPort(Arrays.asList(sentinel.split(":")));
MasterListener masterListener = new MasterListener(masterName, hap.getHost(),
hap.getPort());
masterListener.start();
}
下面代码就是MasterListener的核心监听代码,代码中比较重要的部分就 是订阅Sentinel节点的+switch-master频道,它就是Redis Sentinel在结束对主 节点故障转移后会发布切换主节点的消息,Sentinel节点基本将故障转移的各个阶段发生的行为都通过这种发布订阅的形式对外提供,开发者只需订阅感兴趣的频道即可,这里我们比较关心的是+switch-master这个频道。
Jedis sentinelJedis = new Jedis(sentinelHost, sentinelPort);
// 客户端订阅Sentinel节点上"+switch-master"(切换主节点)频道
sentinelJedis.subscribe(new JedisPubSub() {
@Override
public void onMessage(String channel, String message) {
String[] switchMasterMsg = message.split(" ");
if (switchMasterMsg.length > 3) {
// 判断是否为当前masterName
if (masterName.equals(switchMasterMsg[0])) {
// 发现当前masterName发生switch,使用initPool重新初始化连接池
initPool(toHostAndPort(switchMasterMsg[3], switchMasterMsg[4]));
}
}
}
}, "+switch-master");
下面将介绍Redis Sentinel的基本实现原理,具体包含以下几个方面: Redis Sentinel的三个定时任务、主观下线和客观下线、Sentinel领导者选举、 故障转移.
1 三个定时监控任务
一套合理的监控机制是Sentinel节点判定节点不可达的重要保证,Redis Sentinel通过三个定时监控任务完成对各个节点发现和监控:
1)每隔10秒,每个Sentinel节点会向主节点和从节点发送info命令获取 最新的拓扑结构,如下图所示。
例如下面就是在一个主节点上执行info replication的结果片段:
# Replication
role:master
connected_slaves:2
slave0:ip=127.0.0.1,port=6380,state=online,offset=4917,lag=1 slave1:ip=127.0.0.1,port=6381,state=online,offset=4917,lag=1
Sentinel节点通过对上述结果进行解析就可以找到相应的从节点。
这个定时任务的作用具体可以表现在三个方面:
·通过向主节点执行info命令,获取从节点的信息,这也是为什么 Sentinel节点不需要显式配置监控从节点。
·当有新的从节点加入时都可以立刻感知出来。
·节点不可达或者故障转移后,可以通过info命令实时更新节点拓扑信息。
2)每隔2秒,每个Sentinel节点会向Redis数据节点的__sentinel__:hello 频道上发送该Sentinel节点对于主节点的判断以及当前Sentinel节点的信息 (如下图所示),同时每个Sentinel节点也会订阅该频道,来了解其他 Sentinel节点以及它们对主节点的判断,所以这个定时任务可以完成以下两个工作:
·发现新的Sentinel节点:通过订阅主节点的__sentinel__:hello了解其他的Sentinel节点信息,如果是新加入的Sentinel节点,将该Sentinel节点信息保 存起来,并与该Sentinel节点创建连接。
·Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据。
Sentinel节点publish的消息格式如下:
<主节点名字> <主节点Ip> <主节点端口> <主节点配置版本>
3)每隔1秒,每个Sentinel节点会向主节点、从节点、其余Sentinel节点 发送一条ping命令做一次心跳检测,来确认这些节点当前是否可达。如下图所示。通过上面的定时任务,Sentinel节点对主节点、从节点、其余 Sentinel节点都建立起连接,实现了对每个节点的监控,这个定时任务是节点失败判定的重要依据。
2 主观下线和客观下线
1.主观下线
上一小节介绍的第三个定时任务,每个Sentinel节点会每隔1秒对主节 点、从节点、其他Sentinel节点发送ping命令做心跳检测,当这些节点超过 down-after-milliseconds没有进行有效回复,Sentinel节点就会对该节点做失败判定,这个行为叫做主观下线。从字面意思也可以很容易看出主观下线是当前Sentinel节点的一家之言,存在误判的可能,如下图所示。
2.客观下线
当Sentinel主观下线的节点是主节点时,该Sentinel节点会通过sentinel ismaster-down-by-addr命令向其他Sentinel节点询问对主节点的判断,当超过
从节点、Sentinel节点在主观下线后,没有后续的故障转移操作。
这里有必要对sentinel is-master-down-by-addr命令做一个介绍,它的使用方法如下:
sentinel is-master-down-by-addr
·ip:主节点IP。
·port:主节点端口。
·current_epoch:当前配置纪元。
·runid:此参数有两种类型,不同类型决定了此API作用的不同。
当runid等于“*”时,作用是Sentinel节点直接交换对主节点下线的判定。
当runid等于当前Sentinel节点的runid时,作用是当前Sentinel节点希望目 标Sentinel节点同意自己成为领导者的请求,有关Sentinel领导者选举,后面会进行介绍。
例如sentinel-1节点对主节点做主观下线后,会向其余Sentinel节点(假 设sentinel-2和sentinel-3节点)发送该命令:
sentinel is-master-down-by-addr 127.0.0.1 6379 0 *
返回结果包含三个参数,如下所示:
·down_state:目标Sentinel节点对于主节点的下线判断,1是下线,0是在线。
·leader_runid:当leader_runid等于“*”时,代表返回结果是用来做主节点是否不可达,当leader_runid等于具体的runid,代表目标节点同意runid成为领导者。
·leader_epoch:领导者纪元。
3 领导者Sentinel节点选举
假如Sentinel节点对于主节点已经做了客观下线,那么是不是就可以立 即进行故障转移了?当然不是,实际上故障转移的工作只需要一个Sentinel 节点来完成即可,所以Sentinel节点之间会做一个领导者选举的工作,选出 一个Sentinel节点作为领导者进行故障转移的工作。Redis使用了Raft算法实 现领导者选举,因为Raft算法相对比较抽象和复杂,以及篇幅所限,所以这里给出一个Redis Sentinel进行领导者选举的大致思路:
1)每个在线的Sentinel节点都有资格成为领导者,当它确认主节点主观 下线时候,会向其他Sentinel节点发送sentinel is-master-down-by-addr命令,要求将自己设置为领导者。
2)收到命令的Sentinel节点,如果没有同意过其他Sentinel节点的sentinel is-master-down-by-addr命令,将同意该请求,否则拒绝。
3)如果该Sentinel节点发现自己的票数已经大于等于max(quorum, num(sentinels)/2+1),那么它将成为领导者。
4)如果此过程没有选举出领导者,将进入下一次选举
下图展示了一次领导者选举的大致过程:
1)s1(sentinel-1)最先完成了客观下线,它会向s2(sentinel-2)和 s3(sentinel-3)发送sentinel is-master-down-by-addr命令,s2和s3同意选其为领导者。
2)s1此时已经拿到2张投票,满足了大于等于max(quorum, num(sentinels)/2+1)=2的条件,所以此时s1成为领导者。
由于每个Sentinel节点只有一票,所以当s2向s1和s3索要投票时,只能获 取一票,而s3由于最后完成主观下线,当s3向s1和s2索要投票时一票都得不到
实际上Redis Sentinel实现会更简单一些,因为一旦有一个Sentinel节点获 得了max(quorum,num(sentinels)/2+1)的票数,其他Sentinel节点再去确 认已经没有意义了,因为每个Sentinel节点只有一票,选举的过程非常快,基本上谁先完成客观下线,谁就是领导者。
有关Raft算法可以参考其GitHub主页https://raft.github.io/。
4 故障转移
领导者选举出的Sentinel节点负责故障转移,具体步骤如下:
1)在从节点列表中选出一个节点作为新的主节点,选择方法如下:
a)过滤:“不健康”(主观下线、断线)、5秒内没有回复过Sentinel节 点ping响应、与主节点失联超过down-after-milliseconds*10秒。
b)选择slave-priority(从节点优先级)最高的从节点列表,如果存在则返回,不存在则继续。
c)选择复制偏移量最大的从节点(复制的最完整),如果存在则返回,不存在则继续。
d)选择runid最小的从节点。
2)Sentinel领导者节点会对第一步选出来的从节点执行slaveof no one命令让其成为主节点。
3)Sentinel领导者节点会向剩余的从节点发送命令,让它们成为新主节点的从节点,复制规则和parallel-syncs参数有关。
4)Sentinel节点集合会将原来的主节点更新为从节点,并保持着对其关注,当其恢复后命令它去复制新的主节点。
小结:
1)Redis Sentinel是Redis的高可用实现方案:故障发现、故障自动转移、配置中心、客户端通知。
2)Redis Sentinel从Redis2.8版本开始才正式生产可用,之前版本生产不可用。
3)尽可能在不同物理机上部署Redis Sentinel所有节点。
4)Redis Sentinel中的Sentinel节点个数应该为大于等于3且最好为奇数。
5)Redis Sentinel中的数据节点与普通数据节点没有区别。
6)客户端初始化时连接的是Sentinel节点集合,不再是具体的Redis节 点,但Sentinel只是配置中心不是代理。
7)Redis Sentinel通过三个定时任务实现了Sentinel节点对于主节点、从 节点、其余Sentinel节点的监控。
8)Redis Sentinel在对节点做失败判定时分为主观下线和客观下线。