Redis Sentinel哨兵的基本实现原理

Redis Sentinel的三个定时任务、主观下线和客观下线、Sentinel领导者选举、
故障转移

1. 哨兵监控master节点定时器

每隔10秒,每个Sentinel节点会向主节点和从节点发送info命令获取最新的主从节点信息

  • 127.0.0.1:6379>info replication
    image.png

第一个定时器的作用

  1. 通过info主节点获取从节点信息,更新最新的拓扑图
  2. 感知新节点加入
  3. 节点异常或故障转移, 通过info更新最新节点拓扑信息


    image.png

第二个定时器的作用

  1. 每隔2秒,每个Sentinel节点会向Redis数据节点的__sentinel__:hello频道上发送该Sentinel节点对于主节点的判断以及当前Sentinel节点的信息
  2. 同时每个Sentinel节点也会订阅该频道,来了解其他Sentinel节点以及它们对主节点的判断
  3. 发现新的Sentinel节点:通过订阅主节点的__sentinel__:hello了解其他的Sentinel节点信息,如果是新加入的Sentinel节点,将该Sentinel节点信息保存起来,并与该Sentinel节点创建连接
  4. Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据


    image.png

第三个定时器的作用

  1. 每隔1秒,每个Sentinel节点会向主节点、从节点、其余Sentinel节点发送一条ping命令做一次心跳检测,来确认这些节点当前是否可达


    image.png

主观下线和客观下线

主观判断

  • 每个Sentinel节点会每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心跳检测,当这些节点超过down-after-milliseconds没有进行有效回复,Sentinel节点就会对该节点做失败判定,这个行为叫做主观下线
  • 可能存在误判


    image.png

客观判断

  1. 当Sentinel主观下线的节点是主节点时,该Sentinel节点会通过sentinel is-master-down-by-addr命令向其他Sentinel节点询问对主节点的判断,当超过个数,Sentinel节点认为主节点确实有问题
  2. 从节点、Sentinel节点在主观下线后,没有后续的故障转移操作。
  3. 命令格式: sentinel is-master-down-by-addr
ip:主节点IP。
·port:主节点端口。
·current_epoch:当前配置纪元。
·runid:此参数有两种类型,不同类型决定了此API作用的不同。
当runid等于“*”时,作用是Sentinel节点直接交换对主节点下线的判定
  1. sentinel对主节点做主观下线后, 会向其它sentinel节点发送的命令: sentinel is-master-down-by-addr 127.0.0.1 6379 0 *返回结果包含三个参数,如下所示:
·down_state:目标Sentinel节点对于主节点的下线判断,1是下线,0是
在线。
·leader_runid:当leader_runid等于“*”时,代表返回结果是用来做主节点
是否不可达,当leader_runid等于具体的runid,代表目标节点同意runid成为
领导者。
·leader_epoch:领导者纪元。

领导者Sentinel节点选举

假如Sentinel节点对于主节点已经做了客观下线,那么是不是就可以立即进行故障转移了?当然不是,实际上故障转移的工作只需要一个Sentinel节点来完成即可,所以Sentinel节点之间会做一个领导者选举的工作,选出一个Sentinel节点作为领导者进行故障转移的工作

判定主节点客观下线后, 如何做出转移工作呢? 需要在sentinel集群中选出一个领导者, 故障转移工作交由领导工作

投票过程

每一个Sentinel都有可能成为领导者, redis借用了raft算法思想,请参考:Raft原理

  1. 当sentinel-1首先发现主节点下线, 会向其它sentinel节点发送sentinel is-master-down-by-addr命令要求投票给自己.
  2. 收到命令的Sentinel节点, 如果没有同意过其他Sentinel节点的sentinel is-master-down-by-addr命令,则会同意, 否则拒绝.
  3. sentinel-1收到票数大于等于,就成为领导者.
  4. 如果此过程没有产生领导者,将进入下一次选举.直到选出领导者.
image.png

故障转移

领导者选举出的Sentinel节点负责故障转移

  • 在从节点列表中选出一个节点作为新的主节点, 选择方法如下:
  1. 过滤:“不健康”(主观下线、断线)、5秒内没有回复过Sentinel节
    点ping响应、与主节点失联超过down-after-milliseconds*10秒。
  2. 择slave-priority(从节点优先级)最高的从节点列表,如果存在则
    返回,不存在则继续。
  3. 选择复制偏移量最大的从节点(复制的最完整),如果存在则返
    回,不存在则继续。
  4. 选择runid最小的从节点


  • Sentinel领导者节点会对第一步选出来的从节点执行slaveof no one命令让其成为主节点。
  • Sentinel领导者节点会向剩余的从节点发送命令,让它们成为新主节
    点的从节点,复制规则和parallel-syncs参数有关
  • Sentinel节点集合会将原来的主节点更新为从节点,并保持着对其关
    注,当其恢复后命令它去复制新的主节点

如何查看日志

  • 以下日志是主观判断下线和客观判断下线.
  • sdown 是主观
  • odown 是客观, 投票数达到quorum数量则进行故障转移
62162:X 10 Jan 2020 20:05:20.216 # +sdown master mymaster 192.168.21.22 6383
62162:X 10 Jan 2020 20:05:20.269 # +odown master mymaster 192.168.21.22 6383 #quorum 2/2
62162:X 10 Jan 2020 20:05:20.269 # +new-epoch 16 #更新自己的新纪元.
# 投票给58c4052a7ab0953c4a6393be270b693b2ded243a sentinel节点, 可以在sentinel.conf配置里查看myid
62144:X 10 Jan 2020 20:05:20.276 # +vote-for-leader 58c4052a7ab0953c4a6393be270b693b2ded243a 16
-sdown master mymaster 192.168.21.22 6383 # 撤销主观判断下线.

节点下线与上线

节点下线

分临时下线(一般是维护)或永久下线(一般是换机器,升级,降级,缩容)

  1. 可以是主节点, 从节点,sentinel节点下线.
  2. 手动发起故障转移sentinel failover

从节点的作用

  1. 当发生故障,从节点可以切换成主节点,继续提供服务
  2. 扩展主节点的读能力.适合读多写少

sentinel支持的命令

ping、sentinel、subscribe、unsubscribe、psubscribe、punsubscribe、publish、info、role、client、shutdown

注意

哨兵模式很依赖时间, 部署各个节点的机器时间尽量要同步,否则日志的时序性会混乱,例如
可以给机器添加NTP服务来同步时间
https://www.jianshu.com/p/386815866cd4

参考

  1. https://redis.io/topics/sentinel
  2. Redis开发与运维

你可能感兴趣的:(Redis Sentinel哨兵的基本实现原理)