Sentinel(哨兵)是Redis的高可用性解决方案:由一个或多个Sentinel实例组成的Sentinel系统可以监视任意多个主服务器,以及这些主服务器属下的所有从服务器,并在主服务器进入下线状态时,自动将下线主服务器属下的某个从服务器升级为新的主服务器,然后由新的主服务器代替已下线的主服务器继续处理命令请求;
启动并初始化:
启动一个Sentinel的命令:redis-sentinel /path/to/your/sentinel.conf 或redis-server /path/to/your/sentinel.conf --sentinel 两命令效果相同。当一个Sentinel启动时,会执行以下步骤:
补充:为什么有两个连接?——在Redis目前的发布订阅功能中,被发送的信息都不会保存在Redis服务器里面,若发送信息时,想要接受信息的客户端离线,那么该客户端将会丢失这条信息。因此,为了不丢失__sentinel__: hello 频道的任何信息,Sentinel必须专门用一个订阅连接来接收该频道的消息; 另一方面,Sentinel还必须向主服务器发送命令,以此与主服务器进行通信,所以Sentinel还必须向主服务器创建命令连接。
获取主服务器信息
Sentinel默认每10秒通过命令连接向其监视的主服务器发松INFO命令,并通过命令回复分析主服务器状态。
根据run_id和role域所记录的信息,Sentinel将对主服务器的实例结构(sentinelRedisInstance结构)进行相关信息更新;
命令回复中返回的从服务器信息,会被用于更新主服务器实例结构的slaves字典,该字典记录了主服务器属下所有从服务器的名单信息;
注:主服务器实例结构的name属性值用户通过Sentinel配置文件设置的,而从服务器实例结构的name属性值则是Sentinel根据从服务器的IP地址和端口号自动设置的;
获取从服务器信息
当Sentinel发现自身所监视的主服务器有新的从服务器时,不仅会为其创建相应的实例结构,还会创建连接到这个从服务器的命令连接以及订阅连接;
同样,Sentinel也会每10秒向从服务器发送INFO命令,并通过命令回复分析从服务器的相关信息,并更新自身对从服务器的认知;
向主服务器和从服务器发送信息
默认情况下,Sentinel会每2秒一次通过命令连接向所有被监视的主服务器和从服务器的 __sentinel__:hello频道发送PUBLISH...命令,该命令中包括了Sentinel自身的相关信息以及目标主服务器的相关信息(若目标为从服务器,则记录的是从服务器正在复制的主服务器信息);
接收来自主服务器和从服务器的频道信息
当Sentinel与一个主服务器或从服务器建立起订阅连接之后,Sentinel就会通过订阅连接向服务器发送:SUBSCRIBE __sentienl__:hello命令,即为订阅该频道,该订阅状态会一直持续到Sentinel与服务器断开位置。
对于每个与Sentinel连接的服务器,Sentinel既通过命令连接向服务器的 __sentinel__:hello频道发送信息,又通过订阅连接从服务器的该频道接收信息;
对于监视同一个服务器的多个Sentinel来说,一个Sentinel发送的信息会被其他Sentinel接收到,这些信息会被用于更新其他Sentinel对源Sentinel以及被共同监视的服务器的认知。(注:源Sentinel也会收到自身所发送的信息,通过比对运行id,会进行消息的舍弃)
更新sentinels字典
Sentinel为主服务器创建的实例结构中的sentinels字典保存了所有监视该主服务器的Sentinel信息;
当目标Sentinel接收到了某个源Sentinel的信息时,会从信息中提取出主服务器,以及源Sentinel的相关信息;目标Sentinel会在自身的Sentinel状态中的masters属性中比对主服务器信息,查看是否存在该主服务器,若存在,则会对该主服务器实例结构的sentinels字典中的源Sentinel信息进行更新。
监视同一个主服务器的多个Sentinel可以自动发现对方,无需用户提供各个Sentinel的地址信息。
创建连向其他Sentinel的命令连接
监视同一个主服务器的Sentinel之间会互相创建连向对方的命令连接,以通过互相发送命令请求而达到信息交换的目的;Sentinel之间只会创建命令连接,而不会创建订阅连接(因为Sentinel需要通过接收主服务器或从服务器发来的频道信息来发现未知的新Sentinel,所以才需要建立订阅连接)
检查主观下线状态
默认情况下,Sentinel会以每秒一次的频率向所有与它建立了命令连接的实例(主、从服务器、其他Sentinel)发送PING命令,并通过PING命令的回复来判断实例是否在线。
有效命令回复:+PONG、-LOADING、-MASTERDOWN三种之中的任意一种;
无效命令回复:除以上三种以外的其他回复,或在指定时间内没有任何回复;
Sentinel配置文件中的down-after-milliseconds选项指定了Sentinel判断实例进入主观下线所需的时间长度:若一个实力在down-after-milliseconds毫秒内,连续向Sentinel返回无效回复,那么Sentinel判断此实例“主观下线”,并在该实例结构中的flag属性打开SRI_S_DOWN标识。(注:该下线时长被用于判定所有与源Sentinel相关联的实例,多个Sentinel对该时长的设置可能不同)
检查客观下线状态
当一个Sentinel判定某个主服务器为主观下线状态时,会向其他同样监视该主服务器的Sentinel确认该主服务器是否进入“客观下线”状态,若判定该主服务器进入“客观下线”状态,则对其进行故障转移;
注:ip、port为主服务器的ip地址以及端口号;current_epoch为Sentinel当前的配置纪元,用于选举零头Sentinel;runid当为“ * ”时,则仅仅用于检测主服务器的客观下线状态,若为Sentinel的运行id则用于选举领头Sentinel;
Notes:down_state意为,对目标主服务器的检查结果,1 则代表主服务器已下线,0 则代表主服务器未下线;leader_runid意为,“*”则用于检测主服务器的下线状态,“运行id号”则用于选举领头Sentinel;leader_epoch意为,该值总在leader_runid不为“*”时有效,若为“*”则该值总为0;
注:不同Sentinel配置中的quorum值可能会设置的不同,即对于监视同一个主服务器的Sentinel判定主服务器进入客观下线的标准可能不同;
选举领头Sentinel
当一个主服务器被判定为客观下线状态时,监视这个下线主服务器的各个Sentinel会进行协商选举出一个领头Sentinel,并由领头Sentinel对下线主服务器执行故障转移操作。
选举领头Sentinel的规则:
注:因为领头Sentinel的产生需要半数以上Sentinel的支持,且每个Sentinel在每个配置纪元里只能设置一次局部领头Sentinel,所以在一个配置纪元里,只会产生一个领头Sentinel; 若在规定时间内,没有产生领头Sentinel,那么过段时间继续选举,直到选举出来为止;
故障转移
选举出领头Sentinel后,该领头Sentinel将对已下线的主服务器执行故障转移操作:① 在已下线的主服务器属下的所有从服务器中挑一个,并将其转换为主服务器;② 让其他从服务器改为复制新的主服务器;③ 将原已下线的主服务器改为新主服务器的从服务器;