你的Redis集群真的是高可用的吗?

背景

我们在客户机房部署的的Redis是3主3从的集群,共占用3台服务器(100,101,102),没有使用哨兵系统,昨天客户机房按照机器轮着停机维护,先停了100维护,再停101维护,停100的时候还没啥问题,在100恢复之后再停101的时候我们的后台服务突然报could not get resource from jedis poo。硬着脑门排查,写下这篇博客记录。

原理

  • 3台服务器,分别部署(100机器:master1,slave3)、(101机器:master2,slave1)、(102机器:master3,slave2),master槽位平分,形成集群
  • 停机维护100的时候,master1的slave1把自己设置为master1,此时的状态是(100:宕机)(101:master2,master1),(102:master3,slave2)
  • 100机器恢复之后,原来该机器上的master会变为slave1,此时的状态是(100:slave1,slave3),(101:master2,master1),(102:master3,slave2)
  • 停掉101机器之后master1和master2全挂掉,集群中有半数(2个)master挂掉,那么集群处于fail状态,也就是Redis不可用。

解决

  • 临时方案:停机或者宕机恢复后使用redis 的cluster info 查看集群状态信息,如果有两个master位于同一台机器上,那么kill掉这个master,让master重新回到原来的机器。
  • 较好方案:master和slave分别占用1台机器,有资源的条件下可以这样部署。

你可能感兴趣的:(你的Redis集群真的是高可用的吗?)