最近研究了redis的集群方案,第一个方案是创建 redis cluster,第二种方案就是用哨兵模式来进行主从替换以及故障恢复。
Redis Sentinel
Sentinel(哨兵)是用于监控redis集群中Master状态的工具,其已经被集成在redis2.4+的版本中
Sentinel作用:
1):Master状态检测
2):如果Master异常,则会进行Master-Slave切换,将其中一个Slave作为Master,将之前的Master作为Slave
3):Master-Slave切换后,master_redis.conf、slave_redis.conf和sentinel.conf的内容都会发生改变,即master_redis.conf中会多一行slaveof的配置,sentinel.conf的监控目标会随之调换
Sentinel工作方式:
1):每个Sentinel以每秒钟一次的频率向它所知的Master,Slave以及其他 Sentinel 实例发送一个 PING 命令
2):如果一个实例(instance)距离最后一次有效回复 PING 命令的时间超过 down-after-milliseconds 选项所指定的值, 则这个实例会被 Sentinel 标记为主观下线。
3):如果一个Master被标记为主观下线,则正在监视这个Master的所有 Sentinel 要以每秒一次的频率确认Master的确进入了主观下线状态。
4):当有足够数量的 Sentinel(大于等于配置文件指定的值)在指定的时间范围内确认Master的确进入了主观下线状态, 则Master会被标记为客观下线
5):在一般情况下, 每个 Sentinel 会以每 10 秒一次的频率向它已知的所有Master,Slave发送 INFO 命令
6):当Master被 Sentinel 标记为客观下线时,Sentinel 向下线的 Master 的所有 Slave 发送 INFO 命令的频率会从 10 秒一次改为每秒一次
7):若没有足够数量的 Sentinel 同意 Master 已经下线, Master 的客观下线状态就会被移除。
若 Master 重新向 Sentinel 的 PING 命令返回有效回复, Master 的主观下线状态就会被移除。
主观下线和客观下线
主观下线:Subjectively Down,简称 SDOWN,指的是当前 Sentinel 实例对某个redis服务器做出的下线判断。
客观下线:Objectively Down, 简称 ODOWN,指的是多个 Sentinel 实例在对Master Server做出 SDOWN 判断,并且通过 SENTINEL is-master-down-by-addr 命令互相交流之后,得出的Master Server下线判断,然后开启failover.
通俗来讲就是:
redis的sentinel系统用来管理多个redis服务器,可以实现一个功能上实现HA的集群。该系统主要执行三个任务:
①监控( Monitoring ): Redis Sentinel实时监控主服务器和从服务器运行状态。
②提醒(notification): 当被监控的某个 Redis 服务器出现问题时, Redis Sentinel 可以向系统管理员发送通知, 也可以通过 API 向其他程序发送通知
一个简单的主从结构加sentinel集群的架构图如下:
上图是一主一从节点,加上两个部署了sentinel的集群,sentinel集群之间会互相通信,沟通交流redis节点的状态,做出相应的判断并进行处理,这里的主观下线状态和客观下线状态是比较重要的状态,它们决定了是否进行故障转移
可以 通过订阅指定的频道信息,当服务器出现故障得时候通知管理员
客户端可以将 Sentinel 看作是一个只提供了订阅功能的 Redis 服务器,你不可以使用 PUBLISH 命令向这个服务器发送信息,但你可以用 SUBSCRIBE 命令或者 PSUBSCRIBE 命令, 通过订阅给定的频道来获取相应的事件提醒。
一个频道能够接收和这个频道的名字相同的事件。 比如说, 名为 +sdown 的频道就可以接收所有实例进入主观下线(SDOWN)状态的事件。
1.搭建redis主从,一个master两个slave,加一个哨兵监听(sentinel),可以新建三个虚拟机,模拟环境,我的电脑没那么多虚拟机,就在一台虚拟机上弄的.
2.安装redis,如果是三台机器,安装redis的步骤一样.
3.安装完redis后,复制同样的文件两份用于当slave
#复制两份redis文件,当从redis(端口6379为主redis,端口6380,6381两个为从redis) [root@localhost src]# cp -r /usr/redis/redis-3.2.4 /usr/redis/redis-6380 [root@localhost src]# cp -r /usr/redis/redis-3.2.4 /usr/redis/redis-6381
4.修改两份 redis.conf 配置文件
[root@localhost src]# vi /usr/redis/redis-6380/redis.conf
[root@localhost src]# vi /usr/redis/redis-6381/redis.conf
redis.conf 配置文件中主要改的地方(以/usr/redis/redis-6380/redis.conf文件为例)
1.bind 192.168.200.108(改为虚拟机的ip)
2.port 6380(端口号)
3.daemonize yes(守护进程)
4.pidfile "/var/run/redis_6380.pid"(进程的目录)
5.slaveof 192.168.200.108 6379(设置为此redis为master的IP与端口号)
6.slave-read-only yes(只读)
5.修改两份 sentinel.conf 配置文件
[root@localhost src]# vi /usr/redis/redis-6380/sentinel.conf
[root@localhost src]# vi /usr/redis/redis-6381/sentinel.conf
sentinel.conf 配置文件修改的地方
1.port 26379(端口号,可以使用默认端口)
2.sentinel monitor master 192.168.200.108 6379 2(主redis的名称,ip和端口)
6.在主redis配置哨兵监听
[root@localhost src]# vi /usr/redis/redis-3.2.4/sentinel.conf
#修改要监听的主机ip和端口
##sentinel for 10.0.0.10 ,its slave is 10.0.0.20 #master1 port 26383
protected-mode no
sentinel monitor mymaster 192.168.200.108 6379 2 sentinel down-after-milliseconds master1 30000 sentinel failover-timeout master1 900000 sentinel parallel-syncs master1 1 #sentinel auth-pass mymaster 123456 #如果你的redis集群有密码
7.在/etc/init.d文件中复制两份redis启动脚本(脚本内容见之前写的 启动redis脚本 文章)
修改端口号和文件路径(以redis-6380为例)
8.启动三台redis
启动哨兵
[root@localhost ~]# ps -ef|grep redis
root 3403 1 0 20:28 ? 00:00:00 /usr/redis/redis-3.2.4/src/redis-server 192.168.200.108:6379
root 3415 1 0 20:28 ? 00:00:00 /usr/redis/redis-6380/src/redis-server 192.168.200.108:6380
root 3427 1 0 20:28 ? 00:00:00 /usr/redis/redis-6381/src/redis-server 192.168.200.108:6381
root 3432 3373 0 20:28 pts/1 00:00:00 grep redis
[root@localhost ~]# cd /usr/redis/redis-3.2.4
[root@localhost redis-3.2.4]# src/redis-sentinel sentinel.conf &
[1] 3443
[root@localhost redis-3.2.4]# 3443:X 02 Mar 20:30:29.076 * Increased maximum number of open files to 10032 (it was originally set to 1024).
_._
_.-``__ ''-._
_.-`` `. `_. ''-._ Redis 3.2.4 (00000000/0) 64 bit
.-`` .-```. ```\/ _.,_ ''-._
( ' , .-` | `, ) Running in sentinel mode
|`-._`-...-` __...-.``-._|'` _.-'| Port: 26379
| `-._ `._ / _.-' | PID: 3443
`-._ `-._ `-./ _.-' _.-'
|`-._`-._ `-.__.-' _.-'_.-'|
| `-._`-._ _.-'_.-' | http://redis.io
`-._ `-._`-.__.-'_.-' _.-'
|`-._`-._ `-.__.-' _.-'_.-'|
| `-._`-._ _.-'_.-' |
`-._ `-._`-.__.-'_.-' _.-'
`-._ `-.__.-' _.-'
`-._ _.-'
`-.__.-'
3443:X 02 Mar 20:30:29.104 # WARNING: The TCP backlog setting of 511 cannot be enforced because /proc/sys/net/core/somaxconn is set to the lower value of 128.
3443:X 02 Mar 20:30:29.104 # Sentinel ID is ec55f3b5cca3a78aae0ad0fe94c78d7612221e0b
3443:X 02 Mar 20:30:29.104 # +monitor master master 192.168.200.108 6379 quorum 1
3443:X 02 Mar 20:30:29.104 # +monitor master mymaster 127.0.0.1 6379 quorum 2
3443:X 02 Mar 20:30:59.106 # +sdown master mymaster 127.0.0.1 6379
9.查看三台redis的从属关系
[root@localhost redis-3.2.4]# ps -ef|grep redis
root 3677 1 0 21:18 ? 00:00:02 /usr/redis/redis-3.2.4/src/redis-server 192.168.200.108:6379
root 3777 1 0 21:35 ? 00:00:00 /usr/redis/redis-6380/src/redis-server 192.168.200.108:6380
root 3791 1 0 21:35 ? 00:00:00 /usr/redis/redis-6381/src/redis-server 192.168.200.108:6381
root 3804 3730 0 21:37 pts/3 00:00:00 src/redis-sentinel *:26379 [sentinel]
root 3810 3730 0 21:38 pts/3 00:00:00 grep redis
[root@localhost redis-3.2.4]# cd /usr/redis/redis-3.2.4/src
[root@localhost src]# ./redis-cli -h 192.168.200.108 -p 6379
192.168.200.108:6379> info replication --->查看当前redis信息
# Replication
role:master --->说明是主redis
connected_slaves:2
slave0:ip=192.168.200.108,port=6380,state=online,offset=6165957,lag=0 --->从redis端口和ip 192.168.200.108 6380
slave1:ip=192.168.200.108,port=6381,state=online,offset=6165667,lag=0 --->从redis端口和ip 192.168.200.108 6381
master_repl_offset:6165957
repl_backlog_active:1
repl_backlog_size:1048576
repl_backlog_first_byte_offset:5117382
repl_backlog_histlen:1048576
[root@localhost src]# ./redis-cli -h 192.168.200.108 -p 6380 --->连接192.168.200.108 6380查看信息
192.168.200.108:6380> info replication
# Replication
role:slave --->从redis
master_host:192.168.200.108 --->主redis ip
master_port:6379 --->主redis端口
master_link_status:up
master_last_io_seconds_ago:0
master_sync_in_progress:0
slave_repl_offset:4430
slave_priority:100
slave_read_only:1
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
192.168.200.108:6380>
[root@localhost src]# ./redis-cli -h 192.168.200.108 -p 6381 --->连接192.168.200.108 6381查看信息
192.168.200.108:6381> info replication
# Replication
role:slave --->从redis
master_host:192.168.200.108
master_port:6379
master_link_status:up
master_last_io_seconds_ago:1
master_sync_in_progress:0
slave_repl_offset:73275
slave_priority:100
slave_read_only:1
connected_slaves:0
master_repl_offset:0
repl_backlog_active:0
repl_backlog_size:1048576
repl_backlog_first_byte_offset:0
repl_backlog_histlen:0
10.当把主redis kill 后,哨兵会监听会master,当发现master挂了后,哨兵开始故障恢复,选取一个从redis升级为主库
常用命令
slaveof no one : 手动设置从redis,从属服务器关闭复制功能,并从从属服务器转变回主服务器,原来同步所得的数据集不会被丢弃
192.168.200.108:6380> slaveof no one
OK
slaveof host port : 将当前服务器转变为指定服务器的从属服务器(slave server)。
192.168.200.108:6381> slaveof 192.168.200.108 6379
OK