在多线程的环境下,为了保证一个代码块在同一时间只能由一个线程访问,Java中我们一般可以使用 synchronized
语法和 ReetrantLock
去保证,这实际上是本地锁的方式。而在如今分布式架构的热潮下,如何保证不同节点的线程同步执行呢?
实际上,对于分布式场景,我们可以使用分布式锁,分布式锁是用于分布式环境下并发控制的一种机制,用于控制某个资源在同一时刻只能被一个应用所使用。如下图所示:
分布式锁一般有如下的特点:
Redis 本身可以被多个客户端共享访问,正好就是一个共享存储系统,可以用来保存分布式锁,而且 Redis 的读写性能高,可以应对高并发的锁操作场景。
Redis 的 SET
命令有个 NX
参数可以实现「key不存在才插入」,所以可以用它来实现分布式锁:
如果key不存在,则显示插入成功,可以用来表示加锁成功;
如果key存在,则会显示插入失败,可以用来表示加锁失败;
当需要解锁时,将对应的key删除即可解锁成功;
同时为了避免死锁,我们还需要加上过期时间。
针对以上过程描述,我们就可以得到一个十分粗糙的分布式锁实现:
// 尝试获得锁
if (setnx(key, 1) == 1){
// 获得锁成功,设置过期时间
expire(key, 30)
try {
//TODO 业务逻辑
} finally {
// 解锁
del(key)
}
}
但这种实现方式就是合格的分布式锁了吗?相信大家都注意到了我在说这种方式的时候,是说这种方式是一种十分粗糙的实现方式,这主要存在以下问题:
针对上述问题,下面将会一一解决得到一个合格的分布式锁。
在以下情况下会出现误删情况:
对应的解决方案也很简单,既然是一个线程误删了别人的锁,就相当于把别人的厕所门给误开了,那么在开门之前校验一下这扇门是不是自己关上的不就好了:
// 尝试获得锁
if (setnx(key, "当前线程号") == 1){
// 获得锁成功,设置过期时间
expire(key, 30);
try {
//TODO 业务逻辑
} finally {
// 解锁
if ("当前线程号".equals(get(key))) {
del(key);
}
}
}
以上便是解决误删方案的伪代码实现。
同时,这种方式也能够将分布式锁改造成可重入的分布式锁,在获取锁的时候判断一下是否是当前线程获取的锁,锁标识自增便可。
前面说到,SETNX
和 EXPIRE
操作是非原子性的,那么如果 SETNX
成功,还未设置锁超时时间时,由于服务器挂掉、重启或网络问题等原因,导致 EXPIRE
命令没有执行,锁没有设置超时时间就有可能会导致死锁产生。
同时,对于上面解决的误删问题,如果以下极端情况同样会出现并发问题:
对于Redis中并没有对应的原子性API提供给我们进行调用,但是我们可以通过Lua脚本对Redis功能进行拓展。
-- 过期时间设置
if (redis.call('setnx', KEYS[1], ARGV[1]) < 1) then
return 0;
end;
redis.call('expire', KEYS[1], tonumber(ARGV[2]));
return 1;
-- 删除锁
-- 比较锁中的线程标识与线程标识是否一致
if (redis.call('get', KEYS[1]) == ARGV[1]) then
-- 一致则释放锁
return redis.call('del', KEYS[1])
end;
return 0
以上就是原子性保证的lua脚本实现,通过Java调用call
方法执行lua脚本即可通过lua脚本实现原子性操作从而解决该问题。
虽然上面解决误删和原子性问题,但是如果获取锁的线程阻塞时间超过了设置的TTL,那么该自动解锁还是得自动解锁。
对于这种情况,一个简单粗暴的方法就是把过期时间设置的长长的,在设置的TTL内,能够保证我这个逻辑一定能够执行完。但是这种方式和不设置TTL一个鬼样,如果发生意外宕机之类的话,下一个线程将会阻塞很长时间,十分不优雅。
因此针对这个问题,我们可以给线程单独开一个守护线程,去检测当前线程运行情况,如果TTL即将到期,由守护线程对TTL进行续期,保证当前线程能够正确的执行完业务逻辑。
综上所述,基于 Redis 节点实现分布式锁时,我们至少需要实现以下需求:
基于 Redis 实现分布式锁的优点:
基于 Redis 实现分布式锁的缺点:
为了保证 Redis 的可用性,一般采用主从方式部署。主从数据同步有异步和同步两种方式,Redis 将指令记录在本地内存 buffer 中,然后异步将 buffer 中的指令同步到从节点,从节点一边执行同步的指令流来达到和主节点一致的状态,一边向主节点反馈同步情况。
如果这个master节点由于某些原因发生了主从切换,那么就会出现锁丢失的情况:
集群脑裂指因为网络问题,导致 Redis master 节点跟 slave 节点和 sentinel 集群处于不同的网络分区,因为 sentinel 集群无法感知到 master 的存在,所以将 slave 节点提升为 master 节点,此时存在两个不同的 master 节点。Redis Cluster 集群部署方式同理。
总结来说脑裂就是由于网络问题,集群节点之间失去联系。主从数据不同步;重新平衡选举,产生两个主服务。等网络恢复,旧主节点会降级为从节点,再与新主节点进行同步复制的时候,由于会从节点会清空自己的缓冲区,所以导致之前客户端写入的数据丢失了。
当不同的客户端连接不同的 master 节点时,两个客户端可以同时拥有同一把锁。
为了保证集群环境下分布式锁的可靠性,Redis 官方已经设计了一个分布式锁算法 Redlock(红锁)。
它是基于多个 Redis 节点的分布式锁,即使有节点发生了故障,锁变量仍然是存在的,客户端还是可以完成锁操作。官方推荐是至少部署 5 个 Redis 节点,而且都是主节点,它们之间没有任何关系,都是一个个孤立的节点。
Redlock 算法的基本思路,是让客户端和多个独立的 Redis 节点依次请求申请加锁,如果客户端能够和半数以上的节点成功地完成加锁操作,那么我们就认为,客户端成功地获得分布式锁,否则加锁失败。
这样一来,即使有某个 Redis 节点发生故障,因为锁的数据在其他节点上也有保存,所以客户端仍然可以正常地进行锁操作,锁的数据也不会丢失。
为了取到锁,客户端应该执行以下操作:
N/2+1
,这里是3个节点)的Redis节点都取到锁,并且使用的时间小于锁失效时间时,锁才算获取成功。N/2+1
个Redis实例取到锁或者取锁时间已经超过了有效时间),客户端应该在所有的Redis实例上进行解锁,这是因为即便某些Redis实例根本就没有加锁成功,防止某些节点获取到锁但是客户端没有得到响应而导致接下来的一段时间不能被重新获取锁。可以看到,加锁成功要同时满足两个条件:
N/2+1
)的 Redis 节点上成功获取到了锁;t2-t1
)小于锁设置的过期时间。简单来说就是:如果有超过半数的 Redis 节点成功的获取到了锁,并且总耗时没有超过锁的有效时间,那么就是加锁成功。
Redisson 是 Redis 的 Java 客户端之一,提供了丰富的功能和高级抽象,包括分布式锁、分布式集合、分布式对象等。因此我们能够很简单的通过Redisson实现分布式锁,而不用自己造轮子。
与此同时,Redisson是支持原子性加/解锁、锁重试、可重入锁、RedLock等功能的,感兴趣的话可以自行了解。
// 获取分布式锁
RLock lock = redissonClient.getLock("myLock");
try {
// 尝试加锁,最多等待 10 秒,加锁后的锁有效期为 30 秒
boolean locked = lock.tryLock(10, 30, TimeUnit.SECONDS);
if (locked) {
// 成功获取锁,执行业务逻辑
System.out.println("获取锁成功,执行业务逻辑...");
} else {
// 获取锁失败,可能是超时等待或者其他原因
System.out.println("获取锁失败...");
}
} catch (InterruptedException e) {
e.printStackTrace();
} finally {
// 释放锁
lock.unlock();
// 关闭 Redisson 客户端
redissonClient.shutdown();
}
对了这里提一嘴,Redisson存储分布式锁是通过Hash结构进行存储的,内置的键值对是<线程标识,重入次数>,其中重入次数便可用于实现可重入机制。
在 Redisson 中,看门狗机制(Watchdog)是用于维持 Redis 键的过期时间的一种机制。
通常情况下,当我们给 Redis 中的键设置过期时间后,Redis 会自动管理键的生命周期,并在键过期时通过过期删除策略对其进行处理。然而,如果 Redis 进程崩溃或者网络故障导致 Redis 服务器与客户端连接中断,那么键的过期时间可能无法得到及时删除,从而导致键仍然存在于 Redis 中。
为了解决这个问题,Redisson 引入了看门狗机制。当 Redisson 客户端为一个键设置过期时间时,它会启动一个看门狗线程,该线程会监视键的过期时间,并在过期时间快到期时自动对键进行续期操作。这样,即使因为 Redis 进程崩溃或者网络故障导致连接中断,看门狗仍然可以继续维护键的过期时间。
看门狗机制的工作原理如下:
在Redisson中,默认续约时间是30s(可配置),即每隔30s续约一次,延长30s。
设置较短的续约时间可以更快地释放锁,但可能会增加续约的频率;较长的续约时间可以减少续约的次数,但会使得锁的有效期更长。
看门狗机制的好处是保证了在获取分布式锁后,业务逻辑可以在锁的有效期内运行,不会因为锁的过期而导致锁失效。当业务逻辑执行时间超过锁的过期时间时,看门狗线程会自动延长锁的过期时间,从而避免了锁的自动释放。
需要注意的是,看门狗线程是后台线程(守护线程),不会影响到客户端的正常业务逻辑。同时,为了避免看门狗线程过多占用 Redis 的 CPU 资源,Redisson 会动态调整看门狗的检查周期,使得看门狗线程在不影响性能的情况下维持锁的有效性。