smart哥

浅谈Redis分布式锁(下)

作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO

联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬

自定义Redis分布式锁的弊端

在上一篇我们自定义了一个Redis分布式锁，用来解决多节点定时任务的拉取问题（避免任务重复执行）：

但仍然存在很多问题：

加锁操作不是原子性的（setnx和expire两步操作不是原子性的，中间宕机会导致死锁）

public boolean tryLock(String lockKey, String value, long expireTime, TimeUnit timeUnit) {
    // 1.先setnx
    Boolean lock = redisTemplate.opsForValue().setIfAbsent(lockKey, value);
    if (lock != null && lock) {
        // 2.再expire
        redisTemplate.expire(lockKey, expireTime, timeUnit);
        return true;
    } else {
        return false;
    }
}

当然啦，高版本的SpringBoot Redis依赖其实提供了加锁的原子性操作：

/**
 * 尝试上锁：setNX + expire
 *
 * @param lockKey    锁
 * @param value      对应的值
 * @param expireTime 过期时间
 * @param timeUnit   时间单位
 * @return
 */
@Override
public boolean tryLock(String lockKey, String value, long expireTime, TimeUnit timeUnit) {
    try {
        // 高版本SpringBoot的setIfAbsent可以设置4个参数，一步到位
        redisTemplate.opsForValue().setIfAbsent(lockKey, value, expireTime, timeUnit);
        return true;
    } catch (Exception e) {
        e.printStackTrace();
    }
    return false;
}

从 Redis 2.6.12 版本开始（现在6.x了...）， SET 命令的行为可以通过一系列参数来修改，也因为 SET 命令可以通过参数来实现和 SETNX 、 SETEX 和 PSETEX 三个命令的效果，所以将来的 Redis 版本可能会废弃并最终移除 SETNX 、 SETEX 和 PSETEX 这三个命令。

解锁操作不是原子性的（可能造成不同节点之间互相删锁）

虽然上一篇设计的unLock()不是原子操作，但可以避免不同节点之间互相删锁

public boolean unLock(String lockKey, String value) {
    // 1.获取锁的value，存的是MACHINE_ID
    String machineId = (String) redisTemplate.opsForValue().get(lockKey);
    if (StringUtils.isNotEmpty(machineId) && machineId.equals(value)) {
        // 2.只能删除当前节点设置的锁
        redisTemplate.delete(lockKey);
        return true;
    }
    return false;
}

畏难情绪作祟，不想考虑锁续期的问题，企图采用队列的方式缩减定时任务执行时间，直接把任务丢到队列中。但实际上可能存在任务堆积，个别情况下会出现：上次已经拉取某个任务并丢到Redis队列中，但由于队列比较繁忙，该任务还未被执行，数据库状态也尚未更改为status=1（已执行），结果下次又拉取一遍，重复执行（简单的解决策略是：虽然无法阻止入队，但是出队消费时可以判断where status=0后执行）

引入Redis Message Queue会让系统变得更加复杂，我之前就因为使用了上面的模型导致各种偶发性的BUG，非常不好排查。一般来说，定时任务应该设计得简单点：

也就是说，绕来绕去，想要设计一个较完备的Redis分布式锁，必须至少解决3个问题：

加锁原子性（setnx和expire要保证原子性，否则会容易发生死锁）
解锁原子性（不能误删别人的锁）
需要考虑业务/定时任务执行的时间，并为锁续期

如果不考虑性能啥的，加解锁原子性都可以通过lua脚本实现（利用Redis单线程的特性）：

一次执行一个脚本，要么成功要么失败，不会和其他指令交错执行。

最难的是如何根据实际业务的执行时间给锁续期！虽然我们已经通过判断MACHINE_ID避免了不同节点互相删除锁：

但本质上我们需要的是：

本文我们的主要目标就是实现锁续期！

好在Redisson已经实现了，所以目标又变成：了解Redisson的锁续期机制。

Redisson案例

Redisson环境搭建

server:
  port: 8080

spring:
  redis:
    host:  
    password:  
    database: 1
    
# 调整控制台日志格式，稍微精简一些（非必要操作）
logging:
  pattern:
    console: "%d{yyyy-MM-dd HH:mm:ss} - %thread - %msg%n"


    
        org.springframework.boot
        spring-boot-starter-web
    
    
        org.projectlombok
        lombok
        true
    
    
        org.springframework.boot
        spring-boot-starter-test
        test
    
    
        org.springframework.boot
        spring-boot-starter-data-redis
    
    
    
        org.redisson
        redisson-spring-boot-starter
        3.13.6

然后就可以在test包下测试了~

lock()方法初探

@Slf4j
@RunWith(SpringRunner.class)
@SpringBootTest
public class RLockTest {

    @Autowired
    private RedissonClient redissonClient;

    @Test
    public void testRLock() throws InterruptedException {
        new Thread(this::testLockOne).start();
        new Thread(this::testLockTwo).start();

        TimeUnit.SECONDS.sleep(200);
    }

    public void testLockOne(){
        try {
            RLock lock = redissonClient.getLock("bravo1988_distributed_lock");
            log.info("testLockOne尝试加锁...");
            lock.lock();
            log.info("testLockOne加锁成功...");
            log.info("testLockOne业务开始...");
            TimeUnit.SECONDS.sleep(50);
            log.info("testLockOne业务结束...");
            lock.unlock();
            log.info("testLockOne解锁成功...");
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

    public void testLockTwo()  {
        try {
            RLock lock = redissonClient.getLock("bravo1988_distributed_lock");
            log.info("testLockTwo尝试加锁...");
            lock.lock();
            log.info("testLockTwo加锁成功...");
            log.info("testLockTwo业务开始...");
            TimeUnit.SECONDS.sleep(50);
            log.info("testLockTwo业务结束...");
            lock.unlock();
            log.info("testLockTwo解锁成功...");
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
    }

}

结果

2023-12-21 14:24:33 - Thread-3 - testLockTwo尝试加锁...

2023-12-21 14:24:33 - Thread-2 - testLockOne尝试加锁...

=====> testLockOne()执行过程中，testLockTwo()一直阻塞 <=====

2023-12-21 14:24:33 - Thread-2 - testLockOne加锁成功...

2023-12-21 14:24:33 - Thread-2 - testLockOne业务开始...

2023-12-21 14:25:23 - Thread-2 - testLockOne业务结束...

2023-12-21 14:25:23 - Thread-2 - testLockOne解锁成功...

=====> testLockOne()执行结束释放锁，testLockTwo()抢到锁 <=====

2023-12-21 14:25:23 - Thread-3 - testLockTwo加锁成功...

2023-12-21 14:25:23 - Thread-3 - testLockTwo业务开始...

2023-12-21 14:26:13 - Thread-3 - testLockTwo业务结束...

2023-12-21 14:26:13 - Thread-3 - testLockTwo解锁成功...

通过上面的代码，我们有以下疑问：

lock()方法是原子性的吗？
lock()有设置过期时间吗？是多少？
lock()实现锁续期了吗？
lock()方法怎么实现阻塞的？又怎么被唤醒？

先忘了这些，跟着我们走一遍lock()源码就明白了。

lock()源码解析

lock()加锁，去除异常的情况，无非加锁成功、加锁失败两种情况，我们先看加锁成功的情况。

流程概览

我们从这段最简单的代码入手：

@Slf4j
@RunWith(SpringRunner.class)
@SpringBootTest
public class RLockTest {

    @Autowired
    private RedissonClient redissonClient;
    
    @Test
    public void testLockSuccess() throws InterruptedException {
        RLock lock = redissonClient.getLock("bravo1988_distributed_lock");
        log.info("准备加锁...");
        lock.lock();
        log.info("加锁成功...");
        TimeUnit.SECONDS.sleep(300);
    }
}

大家跟着我们先打几个断点（SpringBoot2.3.4）：

注意啊，把截图中能看到的断点都打上。

OK，接着大家自己启动DEBUG，感受一下大致流程，然后看下面的注释：

// redisson.lock()
Override
public void lock() {
    try {
        lock(-1, null, false);
    } catch (InterruptedException e) {
        throw new IllegalStateException();
    }
}

// 为了方便辨认，我直接把传进来的参数写在参数列表上
private void lock(long leaseTime=-1, TimeUnit unit=null, boolean interruptibly=false) throws InterruptedException {
    // 获取当前线程id
    long threadId = Thread.currentThread().getId();
    // 尝试上锁。上锁成功返回null，上锁失败返回ttl
    Long ttl = tryAcquire(-1, leaseTime=-1, unit=null, threadId=666);
    // 上锁成功，方法结束，回到主线程执行业务啦（后台有个定时任务在给当前锁续期）
    if (ttl == null) {
        return;
    }

    // 上锁成功就不走下面的流程了，所以这里直接省略
    // 略：加锁失败后续流程...
}

// 尝试上锁。上锁成功返回null，上锁失败返回【当前已经存在的锁】的ttl，方便调用者判断多久之后能重新获取锁
private Long tryAcquire(long waitTime=-1, long leaseTime=-1, TimeUnit unit=null, long threadId=666) {
    /**
    * 有两次调用：1.tryAcquireAsync()返回Future 2.从Future获取异步结果（异步结果就是ttl）
    * 重点是tryAcquireAsync()
    */
    return get(tryAcquireAsync(waitTime=-1, leaseTime=-1, unit=null, threadId=666));
}

// 获取过期时间（非重点）
protected final  V get(RFuture future) {
    return commandExecutor.get(future);
}

// 重点，加锁后返回RFuture，内部包含ttl。调用本方法可能加锁成功，也可能加锁失败，外界可以通过ttl判断
private  RFuture tryAcquireAsync(long waitTime=-1, long leaseTime=-1, TimeUnit unit=null, long threadId=666) {

    // lock()默认leaseTime=-1，所以会跳过if
    if (leaseTime != -1) {
        return tryLockInnerAsync(waitTime, leaseTime, unit, threadId, RedisCommands.EVAL_LONG);
    }

    // 执行lua脚本，尝试加锁并返回RFuture。这个方法是异步的，其实是把任务提交给线程池
    RFuture ttlRemainingFuture = tryLockInnerAsync(
                                            waitTime=-1,
                                            commandExecutor.getConnectionManager().getCfg().getLockWatchdogTimeout()=30秒,
                                            TimeUnit.MILLISECONDS, 
                                            threadId=666, 
                                            RedisCommands.EVAL_LONG);

    // 设置回调方法，异步线程与Redis交互得到结果后会回调BiConsumer#accept()
    ttlRemainingFuture.onComplete((ttlRemaining, e) -> {
        // 发生异常时直接return
        if (e != null) {
            return;
        }

        // 说明加锁成功
        if (ttlRemaining == null) {
            // 启动额外的线程，按照一定规则给当前锁续期
            scheduleExpirationRenewal(threadId);
        }
    });

    // 返回RFuture，里面有ttlRemaining
    return ttlRemainingFuture;
}


// 执行lua脚本尝试上锁
 RFuture tryLockInnerAsync(long waitTime=-1, long leaseTime=30*1000, TimeUnit unit=毫秒, long threadId=666, RedisStrictCommand command) {
    internalLockLeaseTime = unit.toMillis(leaseTime);

    /**
     * 大家去看一下evalWriteAsync()的参数列表，看看每个参数都代表什么，就能理解KEYS[]和ARGV[]以及整个脚本什么意思了
     * 如果你仔细看lua脚本，就会明白：加锁成功时返回ttlRemaining=null，加锁失败时返回ttlRemaining=xxx（上一个锁还剩多少时间）
     *
     * 另外，我们自定义的Redis分布式锁采用了IdUtil生成节点id，和getLockName(threadId)本质是一样的
     */
    return evalWriteAsync(getName(), LongCodec.INSTANCE, command,
            "if (redis.call('exists', KEYS[1]) == 0) then " +
                    "redis.call('hincrby', KEYS[1], ARGV[2], 1); " +
                    "redis.call('pexpire', KEYS[1], ARGV[1]); " +
                    "return nil; " +
                    "end; " +
                    "if (redis.call('hexists', KEYS[1], ARGV[2]) == 1) then " +
                    "redis.call('hincrby', KEYS[1], ARGV[2], 1); " +
                    "redis.call('pexpire', KEYS[1], ARGV[1]); " +
                    "return nil; " +
                    "end; " +
                    "return redis.call('pttl', KEYS[1]);",
            Collections.singletonList(getName()), internalLockLeaseTime, getLockName(threadId));
}

// 向Redis服务器发送脚本并返回RFuture，大家可以近似看成：往线程池提交一个任务，然后将异步结果封装到CompletableFuture
protected  RFuture evalWriteAsync(String key, Codec codec, RedisCommand evalCommandType, String script, List