阿里云环境使用redisson分布式锁产生线上问题

一、问题与背景:

非线上环境使用的redis架构是集群,并且直连各个节点,而线上环境使用的是阿里云redis集群代理模式。在非线上环境使用redisson作为分布式锁解决方案是正常的,而线上环境则会报ERR unknown command 'WAIT'的错误。由于目前尝试使用redisson实现分布式锁的时候出现无法执行WAIT命令(实际分布式锁命令是执行成功的,只是3.14.1及之后的redisson版本会报未知WAIT命令的错误,见下面的原因解释)。

阿里云环境使用redisson分布式锁产生线上问题_第1张图片

二、原因:

经排查,发现是由于使用的阿里云redis代理模式,redisson发送的WAIT命令无法解析(参考链接Redis社区版命令支持 - 云数据库 Redis - 阿里云 ,官方强调【暂不支持通过集群架构的Proxy节点(代理模式)执行WAIT命令,如有需要,您可以通过集群架构的直连地址执行WAIT命令】),从而导致报错。源码层面的原因在于当进行加锁或者解锁操作时,redisson会判断当前集群的redis节点数是否大于0来给命令数组对象增加WAIT命令,这个是所有版本的redisson都有,而其核心在于RedissonLock的evalWriteAsync方法中,用了

executorService.executeAsync()

,在redisson3.14.0之前,该语句增加WAIT命令,然后去执行命令数组,命令数组中第一条lua脚本命令可以正常执行和解析,但第二条WAIT命令无法解析,由于没有返回解析,即使WAIT命令无法被识别,也不会展示错误信息,而3.14.1及之后的版本,evalWriteAsync方法变成了

RFuture> future = executorService.executeAsync();

阿里云环境使用redisson分布式锁产生线上问题_第2张图片

增加了返回值,redisson在借助netty网络通信在返回解析的时候利用CommandDecoder继承netty的解析类,该类解析之后的结果通过RFuture返回,错误信息也就由此打印。

三、解决方案:

当前已申请增加了生产环境的redis直连地址,并配置在apollo common-config项目上,如下图:

阿里云环境使用redisson分布式锁产生线上问题_第3张图片

使用时,可直接将原来bootstrap.yml中的BASIC-DEP.redis换成BASIC-DEP.redis-direct,另外该配置没有加入redis连接池配置,建议再增加BASIC-DEP.redis-lettuce作为redis的连接池。

你可能感兴趣的:(java)