记一次线上故障排查

接客户及前端同学报告,服务器部分接口请求及MQTT返回有很大延迟及请求超时的现象.自测部分接口有30秒左右延迟.

故障排查:

查询项目错误日志,发现报错:

Connection is not available, request timed out after 30000ms.

初步判断数据库连接池用完了,导致接口中数据库查询线程堆积.以及MQTT处理器线程池耗完.

对策:将数据库连接池最大数量扩大十倍:

spring.datasource.maxActive = 200

服务重启后,过了一会请求又开始变慢.

查询服务器负载资源及数据库资源,均未到达瓶颈.并尝试扩容集群数,也未能解决问题.

故判断是数据库查询过慢导致.

打开druid数据库监控,发现有一个慢查询,时间要近10秒.导致数据库连接池资源被耗光.进而导致所有数据库查询的请求以及mqtt消息排队很久.

分析该sql语句,是一个for update的sql查询.会给表加锁.且该查询与后面的insert之间,有一个访问网易接口注册的过程.该接口返回会有一定延时.而整个过程都在一个事务内,导致数据库加锁时间较长.后续for update获取锁时要等待之前的锁释放,并发量高时会导致查询排队,从而变成慢查询.

至此请求超时的技术原因定位到了.

但是,这个注册接口正常情况下并发量应该不高,但是之前某些账号注册时插入数据库失败,导致这部分账号已在网易注册却没有入库,注册时一直抛出"already register"错误,前端又对抛错的请求不停做频繁重试,导致进入注册逻辑的并发量很高.

解决:优化慢查询.

在做加锁sql请求(for update)前,先做一个普通sql查询,判断要insert后再做加锁的sql.或将事务加在对外http请求之后.

并且对注册时抛出"already register"错误做逻辑处理,防止错误后不停请求.

你可能感兴趣的:(数据库,database)