在使用druid连接池后,show full processlist 后发现有大量sleep状态的链接,高峰期时达到1000多个,
项目框架用的springmvc+mybatis,由spring管理的链接在每次数据库操作后应该是释放连接的,排除是代码泄露连接的可能性。
然后看了下线上项目中druid的配置信息
minIdle=30, 最小连接池数量是30个,
maxActive=300,最大并发数是300,
minEvictableIdleTimeMillis=300000 连接在池中最小生存的时间是300秒
timeBetweenEvictionRunsMillis=120000检测需要关闭的空闲连接,是120秒。
看这个配置,原来的理解是一个德鲁伊连接池内最多有300个连接,空闲超过120秒的链接会由德鲁伊去关闭。
然后在本地的项目中,将相应的参数改小,起了100个线程去访问数据库,每个线程中的事务中sleep 3秒,
最小连接数10,最大连接并发是20个,隔5秒去检测关闭空闲连接。
预期应该是20个连接瞬间跑满,剩余的请求会在上面的20个连接释放后继续访问数据库。
根据日志可以看出每隔3秒会执行20次数据库的访问。
在数据库中通过 show full processlist查看发现一直是20个连接,所有查询执行完后,会有20个sleep状态的连接。
如果此时再次重新请求,该20个连接会再次唤醒,执行完后处于sleep状态。
再等待10几秒后,再执行show full processlist后会发现只剩下10个sleep状态的连接了,然后这10个连接会一直sleep,mysql 默认的等待超时时间是8个小时,8个小时后这些连接会再次被回收。
依据本地的配置,可以判断出druid中
minIdle=10:最小连接池数量是10个,是不会被关闭,是一直存活在连接池中,没有调用的话就一直sleep。
maxActive=20:最大并发数是20个,超过20个连接请求则会等待,如果等待时长大于maxWait的时间则会报错。
minEvictableIdleTimeMillis=10000,所有的新创建的连接在连接池中最小的存存活时间是10秒,然后每隔5秒会检测一次是否有存活超过10秒的连接。有的话就会关闭该连接。
结合线上项目部署了10台服务器,每台服务器的最小连接数是30,如果连的是同一个数据库的话,则连接池中会一直存在300个连接。
如果某个高峰时间段,每台连接数都跑满,则数据库中每个连接sleep的时间是(300+120)秒的时间,如果在这300到420秒的时间段内,请求很频繁的话,数据库中的连接数短期内是不会降下来的。
结合以上情况修改方案:
1、主从分离,将读的操作都分担到从库中去,减少主库的压力。
2、 修改minEvictableIdleTimeMillis 和timeBetweenEvictionRunsMillis的值,减少存活时间和检测时间,但如果请求的很频繁的话,数据库会频繁的关闭和创建连接,同样消耗资源。
3、修改mysql的等待超时时间,set global wait_timeout=28800; 默认的是8小时。
Github上推荐配置中建议只修改initialSize、minIdle、maxActive三个参数的值。
https://github.com/alibaba/druid/wiki/%E9%85%8D%E7%BD%AE_DruidDataSource%E5%8F%82%E8%80%83%E9%85%8D%E7%BD%AE