应用执行SQL请求完成的过程中,数据库连接占很重要一部分。尤其是涉及到流量瞬间暴涨,需要创建大量连接,或者网络异常导致重连时,从业务端来看,sql执行缓慢的问题,此时sql执行并非真的慢。 本文是基于我们自己的生产环境的Durid最佳实践,仅供各位参考,当然不同公司的链路/业务压力可能不一样。具体到个别参数需要区别对待。
从整体系统的角度,我们要考虑几个点 ,数据库连接数配置多少合适,针对空闲连接,网络异常的超时时间,如何高效复用连接,druid 版本选择这几个方面来介绍。
合适的连接池大小和业务请求的 QPS 和 单个请求的 RT(单位为毫秒)。基本公式:
连接数 = QPS /(1000/RT) N = QPS * RT /1000 N
注意: 此处 QPS 和 RT 为单个应用端统计。假定随连接数量增加,客户端能处理的请求数线性增加。
举个例子
比如 一个请求的耗时rt=2ms,每个连接能处理的请求数量
S = 1000/2 =500 ,
业务层总请求量是 M=5000 ,那么合理的连接数为
M/S=5000/500=10
为了避免连接数被占满,我们会在上面的连接数的基础上再加上N ,最终的连接数为10 N .
统计平时的最大 QPS 和此时的 RT,以此计算 minIdle,并设置 initialSize = minIdle。
统计峰值时的 QPS 和此时的 RT,以此计算 maxActive。
可以通过以下方法,通过 jmx 观察 Druid 实际的连接池状况,重点关注 ActiveCount:活动连接数,PoolingCount:池子中的连接数。并根据实际情况考虑调整。
java -XX: UseConcMarkSweepGC -XX: CMSClassUnloadingEnabled -XX: TieredCompilation -XX:TieredStopAtLevel=1 -Xverify:none -client -jar /PATH/cmdline-jmxclient-0.10.3.jar - 127.0.0.1:7777 'com.alibaba.druid:type=DruidDataSourceStat' DataSourceList |& grep -E 'ActiveCount|PoolingCount'
连接池中的超时时间主要有:
connectTimeout 建立 TCP 连接的超时时间
maxWait 从连接池获取连接的最长等待时间
socketTimeout 发送请求后等待响应的超时时间
其中,connectTimeout 建议不要小于 1200ms。TCP 在建立连接时,SYN 包的超时重传时间为 1s。connectTimeout 设置过短,很可能造成应用发布时,初始化连接池过程中由于网络抖动,或中间网络设备需要初始化状态发生丢包触发超时,从而造成连接池初始化失败而导致发布失败。
socketTimeout 可以根据应用最长的查询返回时间设置。过长会造成生网络问题,或数据库服务有问题时雪崩;过短也会造成频繁请求超时。不要短于 300ms。TCP 的最小 RTO 为 200ms,并根据延迟动态调整。过短的超时时间会造成单个丢包就造成请求超时。生产环境数据库都配置有 SQL Killer,会自动杀死执行时间过长的请求。因此,设置过长的 socketTimeout 也是没有意义的。
maxWait 可以根据应用期待的等待时间设置。为避免在发生网络问题,或数据库服务有问题时雪崩,这个时间设置不要过大。下面的默认值 800ms 是个保守的设置。应用可以设置一个更短的时间,如 300ms。过短的时间也会造成在连接池中连接数不足,需要新建连接时造成大量超时。建议不要低于 100ms。
设置连接保持活跃的时间需要考虑是直连还是通过数据库中间件proxy连接。一般现在的生产环境大多为:
App -> LVS -> Proxy -> DB
其中应用到 RDS 的访问路径为 App -> LVS -> Proxy 。
其中,LVS 空闲连接保留时间为 90s。Proxy 为了避免访问到已被关闭的连接,自身的空闲连接保留时间为 [70, 85) s。因此,应用程序为了避免从连接池获取到已被关闭的连接,应当设置自身保留空闲连接时间不能超过70s。打开KeepAlive之后的效果
初始化连接池时会填充到minIdle数量。
连接池中的minIdle数量以内的连接,空闲时间超过
minEvictableIdleTimeMillis,则会执行keepAlive操作。
当网络断开等原因产生的由ExceptionSorter检测出来的死连接被清除后,自动补充连接到minIdle数量。
timeBetweenEvictionRunsMillis=10000,
minEvictableIdleTimeMillis=44000,
maxEvictableIdleTimeMillis=55000。
以下默认配置可以根据实际情况调整。
1.0.28版本之后,新加入keepAlive配置,缺省关闭。使用keepAlive功能,建议使用1.1.16或者更高版本。一般业务无需打开,除非分钟请求量在个位数或者启动时间超长导致初始连接都过期。
建议使用最新版本,不要使用太老的版本,以免遇到 bug。
e.g. Maven 配置:
com.alibaba
druid
1.0.27
本文算是 的一个补充,希望对需要关注数据库连接配置的朋友有所帮助。
本公众号长期关注于数据库技术以及性能优化,故障案例分析,数据库运维技术知识分享,个人成长和自我管理等主题,欢迎扫码关注。