高并发场景大量TIME_WAIT导致虚拟机响应变慢

一、事件现象

抢兑时,大量用户准点抢兑商品,后端nginx存在大量请求返回5**

二、事件分析

1、查看nginx日志发现
nginx添加了检测模块,当后端tcp连接响应超时的话,会将故障节点移除集群

check interval=5000 rise=1 fall=3 timeout=1000 type=tcp;

nginx在检测间隔为5s,如果在建立TCP连接时,有1次请求成功则节点为up;如果有3次请求失败则节点为fail ,超时时间为1s

2、为什么建立TCP连接耗时超过1s?
发现高并发场景是,虚拟机TCP连接数达到11k个TIME_WAIT状态连接。占用了大量的端口

###查询linux TCP连接状态
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 

TIME_WAIT状态:四次挥手后,当服务器处理完请求后立刻主动正常关闭连接,客户端TCP会出现TIME_WAIT状态。持续时间为2mls(报文最大生存时间)。
默认为4分钟,即240秒,TIME_WAIT状态下的socket不能被回收使用.

在高并发场景下,nginx服务器出现大量TIME_WAIT连接,导致响应变慢

三、措施

修改内核参数

vi /etc/sysctl.conf
#1表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_syncookies = 1
#1表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1
#1表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_tw_recycle = 1
#修改系統默认的TIMEOUT时间
net.ipv4.tcp_fin_timeout = 30
#参数生效
/sbin/sysctl -p

#查看TIME_WAIT连接数
netstat -ae|grep “TIME_WAIT” |wc –l

四、一台服务器能够支持多少TCP并发连接

1、操作系统对可以打开的最大文件数的限制。

#查看可以打开的文件数
 ulimit -n
#修改文件句柄数
vim /etc/sysctl.conf
#表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.tcp_keepalive_time = 1200 
#表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.ip_local_port_range = 1024 65000 
#表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_syn_backlog = 8192 
#表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
net.ipv4.tcp_max_tw_buckets = 5000 
#默认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

2、端口范围的限制
操作系统上端口号1024以下是系统保留的,从1024-65535是用户使用的。

标识一个TCP 连接

统使用一个4四元组来唯一标识一个TCP连接:本地端口号 local port、本地IP地址 local ip、远端端口号 remote port、远端IP地址 remote ip。

你可能感兴趣的:(java,linux,高并发)