TCP/IP TIME_WAIT 问题小结

最近公司业务线上经常报TIME_WAIT的连接数过多的问题,多方查阅资料,在这里总结有关TIME_WAIT的问题。

TIME_WAIT 是啥?

我们常见的TCP连接多数为短连接。TCP建立连接需要三次握手,断开连接需要四次挥手。而这个TIME_WAIT就是出现在断开连接的四次挥手过程中,还是先看下TCP四次挥手。


TCP/IP TIME_WAIT 问题小结_第1张图片
TCP断开连接四次挥手

1:Clinet客户端主动发起关闭请求,向Server服务端send FIN。
2:服务端收到FIN,向客户端ACK确认请求。
3:服务端关闭连接准备就绪,向客户端发送FIN。
4:同样的客户端收到FIN也向服务端发送ACK确认请求。

当第四步客户端send ACK之后就进入了TIME_WAIT状态。之所以出现TIME_WAIT,也是出自于考虑连接的可靠性。

假如TCP连接这个时候直接进入CLOSED状态,只要服务端没有收到ACK就会导致重新发送FIN,原来连接已经CLOSED,客户端会返回RST包用于强制关闭TCP连接,而且这个FIN也有可能影响其他的连接,这样一来,TCP连接就变得不可靠了,所以这个TIME_WAIT有存在的必要。

从图上来看都是客户端进入TIME_WAIT状态,为啥服务端的监控会出现TIME_WAIT报警呢?其实TIME_WAIT状态总是出现在主动发起关闭连接的一方。当然这里的客户端、服务端也都是相对的概念。服务端当然也会有场景去担当客户端,比如去连接数据库,连接缓存等等,这时候服务端担任的角色恰好就是"客户端"。这也就是服务端经常会报TIME_WAIT连接数的原因了。

当服务端作为客户端发起TCP连接的时候,是需要占用本地的端口号的。在Linux系统中,我们通过cat /proc/sys/net/ipv4/ip_local_port_range 指令可以查看系统可分配的端口总数,Linux默认的端口范围:32768~61000,共计28232个可用端口。同样我们可以通过cat /proc/sys/net/ipv4/tcp_fin_timeout 查看tcp连接默认的timeout时长,Linux默认的timeout时间是60秒。由此可见服务器向外发送连接每秒最多大约470个端口可供使用。当我们需要每秒建立大量的连接的时候,就会受限于此。

调优

对于调优方案来说,我认为没有最好的方案,只有最合适的方案,可以根据业务类型不同加以选择。

  1. 短连接变长连接,减少连接数量。
  2. echo 30 > /proc/sys/net/ipv4/tcp_fin_timeout 缩短timeout的时间
  3. echo 15000 65000 > /proc/sys/net/ipv4/ip_local_port_range 扩大可用端口范围,当然这里需要注意端口冲突的问题。
  4. 启用tcp_tw_recycle 和 tcp_tw_reuse,这个方式不推荐。

你可能感兴趣的:(TCP/IP TIME_WAIT 问题小结)