查看系统的网络连接状态检测到服务器有大量的time_wait,决定优化内核参数试验下:

# netstat -n | awk '/^tcp/ {++state[$NF]} END {for(key in state) print key,"\t",state[key]}'
TIME_WAIT        836   
FIN_WAIT1        2      
ESTABLISHED      47    
SYN_RECV         1     

状态:描述
CLOSED:无连接是活动的或正在进行
LISTEN:服务器在等待进入呼叫
SYN_RECV:一个连接请求已经到达,等待确认
SYN_SENT:应用已经开始,打开一个连接
ESTABLISHED:正常数据传输状态 ,表示正通信
FIN_WAIT1:应用说它已经完成
FIN_WAIT2:另一边已同意释放
ITMED_WAIT:等待所有分组死掉
CLOSING:两边同时尝试关闭
TIME_WAIT:另一边已初始化一个释放 ,表示主动关闭    CLOSE_WAIT:被动关闭
LAST_ACK:等待所有分组死掉

在高并发短连接的server端,当处理完client请求后立刻closesocket此时会出现time_wait,client再并发2000个连接,此时部分连接则连接不上了。

time_wait状态,持续2*MSL(Max Segment Lifetime)两倍最大段生存期,MSL的值是2分钟,缺省240s,但是在实际的实现中,常用的值有以下三种:30秒,1分钟,2分钟。对于基于TCP的HTTP协议,关闭TCP连接的是Server端,这样,Server端会进入TIME_WAIT状态,可想而知,对于访问量大的Web Server,会存在大量的TIME_WAIT状态,假如server一秒钟接收1000个请求,那么就会积压240*1000=240,000个TIME_WAIT的记录

服务器保持了大量TIME_WAIT状态

这种情况比较常见,一些爬虫服务器或者WEB服务器(如果网管在安装的时候没有做内核参数优化的话)上经常会遇到这个问题,TIME_WAIT是主动关闭连接的一方保持的状态,对于爬虫服务器来说他本身就是“客户端”,在完成一个爬取任务之后,他就会发起主动关闭连接,从而进入TIME_WAIT的状态,然后在保持这个状态2MSL(max segment lifetime)时间之后,彻底关闭回收资源。为什么要这么做?明明就已经主动关闭连接了为啥还要保持资源一段时间呢?这个是TCP/IP的设计者规定的,主要出于以下两个方面的考虑:

1.防止上一次连接中的包,迷路后重新出现,影响新连接(经过2MSL,上一次连接中所有的重复包都会消失)
2.可靠的关闭TCP连接。在主动关闭方发送的最后一个 ack(fin) ,有可能丢失,这时被动方会重新发fin, 如果这时主动方处于 CLOSED 状态 ,就会响应 rst 而不是 ack。所以主动方要处于 TIME_WAIT 状态,而不能是 CLOSED 。另外这么设计TIME_WAIT 会定时的回收资源,并不会占用很大资源的,除非短时间内接受大量请求或者受到***。

 

 
    
  1. 以下引用摘自网上的/etc/sysctl.conf文件的修改参考说明

  2. #对于一个新建连接,内核要发送多少个 SYN 连接请求才决定放弃,不应该大于255,默认值是5,对应于180秒左右时间 
  3. net.ipv4.tcp_syn_retries=2
  4. #net.ipv4.tcp_synack_retries=2
  5. #表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为300秒
  6. net.ipv4.tcp_keepalive_time=1200
  7. net.ipv4.tcp_orphan_retries=3
  8. #表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间
  9. net.ipv4.tcp_fin_timeout=30 
  10. #表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
  11. net.ipv4.tcp_max_syn_backlog = 4096
  12. #表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN***,默认为0,表示关闭
  13. net.ipv4.tcp_syncookies = 1
  14. #表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭
  15. net.ipv4.tcp_tw_reuse = 1
  16. #表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭
  17. net.ipv4.tcp_tw_recycle = 1
  18. #减少超时前的探测次数
  19. net.ipv4.tcp_keepalive_probes=5
  20. #优化网络设备接收队列
  21. net.core.netdev_max_backlog=3000 

 

 目前的解决思路,就是让服务器能够快速回收和重用那些TIME_WAIT的资源,让每个TIME_WAIT早点过期。

#/etc/sysctl.conf 追加或修改两行参数

 
  net.ipv4.tcp_tw_reuse = 1 让TIME_WAIT状态可以重用,即使time_wait占满了所有端口,也不会拒绝新请求
 
  net.ipv4.tcp_tw_recycle = 1 让time_wait尽快回收,开启是为了加速回收处于TIME_WAIT状态的资源
 
 #sysctl –p 使内核参数生效

注另外参数:

net.ipv4.tcp_tw_reusenet.ipv4.tcp_tw_recycle的开启都是为了加速回收处于TIME_WAIT状态的资源。
net.ipv4.tcp_fin_timeout这个时间可以减少在异常情况下服务器从FIN-WAIT-2转到TIME_WAIT的时间。
net.ipv4.tcp_keepalive_*一系列参数,是用来设置服务器检测连接存活的相关配置。
 

再用netstat查了下:

TIME_WAIT        93   已从800多降为93,先试运行一段时间看看有无问题
FIN_WAIT1        4
ESTABLISHED      44
CLOSING          6
LAST_ACK         2


 

引用参考:http://shootyou.iteye.com/blog/1129507

     http://lishixin.blog.51cto.com/846451/496925

     linux服务器历险之sysctl优化linux网络:http://blog.csdn.net/chinalinuxzend/article/details/1792184