服务故障定位的一些浅谈

 网站的并发量高,容易出现的问题各种各样,针对一些故障有些小技巧,谈不上什么。只是一些拙见。

 现在很多网站的模式是:nginx+tomcat 前段nginx做转发 (proxy) ――后面的tomcat (java程序)。在高并发的情况下容易出现:

1: 一种是java虚拟机的内存的溢存的现象――用户的体现大多数是:网站的访问速度响应过慢。这个时候java程序处于假死的状态;查看可以用如下命令:top -p pid(java的程序的pid) 查看的内存占用情况。然后和该java虚拟机的实际规定的内存参数进行比较即可,看出java程序是否出现溢存情况。

2:并发量高的情况还容易出现tcp链接过高导致大量的time-wait过高释放不了――表现服务响应过慢。可以用:netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 可以查看当前系统的tcp链接情况。其中的TIME-WAIT过高的情况。我一般处理的方法:

(1)前端转发连接到java程序的:重启java程序。

(2)一个是前端硬件的负载连接到本地服务器的转发:重启nginx

有的时候出现重启不能释放掉TIME-WAIT连接。一般处理的方法把前端的负载均衡对后面的转发的IP的把其中TIME-WAIT过高的服务器这个IP去掉,然后关掉nginx ,一般会解决这个问题。我相信很多网站多做了多个节点的部署(负载均衡)。然后把问题的服务器重新加入负载之中,启动nginx。

3:最近出现一个情况就是在机房网线出现问题。这几天很多人老是说调用服务出现比以往的超时很多。处理的方法:在不同的机器对该IP ping下大包查看下,看看是否出现丢包的情况:比如: ping 192.169.1.12 -s 10240 查看下ping的时候的丢包率,如果出现丢包再在问题服务器上: ping 127.0.0.1 -s 10240 看看该服务器的网卡是否有问题,然后判断问题的出现情况。

4:还有出现问题的时候,多想想该问题有几种可能造成这个现象。逐一排查下,一般的问题很容易解决。其中很多命令需要熟悉比如:top(很喜欢这个命令一目了然让你了解你的系统状况)、free -g 、df -h 、uptime 、iostat、netstat等等。说这么多,其实最重要还是监控做好,能够第一时间通知你故障以便做及时处理。还有做好冗余措施。如果一套系统挂掉可以及时切到备用系统上。以免影响提供服务。

                                             --如果出现观点错误请大家,指正。

批注:对于一个服务器tcp连接过多的情况,我的处理方法不得当,下面是余洪春大大的写关于针对tcp  timewait过多的一些服务器优化方案转载如下供大家的参考:

Linux下高并发的Squid服务器,TCP TIME_WAIT套接字数量经常达到两、三万,服务器很容易被拖死。通过修改Linux内核参数,可以减少Squid服务器的TIME_WAIT套接字数量。

vim /etc/sysctl.conf

增加以下几行:

 
 
  1. net.ipv4.tcp_fin_timeout = 30

  2. net.ipv4.tcp_keepalive_time = 1200

  3. net.ipv4.tcp_tw_reuse = 1

  4. net.ipv4.tcp_tw_recycle = 1

  5. net.ipv4.ip_local_port_range = 1024 65000

  6. net.ipv4.tcp_max_syn_backlog = 8192

  7. net.ipv4.tcp_max_tw_buckets = 5000

说明:

net.ipv4.tcp_tw_reuse = 1 表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;

net.ipv4.tcp_tw_recycle = 1 表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。

net.ipv4.tcp_fin_timeout = 30 表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间。

net.ipv4.tcp_keepalive_time = 1200 表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。

net.ipv4.ip_local_port_range = 1024 65000 表示用于向外连接的端口范围。缺省情况下很小,改为1024到65000。

net.ipv4.tcp_max_syn_backlog = 8192 表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。

net.ipv4.tcp_max_tw_buckets = 5000表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。默认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

执行以下命令使内核配置立马生效:

/sbin/sysctl -p

你可能感兴趣的:(小技巧,服务故障定位)