uwsgi重启问题定位

     

      最近几天经常发现访问webserver (scancenter)有异常,有时慢有时快。

 

定位思路:后台架构使用nginx 作为反向代理,uWsgi做为web服务器,项目使用django框架。基本上的请求流程是: client--->nginx---->uwsgi----->django

 

 

一、先看nginx的access.log 

      一般在/usr/local/nginx/log/目录下。当然如果还找不到就locate access.log一下就能找到了。

     没有太大异常,只是发现一些请求时间比较长。达到300秒。具体的日志含义可以在nginx.conf看到。

 

        uwsgi重启问题定位_第1张图片 

      

二、再查看uwsgi的log

 

         uwsgi重启问题定位_第2张图片  

 

       发现很多子进程在不停的重启。

       常理判断300秒是有问题的。查看uwsgi的

        配置。发现uwsgi 配置的超时时间是300.一个请求300s肯定是有问题的。因为等待时间超过了配置的300s。所以导致了重启。
      

        uwsgi重启问题定位_第3张图片

 

三、uwsgi配置中http_timeout表示设置内部http的socket超时时间,如果超过这个时间没有响应就会重启该子进程

 

       这时候主要依据对业务的熟悉程度,熟悉的话 可以知道/api/communicat/command 这个是要和其他组件交互的,所以直接去看那台组件是否正常运行。

       如果不熟悉的话其实也有办法。

 

      (1)、cd /proc/xxx/fd 查看对应的日志

      (2)、使用strace -p uwsgi_pid 来观察这个进程到底在干啥勒。我们使用第二种来观察一下,

        

 

      当然你要strace 的是uwsgi的子进程,如果太多的话,可以配置只启用一个uwsgi进程,这样就可以容易定位了。

      我们看到它在recvfrom 一个文件描述符,打开cd /proc/uwsgi_pid/fd && ls -lt 看到对应的描述符aaa。

 

      继续使用 lsof -p uwsgi_pid | grep aaa,可以看到它是在请求这台机器,并且一直在等待它。如下图:

 

              uwsgi重启问题定位_第4张图片

 

 

四、接下来就清楚了。登录这个阻塞请求的机器,看看是否有异常。 df -h 或者是free -m 。我经常发现的问题是磁盘100%了。一般情况下是/var/log/目录中有大的文件导致的。

 

       当然不熟悉的话,可以先看df 下,看看哪个分区是满的。然后一层一层去执行 du -sm * | sort -n 去看哪个目录占用的比较大。这样来排查占用空间比较大的文件。

 

五、磁盘满只是导致该问题的一个方面。其实对于这种组件较多系统,容易产生单点故障的问题。对于系统的资源整体监控是解决该问题的一个办法。另外对于日志的生成,需要自动定时的清理          。当然具体使用的怎么清理格式我们后续会继续讨论。

 

 

         

你可能感兴趣的:(uwsgi重启问题定位)