web应用导致系统负载过高问题排查

    在linux服务器上,用uptime、top查看系统的负载明显过高,经过排查,发现是因为代码中死循环造成的。具体的排查过程请参照本文。

    使用top命令,发现load average指标值都在1附近,偏高。当然也可以用uptime。用top的好处是可以看到各个进程使用资源的一个排名。在top结果页面,输入P,以cpu消耗进行排名,发现有个java进程占用了98%的cpu资源。记下该进程的pid,通过ps -f -p pid命令,可以发现该进程是tomcat进程,它提供了一个web服务。

    目前进程的信息对我们问题的排查没有任何帮助,我们需要查看线程的信息。我们知道,jdk提供了对线程的监控命令jstack,但是我们直接使用此命令帮助不大。我们可以先找出消耗资源较多的线程,这里又要用到top命令。top命令不仅可以查看进程,还可以查看线程。使用top -p pid,只对该进程进行监控,进入界面后,输入H,可以查看该进程下各线程使用资源的情况。截图如下:

web应用导致系统负载过高问题排查_第1张图片

    可以看出线程20591消耗资源较多。

    接下来,我们就需要看看这个线程到底干了什么事情。此时就需要用到jdk提供的jstack工具了。

    将线程栈打出来:jstack -F pid,截图如下:

    jstack会将进程下所有线程信息打印出来,上图只是截取了部分线程信息。根据线程号,可以找到对应的线程栈。

    通过线程栈,找到对应的java代码,发现是因为死循环导致。修改代码重新部署,系统恢复正常。


你可能感兴趣的:(java)