很长时间没有写过文档类的东西了,忽然觉得做了快十年的运维也应该将日常积累的东西晒晒。这是第一篇文章。写此文的原因,近期我司有两台服务器的cpu占用异常,经常收到报警短信,经过一系列的排查发现,由于这两台的应用的java进程占用资源过高,且单个进程的线程数量已超过系统允许范围。

   采用的排查方法:

   方案一:top命令 可以动态查看进程的ID。然后针对具体的异常java进程,使用top -H -p 进程号,即可动态的查看具体的进程对应所在的每个线程的动态变化情况。

   方案二:ps命令  可以使用ps -aux 来查看具体的每个进程的实际应用占用资源情况。结合awk、sort 可以快速定位。实例:ps aux|head -1;ps aux|grep -v PID|sort -rn -k +3|head  。然后再使用下面几个方式查找问题:

           1、ps -Lf  进程ID,查看问题的线程。

            2、ps -mp pid -o THREAD,tid,time 查看线程。

        方案三: pstree  命令, 使用pstree -p 用户名 ,可以查看该用户下的进程数。


    通过上述方法查询和分析后,再通过java分析命令jstack 来分析具体原因。

    

     先 printf "%x\n" tid  ,tid为有问题的线程号,将其转换为十六进制。

     

     然后打印线程的堆栈信息:

      jstack -F pid |grep tid -A 30| sort -rn


将结果发给开发人员分析问题。