tomcat+java的web程序持续占cpu问题调试

[线上应用故障排查之:高CPU占用]

一个应用占用CPU很高,除了确实是计算密集型应用之外,通常原因都是出现了死循环。
以我们最近出现的一个实际故障为例,介绍怎么定位和解决这类问题。


现象:
在tomcat中部署java的web应用程序,过一段时间后出现tomcat的java进程持续占用cpu高达100%,导致web程序访问受阻。
可能原因分析:
可能程序确实在进行数据计算;或程序进入死循环。
解决方法:

  1. 根据top命令,查看占用cpu的进程PID,发现PID为2738的Java进程占用CPU高达99.9%,出现故障。
    tomcat+java的web程序持续占cpu问题调试_第1张图片
  2. 通过ps aux | grep PIDps -ef |grep PID命令,定位具体的进程主体,如是否是tomcat启动的java进程出现了问题。但是,怎么定位到具体线程或者代码呢?
    tomcat+java的web程序持续占cpu问题调试_第2张图片

    首先显示线程列表:
  3. ps -mp PID -o THREAD,tid,time命令打印出该进程下的线程占用cpu情况
    tomcat+java的web程序持续占cpu问题调试_第3张图片

    tomcat+java的web程序持续占cpu问题调试_第4张图片

    找到了耗时最高的线程2804,占用CPU时间快三个半小时了!
  4. 其次用printf "%x\n" TID命令将需要的线程ID转换为16进制格式:
  5. 最后用jstack pid |grep tid -A 30命令打印线程的堆栈信息:
    tomcat+java的web程序持续占cpu问题调试_第5张图片

找到出现问题的代码了!

现在来分析下具体的代码即可:

找到出现问题的代码,并分析具体函数中是否有可能出现死循环的代码段。
通常问题出现在while, for之类的循环代码片段。

AlarmSendListener.run(AlarmSendListener.java:98)
SnmpTrapThreads.run(SnmpTrapThreads.java:66)

ProduceAlarmEvent.run(ProduceAlarmEvent.java:50)


tomcat+java的web程序持续占cpu问题调试_第6张图片

最后,总结下排查CPU故障的方法和技巧有哪些:
1、top命令:Linux命令。可以查看实时的CPU使用情况。也可以查看最近一段时间的CPU使用情况。
2、PS命令:Linux命令。强大的进程状态监控命令。可以查看进程以及进程中线程的当前CPU使用情况。属于当前状态的采样数据。
3、jstack:Java提供的命令。可以查看某个进程的当前线程栈运行情况。根据这个命令的输出可以定位某个进程的所有线程的当前运行状态、运行代码,以及是否死锁等等。
4、pstack:Linux命令。可以查看某个进程的当前线程栈运行情况。


特别感谢@hankchen

你可能感兴趣的:(tomcat+java的web程序持续占cpu问题调试)