Java问题排查(运维篇)

  每一位开发想必都会遇到线上服务告警,而导致这样原因的肯能有流量增加或是代码中bug异常没有抓住导致,而此刻我们就需要去排查问题。

1:业务增加,导致FGC频繁发送,如果不知道如何查看FGC的话,可以参考之前写的:Jstat查看MinorGC和FGC使用详解,点击即可。这里不做重新复述。当发现FGC的次数频繁很高,这里说明了需要优化JVM来减少FGC的次数;而这种问题不是个人原因导致的线上问题,所有一带而过。

2:个人代码导致的服务告警,如何排查:

第一步:我想普遍都是先使用Top来查看CPU的使用率:

Java问题排查(运维篇)_第1张图片


第二步:找出cup使用最高的pid 也就是第一列,然后jstack pid |fgrep pid(这里需要转16进制 printf  “%x\n”)

Java问题排查(运维篇)_第2张图片

这里解释一下jstack的结果:
关于线程状态需要关注的有;
死锁 Deadlock ;等待资源,Waiting on condition;等待获取监视器,Waiting on monitor entry;阻塞,Blocked(重点关注)

如果是Blocked就是等待资源超时,这里由于没有现场的截图,只能描述一下,就是state 状态中是:  java.lang.Thread.State: BLOCKED (on object monitor)


如果是Runnable的话:一般指该线程正在执行状态中,该线程占用了资源,正在处理某个请求,有可能正在传递SQL到数据库执行,有可能在对某个文件操作,有可能进行数据类型等转换。

如果是Wating on condition; 

Java问题排查(运维篇)_第3张图片 

当你的堆栈信息出现这样的话你就可以基本发现是出现了死锁,还是阻塞,从而定位到代码中








你可能感兴趣的:(JAVA进阶)