如何排查一次CPU100%的情况

一、前言

    当我们把服务发布到服务器器,可能会因为一些问题造成我们的服务器CPU被打满甚至超过100%,那如果我们想知道到底上在做什么操作导致CPU持续过高呢?因为在线上,我们只能通过日志看问题,或者排查到哪个进程或者哪个线程持续占用CPU。然后才能找到具体问题在哪里才能进行解决。

所以这里我们模拟一个死循环导致CPU过高的情况,然后如何快速的找到问题在哪。

二、问题代码案列

我们这里只是写了一段死循环的代码,我们把它放到服务器上门直接用java命令跑起来。

public class DumpDemo {
     
    public static void main(String[] args) {
     
        do{
     
            System.out.println("-------------死循环e----------------");
        }while(true);
    }
}

不过在服务器上,如果只是一个死循环,其实上用不了多少CPU的,我们就假设这是一个有问题的代码。

三、排查问题

查找进程

当发现CPU过高之后,首先我们要找出哪个进程占用了CPU。我们可以使用top命令

top -c

    在显示模式下,然后我们可以通过切换到大写,不断的按大写P就能进行排序,找到最大的CPU看看上哪个进程。
如何排查一次CPU100%的情况_第1张图片
可以看到进程PID 为 26045的消耗最高。

查找线程

    我们已经找到了哪个进程最消耗CPU了,接下来,我们当然要找到该进程下,哪个线程CPU消耗最高咯。这里的进程PID是26045,使用如下命令。

top -Hp PID 显示进程PID下所有的线程

如何排查一次CPU100%的情况_第2张图片
到此我们已经定位到线程了,接下来我们就该用上jvm的命令工具了。

定位问题代码

    定位到线程26046消耗CPU最高,但是这里我们需要将26046这个线程转为16进制的。因为jvm的进程快照中线程显示是16进制的。
如何排查一次CPU100%的情况_第3张图片
然后我们使用jstack命令,拉到26045进程快照信息,输出到文件中,方便我们查看。

jstack -l 26045 > ./26045.stack 

然后我们cat该文件,并且grep通过16进制找一下该线程。

cat 26045.stack | grep '65be' -C 20

如何排查一次CPU100%的情况_第4张图片

至此我们就已经找到了问题代码在哪了。接下来的事情就是去分析代码为啥有问题咯,完美收公。

转载:论线上如何排查一次CPU100%的情况

你可能感兴趣的:(Linux系统,linux)