Linux服务器CPU100%问题

背景:用户反应我们系统卡顿,开始排查步骤:

1、查消耗cpu最高的进程PID。top -c 显示进程运行信息列表,按下大P,进程按照cpu使用率排序,发现第一位使用率172%,记下PID:6846。

2、根据PID查出消耗cpu最高的线程号。top -Hp 6846,显示一个进程的线程运行信息列表。按下大P,进程按照cpu使用率排序,可以看到前面四个的cpu都是80+%,记下四个线程号,分别是:6849、6850、6851、6852。

3、把上面四个线程的十进制数转成十六进制(printf %x 6849、printf %x 6850、printf %x 6851、printf %x 6852),分别是:

1ac1、1ac2、1ac31、1ac4。

3、根据线程号查出对应的java线程,进行处理。jstack -l 6846 > ./6846.stack,然后执行grep命令,看线程1ac1做了什么

Linux服务器CPU100%问题_第1张图片

由上图可见,cpu使用率高的线程都在GC task,JVM的GC线程一直在占用大量CPU,然后再搜索一下 项目名

cat 6846.stack | grep 'rongke' -C 20 | less

Linux服务器CPU100%问题_第2张图片

可以看到,这个是项目里面把用户的短信保存到 mongoDB里的方法,去排查项目代码,看到保存短信的时候,开启了一个线程池,队列给了40960个,有点大,这应该是当时给用户下发短信时,临时设置的后面加了个0,发完之后忘记改过来了,但是一般队列是不会满的。应该是并发较大,创建了很多线程,再加上GC的线程也很多,导致的cpu使用率100%了。

解决方案:

1、可以先把队列改为4096个观察下(我没试)。我是先把保存短信的方法注释掉,因为此数据可有可无。

2、接入Ribbat MQ,把每一个短信放进mq里,另外起一个监听器去监听该mq,获取数据存到MongoDB里。

以上是我个人分析的结果,不知道正确否,如果大佬看到问题所在,还请多多指教,小枫不胜感激涕零!!!

 

你可能感兴趣的:(线上bug)