线上服务器cpu 100%了,该如何排查问题?

cpu使用率是如何统计出来的?

这里的cpu使用率与linux 命令top-H-p 的线程%CPU类似,一段采样间隔时间内,当前JVM里各个线程的增量cpu时间与采样间隔时间的比例。

工作原理说明:

  • 首先第一次采样,获取所有线程的CPU时间(调用的是java.lang.management.ThreadMXBean#getThreadCpuTime()及sun.management.HotspotThreadMBean.getInternalThreadCpuTimes()接口)
  • 然后睡眠等待一个间隔时间(默认为200ms,可以通过-i指定间隔时间)
  • 再次第二次采样,获取所有线程的CPU时间,对比两次采样数据,计算出每个线程的增量CPU时间
  • 线程CPU使用率 = 线程增量CPU时间 / 采样间隔时间 * 100%

注意: 这个统计也会产生一定的开销(JDK这个接口本身开销比较大),因此会看到as的线程占用一定的百分比,为了降低统计自身的开销带来的影响,可以把采样间隔拉长一些,比如5000毫秒。

使用参考

当前最忙的前N个线程并打印堆栈:

image
image
  • 没有线程ID,包含[Internal]表示为JVM内部线程,参考dashboard命令的介绍。
  • cpuUsage为采样间隔时间内线程的CPU使用率,与dashboard命令的数据一致。
  • deltaTime为采样间隔时间内线程的增量CPU时间,小于1ms时被取整显示为0ms。
  • time 线程运行总CPU时间。

注意:线程栈为第二采样结束时获取,不能表明采样间隔时间内该线程都是在处理相同的任务。建议间隔时间不要太长,可能间隔时间越大越不准确。 可以根据具体情况尝试指定不同的间隔时间,观察输出结果。

image

当没有参数时,显示第一页线程的信息

默认按照CPU增量时间降序排列,只显示第一页数据。

image
  • thread –all, 显示所有匹配的线程

显示所有匹配线程信息,有时需要获取全部JVM的线程数据进行分析。

  • thread id, 显示指定线程的运行堆栈
image
  • thread -b, 找出当前阻塞其他线程的线程

有时候我们发现应用卡住了, 通常是由于某个线程拿住了某个锁, 并且其他线程都在等待这把锁造成的。 为了排查这类问题, arthas提供了thread-b, 一键找出那个罪魁祸首。
注意, 目前只支持找出synchronized关键字阻塞住的线程, 如果是java.util.concurrent.Lock, 目前还不支持。目前使用效果不佳

  • thread -i, 指定采样时间间隔
    • thread-i1000 : 统计最近1000ms内的线程CPU时间。
    • thread-n3-i1000 : 列出1000ms内最忙的3个线程栈
image
  • thread –state ,查看指定状态的线程
image

作者 | 智哥

原文链接

本文为码农架构原创内容,未经允许不得转载。

你可能感兴趣的:(线上服务器cpu 100%了,该如何排查问题?)