某次线上CPU使用率飙高的排查过程

背景

线上系统出现CPU利用率告警,告警阈值为65%。通过观察监控发现,单机CPU使用MAX已经达到了88%,并且相对于前几天,CPU利用率的日平均值同步上升了一倍。

排查过程

准备工作_保留现场

逐步回滚(直接使用上个稳定包,而不是重新打包编译),先保证业务不出问题。并保留一个节点不回滚,便于排查问题。

步骤1_唯一变量压测

思路:结合最近一次的迭代内容,将被修改过的代码进行唯一实验变量,分别部署到预发布环境,进行压测。目的是找出是哪部分被修改代码引起的问题。

现象:但是分别多三个改动进行压测后,被压容器的各项指标(CPU、JVM、网络IO)均保持一致

结论:引起问题的原因很有可能不在被修改代码中。

步骤2_回滚版本压测

思路:使用最近上线前代码部署预发布环境,进行压测。目的是确认原有代码是否已经存在问题。

现象:最近上线前代码压测,被压容器的各项指标依然与上述容器现象保持一致,同样存在CPU利用率飙高的问题。这明显与几天前上线前代码在线上时CPU利用率的监控结果存在差异。

结论:本次压测虽然我们自己的项目是用上线前代码,但是CPU指标不同,说明最终运行的程序还是存在差异,差异一定存在于依赖的JAR包中。

步骤3_使用上一个稳定包进行压测

思路:使用最近上线前的稳定包直接发布,避免重新打包编译带来的影响。

现象:压测后发现各项指标恢复正常。

结论:问题一定出在我们项目所依赖的JAR包中。

步骤4_找到前后两个包的依赖差别

思路:解压产物包,观察其引入JAR包的版本差异,找到有区别的依赖。

现象:找到若干有区别的依赖

结论:明确了排查方向

步骤5_找到前后两个包压测时的线程信息

思路:通过命令,在两个容器中,分别找到Jvm中CPU占用较高的线程,利用这些线程id,通过jstack {id}命令,输出这些线程的堆栈信息。在堆栈信息中,找到与上一步确认的依赖中的包名、类名相关的方法。

现象:发现某个新版本依赖中的方法,上线前包的CPU占用率为0.1%,上线后包的CPU占用率为0.6%,锁定该包。对比内存堆栈信息,发现该包的新版本中,某个方法内部增加了正则表达式Parttern.match,最终导致CPU使用率飙高。

原因分析_5why

1Q:为什么要增加这个正则代码?

1A:该组件为一个基于ZK的配置服务的客户端,增加正则,目标是在系统初始化构建ZK监听时,验证被监听路径是否符合规范。

2Q:为什么该组件研发认为增加正则没有风险?

2A:该正则只会在建立对某ZK路径的监听实例时,才会被应用,组件研发预期此动作只在系统启动时发生一次。

3Q:为什么我们的系统会反复调用到这个正则?

3A:我们的系统中对该组件的用法出现了错误,导致在代码中每次用到该ZK路径,都重新初始化了一次。

4Q:为什么反复初始化ZK服务端也没有感知到压力上升?

4A:ZK客户端组件在初始化时,是在该类的Builder类中进行得正则验证,验证成功后再build实例。但是build后的实例实际上在组件中是有localCache的。也就是说后续的Builder虽然被创建了,但是并没有真正的去build。

5Q:为什么之前反复Builder没有出现业务问题?

5A:首先由于4Q中的回答,反复创建Builder但是最终不会build,并且获取到的结果依然是ZK服务端配置的结果,所以没有对业务造成影响。

最终结论

是我们项目对组件理解程度较低导致的错误使用。我们的项目中针对该组件的监听类,只在启动时初始化一次,即可解决问题。

修复方案

短期方案:线上代码对该组件的依赖版本回退到没有正则验证的版本,保证线上CPU利用率恢复正常,消除风险。

长期方案:将我们所有项目中对该客户端组件的错误使用进行修复。并推广至兄弟部门进行全面排查。

你可能感兴趣的:(某次线上CPU使用率飙高的排查过程)