记录一次支付业务cpu爆满导致系统崩溃

场景:业务流程:支付系统接受外部代理公司订单请求,系统内部处理订单流程并向银联网联发送支付请求,收到银网联响应,并处理响应信息给外部代理公司。突然某天生产服务cpu告警,达到100%。

  • 排查问题逻辑
1.top -c 查找耗cpu最多的进程和进程id
2.java服务cpu占用率高
  top -Hp pid 查找进程里cpu占用高的线程
  jstack pid > /home/app/temp/order_jstack.txt 下载堆栈信息
  jmap -heap pid > /home/app/temp/order_heap.txt 下载内存使用信息
3.恢复上个稳定版本,重启服务
4. grep pid(16进制) --color order_jstack.txt 查看堆栈信息,定位代码
5.修改代码,测试通过并上线

  • 反思
1.定位问题,down服务内存快照
2.恢复稳定版本,减少损失
3.按照标准上线流程处理问题
4.review代码细致,可能造成性能问题,进行压测

你可能感兴趣的:(开发遇到的问题)