记一次Tomcat线程数占满而导致的运维事故

记一次Tomcat线程数占满而导致的运维事故

故障表现

Tomcat访问报500错误,无法对外提供服务。多个Tomcat服务异常。

排查过程

查看系统资源,内存有小量上涨,CPU、带宽等负载显著下降,TCP连接数处于ESTABLISHED状态的数据没有显明变化,但非ESTABLISHED状态的数量大量减少。
第一时间先上重启服务大法。重启后能短暂提供服务,但是马上又回到卡死状态。
使用jstack看到有很多进程卡在网络访问。同时有应用日志报某个服务地址访问失败。
想起之前为了优化小概率报无法解析域名的错误,而把域名IP写到hosts文件中。

问题原因

因某个第三方服务器域名对应的IP地址变化,导致hosts中写的IP地址错误,响应超时时间过长,导致Tomcat的线程被大量占用,无法接受新请求。进一步导致其它Tomcat因为该Tomcat的问题无法响应而同样线程占满,无法响应新请求,造成服务器雪崩问题。所以多次重启均无效,后修改为正确IP地址后恢复正常。

解决方案

1.增加脚本高频(1分钟1次或可更慢)的定时来判断IP是否有变化并刷新hosts文件;
2.修改tomcat使得有更大的线程数;
3.缩短请求第三方的超时时间,按具体情况10秒左右;
4.把这部分可能阻塞的请求,若不影响业务,改用消息队列异步处理,减少线程占用;
5.增加熔断机制,异常时避免雪崩。

你可能感兴趣的:(运维,架构)