今天生产故障解决分析
今日,正值大促前夕,万众瞩目,在这紧要关头,却出现了平时不会出现的问题,很是诡异,下面记录下来,留作备忘。
1. 生产短信无法发送成功,并时断时续。
排查路线
1. 该机器需要调用第三方接口,首先要进行网络层排查,是否对外访问被禁,经网络工程师排查,策略全部放开,故障好转,但仍然存在无法发送问题。
2. 偶然登录该机器,发现有一个古怪账户登录桌面,桌面上打开了一些程序。查看资源情况,CPU飙高,再看进程,有疑似木马进程,故判断有入侵发生,随后取证,禁用账户,进行杀毒。
3. 同时,把短信服务部署到另外机器,短信恢复正常。
教训:一旦出现诡异问题,首先要从高到低进行排查,实行替换法、移除法,网络层、操作系统(CPU、木马),软件(阻塞进程,对外资源有延迟)。重启应用池。
2. 新扩容机器,网站时而能用,时而无法响应
排查路线
1. 网络层,经判断网络正常。
2. 操作系统,发现操作系统正版化有问题,而线上机器一切正常(当时),故决定重装系统。
3. 第二日发现,生产机器也发现类似问题,束手无策(重启、注册)。一段时间后,恢复正常
4. 第二日下午,突然发现报错页面,判断Redis缓存无法响应,随后登录Redis服务器,发现CPU 100%,故判断为Redis服务器问题,重启解决。
教训:排查路线不清晰,要从高层到底层,没有发现软件内部还需要调用外部服务!
3. 线上网站登录、订单缓慢
1. 首先排查网络无改动,网络正常。
2. 排查OS,确认资源利用很低,排除
3. 在另外一个测试机,发现同样程序一切正常。
4. 最后回收应用程序池解决。
故障分析:Redis服务器导致线程积压,无法对外提供服务。
需要用到重启法,但由于是生产环境,当时很是慎重,没有启用该方案,以后可采用波浪式测试!