常规故障排错流程

前言-事件处理过程:

1、发现
2、认知
3、处置
4、后续

一、发现-事件来源

1、自动监控发现
1)Tivoli/Zabbix
2)NEM-Zabbix
3)Splunk
4)weblogic监控
5)第三方监控:基调、网宿、听云。。。

2、点检发现
一线值班人员根据点检手册,定时定量检查系统

3、业务反馈
业务人员、外部会员、测试人员

二、认知-事件识别

(一)监控的机制?报警的含义?监控的目的?
Tivoli/Zabbix/NEM:
实时状态:CPU、内存、分区容量占用、进程
应用日志
数据库定制化SQL
端口、URL

Splink:
收集日志-自定义监控策略

Weblogic:
Weblogic特有的属性的监控(Server、连接池等)

(二)理解报警内容,确认报警影响:
1)预警性(80%)
2)状态性(进程)
3)提示性(用户登录成功*)

三、处置-事件处理

明确处置目标(用户诉求)
查找原因
尽快解决

查找原因:
保留现场、查看资源状态、应用日志、开发调查

尽快解决:
一线案例、个人记忆、ITIL、EDOC、confluence、团队记忆、开发人员

四、后续-事件总结

1、保留事件记录
事件单、问题单
2、保留用于分析问题的信息
top、jstack、kill -3 、日志
3、完善应急步骤、案例
4、完善监控、点检
5、研究自动化应对*
6、根本解决问题(变更)

五、常见故障分类

1、应用系统可用性故障
2、数据传输故障
3、应用系统部分功能异常或者用户使用结果与预期不符
4、数据库使用或数据异常
5、个别用户使用应用系统异常等


常规故障排错流程_第1张图片
常规故障排错流程_第2张图片

常规故障排错流程_第3张图片

常规故障排错流程_第4张图片

你可能感兴趣的:(汇总篇)