如何高效处理IT中的突发事件?

在当今快节奏的商业环境中,IT中的重大事件可能会意外发生,从而影响生产力和客户满意度。无论哪个行业,制定恢复计划并建立ITSM事件管理对于在危机时期确保业务连续性至关重要。

让我们来看一下某航空公司的运营,航空公司的运营很复杂,效率是通过许多人的共同努力来实现的。IT系统对于航空公司的时刻表合规性至关重要,因此,IT崩溃会扰乱许多用户。例如,某航空公司最近经历了 IT 中断,给数千名乘客带来了不便。让我们来看看该航空公司IT中断的原因和事件。

如何高效处理IT中的突发事件?_第1张图片

中断原因
航空公司运营因 IT 中断而受到阻碍,该航空公司的网站现在显示 502:网关错误,导致预订、办理登机手续、取消和其他操作出现问题。根本原因的IT中断归因于供应商提供的防火墙故障。

为了应对新的漏洞和威胁,供应商的防火墙团队会定期向 Web 应用程序防火墙 (WAF) 的现有托管规则发布新规则,然后在全球范围内推送更新。在这样的更新中,防火墙团队的一位工程师进行了一个小的修改,无意中将专用于在整个网络中提供 HTTP 和 HTTPS 流量的 CPU 的使用率提高到接近 100%。这导致了 该航空公司的网站和关键系统将在几个小时内无法访问。

导致中断的事件

在维护时段内,应用了更新的 WAF规则,系统似乎正常运行。规则更新几个小时后,用户开始报告访问该航空公司网站的问题。这时 IT 团队开始调查原因,13 分钟后,它被宣布为重大事件,并通知了利益相关者。同时,有大量电话报告问题。

事件发生 33 分钟后,来自多个团队的成员聚集在一起,组成了一个事件响应小组。该团队调查了网络攻击假设。他们花了 53 分钟才排除网络攻击的可能性,但根本原因仍未确定。

经过进一步调查,该团队确定 IT 中断的原因可能归因于 WAF 托管规则更新,他们开始回滚托管规则更新以还原服务。正常操作 在航空公司的 Web 应用程序中断 78 分钟后恢复。

尽管使用了多个应用程序和监控工具,但 某航空公司 还是出现了一些失误,无法有效地处理重大中断。这一事件凸显了对重大事件进行强有力的管理的必要性 流程和有效的通信协议,以减轻未来中断的影响。

在ServiceDesk Plus中构建请求生命周期以处理IT重大事件

ServiceDesk Plus 可以帮助 某航空公司 遵循最佳实践框架,以确保公司有效地扑灭重大事件。

为了实时实现此框架,ServiceDesk Plus使用请求生命周期(RLC)功能。RLC 允许您使用简单的拖放画布直观地设计工单的整个生命周期。它进一步将工单的生命周期分解为各种状态和转换。ServiceDesk中的每张票 Plus 会经历各种状态,例如“打开”、“暂停”、“已解决”和“已关闭”。使用 RLC,您可以设计状态的顺序以及每次状态更改所需的条件和操作(转换) 只需将状态拖放到画布上即可。

转换是将工单从一种状态移动到另一种状态所需的操作。在每种状态下,转换都会引导技术人员通过条件操作进入下一个状态。技术人员只能更改状态 通过事件单的“详细信息”页面上提供的转换。有三个转换阶段:BEFORE、DURING 和 AFTER,它们允许您设置多个选项来根据 满足指定条件。此 RLC 可以与一个或多个事件模板相关联。

让我们来看看 RLC 功能如何帮助航空公司处理重大事件

1.在维护时段内,将应用 WAF 规则更新。ServiceDesk Plus与多个ITOM产品集成,包括ManageEngine OpManager,用于监控网络和服务。当OpManager识别出一个 服务中的异常情况,警报会自动记录为ServiceDesk Plus中的事件单,其中包含所有相关详细信息,例如中断的日期和时间,受影响的系统或应用程序以及错误 收到的消息。
2.此工单通过简单的无代码、基于规则的自动化自动使用重大事件模板。使用重大事件模板记录工单后,与该模板关联的重大事件 RLC 立即被激活,并开始指导该过程。
3.在接下来的三分钟内,某航空公司 的服务台代表将评估事件影响,以避免任何误报,并通过单击“报告”过渡将事件工单标记为重大事件 事件工单的“详细信息”页面上的操作;这将更新工单状态,并自动将工单分配给事件响应团队 (IRT)。然后,向所有利益相关者发送即时通知。这些 操作是使用 RLC 中的三个过渡阶段配置的,如下所述。

行动前:
某航空公司 将“报告”转换按钮的访问限制为具有特定角色的服务台代表,必须为其显示转换按钮,并添加了确定此转换按钮是否的条件 应显示在事件详细信息页面上。如果请求类型为事件,则“报告转换”按钮将仅针对具有 IT 或 IRT 技术角色的技术人员显示在事件详细信息页面上。

操作期间:
在执行报告转换时,“是否为重大事件?字段是必需的,服务台代表将事件标记为重大事件或不标记为重大事件。如果它被标记为重大事件,则组 事件详细信息页面上的字段更新为 IRT,这会将工单传输到 IRT 的存储桶。

行动后:
执行报告转换后,会自动向 IRT 发送自定义通知,通知他们发生重大事件。除了通知、Webhook、任务和自定义函数 也可以根据条件触发。执行此转换时,事件工单的“状态”将移至 WIP。
1、下一步,将进行分类过程。在 Collaborate IRT 转换中,某航空公司 配置了一个通知,并在 AFTER 转换操作中添加了一个自定义函数,该函数允许 ServiceDesk 此外,还可以与 Microsoft Teams 集成以创建虚拟作战室链接。单击事件详细信息页面上的此转换将触发自定义通知,其中包含要发送到 分布式 IRT,促进在混合工作模式下工作的团队之间的协作。然后,工单的“状态”将自动更新为“会审”。
2、在进行分类时,使用ServiceDesk Plus中的公告功能通知客户中断,以防止他们用新工单淹没服务台。
现在,根本原因分析(RCA)开始了。在 RCA 分析转换中,将已分配给特定技术人员组或技术人员的任务添加到 AFTER 操作中,以分析根本原因。
3、在五分钟内,IRT 将根本原因确定为 WAF 规则更新,并通知相应的利益干系人。同样,某航空公司 配置了三个转换操作,以达到重大事件生命周期中的各种状态循环根据其要求。
找到根本原因后,事件工单将委派给相关团队,以回滚 WAF 规则更新。某航空公司 的一名技术人员在 WAF 规则更新上实施了回滚,并在 28分钟。整个团队能够确定根本原因,并在任何重大中断之前解决它。
4、问题解决后,将通知利益干系人,并在知识库中更新解决方案,以便将来为技术人员提供帮助。

因此,ITSM事件管理框架内的RLC提供了一种结构化的方法来解决IT事件,保护企业免受任何中断的潜在灾难性后果的影响。

你可能感兴趣的:(运维,网络,运维,安全)