对于日常管理来说,管理员难免会遇到网络、设备出现故障,引起了网络的阻塞或者设备宕机的情况。当发生这些问题的时候,一些可以提高IT系统运行率的机制和管理思路是没有直接作用的,这时候管理员和CIO最希望看到的就是网管软件能够直接提供快速、精准的故障解决方案,能够在最短时间内恢复网络、设备正常运营,从而为企业的IT运营提供可靠的保障。
    以上就是我今天要同各位网友探讨的话题,如何做好事件管理。当然这也是众多管理员最感兴趣的话题,因为这涉及到具体问题的解决。在一套完善的网络管理机制下,最终能够体现管理员价值的莫过于处理故障的速度和效率,高水准的信息团队是能够在业务部门报修故障后迅速制定出完整解决方案,并着手开始实施,同时能够确保在恢复好业务运行过程中对企业的生产经营带来的损失最小。下面为大家重点介绍一套完整的处理IT故障的思路:
 
发现事件 准确全面是管理的基础
    我在为用户实施众多项目过程中,很多用户都面临到这样的困境,发现故障缓慢,影响了处理效率,给业务带来了一定的影响。因此,对用户有价值的管理软件是能够在第一时间发现事件和故障,而这是基于事件发现的范围和机制来实现的,即通过怎样的手段来监控网络系统,从而能够确保故障告警的及时、准确、有效。
    简单来说,发现事件包括两方面要素,一是覆盖要广,二是发现机制技术先进性。在管理面上,管理软件能够提供上千种KPI,对桌面PC、应用服务、机房环境、网络系统、服务器系统、数据库、数据流等IT要素进行全面的监测管理,管理员自然有充足的管理源进行管控,对于整个IT环境中任何细微的故障都能先知先觉,因此全面的监控是精准事件发现的基础之一。另一条件则是事件发现机制,通过主动与被动的采集数据模式,实现了优势互补,通过精确的轮询提高了事件发现的准确度,同时被动的采集可以减轻系统压力,并在一定程度上确保了故障发现的及时性。通过以上两方面,就能让管理员在运维管理中“高枕无忧”,因为准确、全面的发现事件,这将成为管理员事先管理模式的重要工具。
 
定义事件 进而压缩与根原因分析
    当通过准确高效的发现机制将故障通知管理员以后,管理员可能并不能立即就明确故障的性质、影响度等情况,因此管理软件还必须提供事件的各种属性,也就是本次事件的来源、时间、紧急度、影响度等情况,在对这些情况汇总后能够得出对于企业网络的影响等级。通过制定这样一种策略,管理人员就可以轻松掌控事件,当有告警发生时,立即查看其告警等级,是属于紧急、高级、中级、低级、提示级中哪一种,对于紧急的进行优化处理,而提示级则可以暂时不用处理。结合丰富的事件信息能够为接下来事件处理提供充足的资源,并且结合事件优化级的管理模式也能够同企业网络管理的SLA相结合,提高信息部门的服务满意度。
    在明确事件的相关属性之后,管理人员可能还是会有疑惑,在众多告警中,怎样才可能确保告警的精准,进而安排到相关人员进行处理。这就涉及到一个事件的压缩问题,对于若干的告警,管理员肯定会显得无所适从,而管理软件能够融合基线告警、复合告警两种方式,则可提高高等级事件的准确度,即对于重大的故障能够迅速定位,并且是正确有效的告警。进而深层次挖掘事件的根源,也就是根原因分析功能,管理软件通过故障处理经验的积累,顺着思路采集数据,层层深入地找出问题的根源。明确根源后,最终管理软件将故障处理意见进行输出到相关责任人,这样就形成了完整的事件处理过程。
 
总结必不可少,统计分析促发展
    通过以上的分析,基本上明确了事件处理的环节,事实上以上这些工作只是简单的一次处理过程,那如何规避一些网络故障的发生和提升网络性能,这就需要对事件进行统计分析。经过一段时间的运行,管理员能够查看故障报表,从海量的事件中选出密集事件,发现问题根原所在,这也就指明了网络改进的方向,这事实上也就同ITIL中所提供的问题管理功能类似,对于长期性的问题,我们需要由经验来形成解决方案,改善运维情况,从而提升IT运行效率。
    事件统计分析功能相当于一面明镜,可以辨别企业网络中的桎梏所在,也正是在完善的事件管理机制下,IT部门才真正体现了价值,去运营维护企业的网络系统,去打造一套智能、全面的故障处理方案,并以最大化利用IT资源为部门己任而奋斗不息。