事态管理(Event Management),原来称作事件管理,是ITIL运营管理体系中的一个主要流程之一。所谓Event(事态)是指对于配置项或IT服务有重要意义的状态变化。比如IT系统中的服务器。
从启动状态变为关机状态、一个应用服务状态从Up到down的状态变化等等。Event一词还用于表示任何 IT 服务、配置项或监视工具创建通知。事态通常需要 IT 运营人员采取行动,并且通常导致事件记入日志。在ITIL V4中事态管理已经更新为监控与事态管理。
高效的IT服务运营有赖于对于基础设施、操作系统、应用系统等IT系统的状态的及时了解,并发现较于正常以及预期工作的任何偏差。以便尽快采取措施修正系统的偏差,这一功能需要通过出色的监控系统来实现。
人们往往会混淆监控和事态管理,两者虽然密切相关,但是还是有着本质的区别。监控通常以高度自动化的方式进行,并可以主动或被动地进行采集被监控项的状态。事态管理则侧重于记录和管理由组织定义为事态的状态监视和状态变更。强调对于运营管理有意义的状态变化并进行管理,确定事态的重要性、以及识别和启动正确的操作以管理它们。
监控对于事态管理是必要的,但不是所有监控都会导致检测到事态,并非所有事态都具有相同的意义或需要相同的响应。事态可以分级、通常可以分为信息(Information)、告警(Warning)、例外(Exception)。信息在识别时不需要采取行动,但可以在事后的分析过程中提供数据支撑以采取措施改进服务。告警通常在达到一定的条件下触发,使团队能够在业务发生实际负面影响之前采取措施应对。而例外则表明已经实际发生了违反预定义规范的事态,异常事态一定要采取措施。
通过监控工具或自动化监控对象的做法可能会产生大量数据,但如果没有关于如何限制,过滤和使用此数据的明确政策和策略,那么它将毫无价值。
JITStack集合主流开源监控平台并结合在监控领域的实施经验,为客户组织打造纵向层次化、横向大规模可扩展的灵活、成熟、可扩展的可视化统一监控解决方案。方案以Zabbix、Prometheus、ELK为开源监控平台,Grafana技术框架为开源可视化平台,结合Ansible开源自动化技术,打造纵向可以监控从硬件基础设施、系统、应用状态、业务数据,虚拟化环境、容器,日志等全方位信息系统以及对监控数据的分析、展示;横向可以实现从监控小规模几台到几十台的中小规模的集中式高可用部署,到监控几千台设备的分布式监控系统部署。
客户组织利用JITStack监控系统平台实行监控和事态管理流程中的重要活动:
定义监控项:确定哪些配置项,设备、系统、服务及其组件并确定监控策略。
实施和维护监控:利用设备、系统自身的监控功能或者使用专用的监控工具可实现监控,不同的系统产生的大量监控数据,各种事件分布在不同的系统中,如主机、网络设备的本身往往都有不同的监控系统,其监控信息、事态告警都分布在各自的监控系统中,通过JITStack统一监控系统将各种监数据汇集到统一监控系统、有利于简化事态管理复杂性,提高运维效率。
修正降噪:由于系统之间的耦合,同一个故障可能会导致各个不同的层级关联系统产生一系列相关的事态信息、告警和例外,使运营团队淹没于大量告警之中,增加了排查处理问题的难度。JITStack通过修正降噪方案,将相同原因的事态告警合并,只显示有限数量的事态通知,帮助运营团队专注于处理有意义的告警通知,提高效率。
建立维护阈值:确定哪些状态变化将被视为事态、并选择标准对事态进行分级。JITStack监控系统默认支持6级安全级别定义,满足更精细、灵活的响应操作管理。
JITStack监控系统支持分级层次多途径通知,结合客户组织实际,建立和维护应如何处理每级事态的政策以及适当的管理,在JITStack监控平台实施定义的阈值,标准和策略所需流程,并结合自动化工具实现运维管理的自动化。
利用JITStack监控平台进行监控与事态管理对于业务和运营管理价值:
其重要之处在于监控系统结合事态事态管理流程提供了早期发现故障的机制,在实际服务中断发生之前,就可以检测到故障并分配给相关团队采取措施。当整合服务管理的其他流程时,如故障管理、问题管理时,事态管理能够利用监控信息作为输入提供事态基础数据,显示出状态变化、异常现象,使相关人员或团队能够尽早响应,提高响应效率,从而使业务受益于整体运维效率的提升。监控与事态管理为自动化操作奠定了基石,运维自动化可以提高运营效率,并使昂贵的人力资源解放出来投入到更具创新价值的工作中去。