如何告别“人工运维”,借助算法进行告警关联挖掘分析?

如何告别“人工运维”,借助算法进行告警关联挖掘分析?_第1张图片

背景

近年来互联网技术高速发展,接入监控告警的设备和业务也越来越多,不断增新的设备和业务使得告警的量级也逐级递加。各种软硬件模块每天会产生大量的告警信息,这些告警中有表象告警,有冗余告警,也有根因告警。每次故障出现都会引发一系列错综叠加的告警,从而将根因告警淹没在里面,导致故障识别异常困难。一般告警分析主要是靠运维人员进行处理,当告警出现时,常常要求运维人员必须在最短的时间内,正确地判断出告警中存在的关联性,然后根据自己的经验采取相应的措施。

然而面对海量告警,靠人工从大量告警中找到故障原因,分析告警属于哪类事件等慢慢变得不太现实,为了将告警从散落的状态关联起来,目前有以下两种做法:

传统的规则关联:

以网络的告警关联为例,一般是通过网管专家梳理告警关联规则后,再对一系列告警进行关联规则匹配。但这种做法由于网络的复杂性,设备变化的高频性和网元连接经常变化等特点,人工经验建立的关联关系存在规则覆盖不全,不能适应网络变化等问题。

基于AIOps的告警关联:

通过算法能够从大量的、低价值密度、有噪声的数据中提取出有价值的告警关联信息,动态的获取事件的关联关系,辅助运维人员决策。

你可能感兴趣的:(AIOps,运维探讨,产品分享,统一告警,AIOps,人工智能,算法,运维)