告警关联分析系统

浪潮通信致力网络告警维护 解析关联分析专家系统

发布时间:2012.03.22 14:40      来源:赛迪网     作者:赛迪网

摘要:针对通信网络告警数量巨大,设备复杂多样,难于实现故障定位问题,浪潮通信信息系统有限公司提出了一种告警分析与故障精确定位专家系统,基于框架式规则知识库和多种推理机导控策略引擎,利用基于人工智能语言的逻辑和基于神经网络的推理相结合的方式,实现各类通信告警的深度关联分析、分层诊断、故障精确定位。防真结果表明,该专家系统能够从大量告警中迅速找到有关联的告警信息,并对结果进行合理的解释,能够满足通信系统告警监控实时化的需求,为移动通信告警关联分析问题提供了一种有效的解决方法。

引言

通信网络规模庞大,结构复杂,设备多种多样,各种硬件部件和软件模块每天产生大量的告警信息。多个规模引发的众多告警会错综叠加,从而将真正的告警淹没在里面,导致故障识别异常困难。通信网络告警分析主要是靠运维人员进行处理,当网络出现告警时,常常要求运维人员必须在最短的时间内,正确地判断出网络告警中存在的关联性,然后根据自己的经验采取相应的措施。海量告警信息的人工处理会占用大量运维人员,效率低下且容易产生数据一致性问题,使得靠人工进行告警的过滤、分析、定位等都缺乏行之有效的手段。

各大电信运营商虽然建立了基于告警关联分析的监控系统,但由于采用的技术相对简单,主要局限于单个本身,分析模型难以有效匹配实际网络状态,所以关联分析的效果不够理想,难以分析网络级的复杂故障,目前,很多文献对告警进行关联分析,虽然能够获得告警关联规则,但是对得到的告警关联规则没 进行有效管理,当产生新的告警顺序时,无法实时匹配其中是否包含有成立的关联规则,难以满足告警关联分析实时性述需求,彻底解决上述问题的有效途径是开发和建设智能化的网络告警关联分析系统。

关联分析专家系统模型

1、总体结构

本专家系统是面向移动通信网络监控构建的智能化平台,能够有效地管理从历史告警库中获取的知识,实时地对产生的新告警进行分析和推理,并对推理结果进行解释,确定故障根源。该系统对知识的获取方法有两种:对于移动通信元网络的知识,采用物理网络映射,即用数据挖掘等智能化的方法获取知识;另一种是显示知识,采用专家输入的方法进行人工输入。知识表示方式也有两种,即神经网络的隐式知识表示和基于谓词逻辑的显示知识表示。这样得到包含两种知识的知识库,作为告警关联分析专家系统的总体知识库。本系统的推理机制包括基于逻辑的推理方式和神经网络的推理方式。

2、知识库的设计

专家系统的智能型很大程度上取决于知识的数量及其可利用的程度,系统中可利用的知识越多,其智能性越高。本专家系统的知识获取,来源于对于告警数据库进行数据挖掘得到的关联规则,现场的维护技术人员,厂商的维护手册以及中国移动关联规则梳理表。这里将这些告警关联规则表示成一种标准化的形式,以便于知识的更新和维护工作。

知识的表示是对知识的一种描述,就是如何把知识用适当的结构表示出来,且便于在计算机中存储、检索和维护,是对知识进行符号化、形式化的过程。本专家系统的知识表示分为两类:一类是基于谓词逻辑的显示知识表示,谓词逻辑表示法采用一阶谓词逻辑表示知识,是一种叙述性的知识表示方法。它与人们的自然语言比较接近,但却可以方便地存储到计算机中去,并被精确地处理。谓词逻辑适合于表示事物的状态、属性、概念等事实性的知识,也可方便地表示事物间的因果关系,采用人工智能语言Prolog进行分析和推理。另一类是适用于神经网络推理的隐式知识表示,该知识表示方法首先将告警、设备类型等进行编码,并对告警规则进行映射,得到适合于神经网络所处理的模式。

(1)主次关联

没有衍生出新的关联规则,在关联等待时间窗的等待时间之内发生的告警之间,如果有明显的因果关系则认为这些告警之间存在着主次关联,并且可以区分出主次告警。这样可以只呈现主告警信息,将次告警过滤。

(2)衍生关联

衍生关联规则分为两种类型,一是同源关联:一批高精的因果关系不明显,依据他们共同的资源拓扑关系将这一批告警合并,衍生出一个新告警,在某种程度上昭示某些潜在的因果关系;二是阈值关联:在一定地域或设备范围内,同类告警多次发生,数量或者比例超过门限,衍生为一条新告警。

根据告警关联分析专家系统的特点和Prolog语言表达知识的能力,本系统采用谓词逻辑来表示告警关联规则,其具体形式如下:

主次关联谓词名(规则号、主告警列表、次告警列表、关联约束、规则描述);

衍生关联谓词名(原告警列表、关联时间、告警数量、衍生告警、规则描述)。

神经网络的知识库是将知识以数字化的形式,隐式地分散存储在神经网络的各连接权值和阈值中。由于关联规则并不是简单的映射关系,用原有告警编码进行表示时,在推理部分很难实现,因此,这里对于神经网络的知识表示将告警规则进行编码,表示成适合于神经网络输入的数字形式,获取网管告警ID号、并对设备和告警规则进行编码。对于至此关联规则,将规则进行编码,根据规则编码能够迅速地推理出一个主告警所能够关联的所有关联规则;而对于衍生关联规则,由于衍生关联规则号是唯一的,因此直接用衍生关联规则号表示每一条衍生关联规则,这样便于神经网络的学习和知识推理。

3、推理机的设计

本专家系统的推理分为两部分:基于人工智能语言Prolog的推理和神经网络的推理。

Prolog有严格的搜索和程序控制,具有模式匹递归、回溯、对象机制事实数据库和谓词库等强大功能,采用基于逻辑的推理方式,内部的演绎推理机制。Prolog的智能性表现在:具有内置的推理机实现从上至下、从左至右的搜索,Prolog能自动实现模式匹配和回溯,并具有递归的特点,直到最后得到正确的匹配结果为止。

神经网络的推理机制是一个数值计算的过程,主要有以下两步实现:

①输入逻辑概念到输入模式的变换:根据论域的特点确定相应的变换规则,再将目前的状态变换成神经网络的输入模式。

②神经网络内的前向计算:根据神经元的特点,其输入Sj=∑Wij×Yj,Wij为连接权系数,Yj为神经元的输出且有Yj=fj(Sj+Qj)。其中Qj为神经元的阈值,fj为传递函数。通过上述计算即可产生神经网络的输出模式。

在神经网络专家系统中,能够根据系统目前接受样本的相似性确定分类的标准,且主要表现在网络的权值分布上,同时可以利用神经网络算法,完成获取知识的表达体系及不确定性推理机制。

对于神经网络的知识推理,采用4个神经网络模型来实现:首先采集告警数据,对采集到的告警数据进行过滤,过滤器中的主告警,然后用一个单输入多输出的神经网络找出这个主告警所对应的所有规则编码;对于主告警所对应的每一条规则,用3个神经网络模型分别实现3种功能:用一个单输入单输出神经网络找出其所对应的设备类型,由另一个单输入多输出的神经网络模型找出这条规则所对应的所有的次警告,用一个单输入多输出的神经网络找出这条规则的时间约束、频次约束等约束条件。最后根据这些结论,对告警数据进行最终处理,得到告警关联规则。

4、解释机制

本专家系统采用预置文本和路径跟踪相结合的解释方法。对于一些有转机按确定的告警关联规则和标准化的告警关联规则,采用自然语言或者其他易于被用户理解的形式事先组织好,插入程序段或相应的数据库中。在执行目标的过程中,同时生成解释信息,一旦用户询问,只需把相应的解释信息组织成合适的文本方式提交给用户即可。对于一些比较复杂的关联规则的解释,采用路径跟踪法,将求解所使用的知识自动记录下来,当用户提出相应的问题时,解释机制向用户显示问题的求解过程。

你可能感兴趣的:(告警关联分析系统)