智能运维挑战

智能运维,对应的架构如何设计,才能满足以上的场景和未来需要,学术界众说纷纭,我们可以选取。。。中的架构设计中来略见一斑。这个架构是由分析处理模块,模型管理,推荐决策,校验应用四个主要模块构成。其对应的职责如下:

分析处理(LiftAnalyzeProcess):主要对于生产环境的实时的数据进行预处理,完成相关性分析,归一化之后,之后通过模型匹配来输出结果,此类结果包含系统内部的各种异常(单板,用户行为,KPI指标,KQI指标等等),网络关键事件的各种预测结果(小区负荷,信道频率,指纹覆盖,天馈老化,容量趋势),通过根因分析输出的某一个特殊事件的上下文(对于某一种具体故障的所有相关信息被搜集,被确认,为后续的自动运维打下基础)。这个模块实际就是一般机器学习中的推理模块的高级版本。

模型分类模块:主要职能是获取历史数据,进行机器学习,输出各种推理模型。其中输出上下文识别,预测,异常检测模型到分析处理模块进行上下文处理,策略和规则等到推荐决策模块用于自动化运维。

推荐决策模块:基于分析处理的上下文识别来确定当前事件所处的环境,根据策略进行匹配对应的后续执行行为,而行为列表则是基于用户的维护习惯学习得来。基于以上的组合,在发生某个事件时,通过策略自动匹配到特定用户采取的后续动作,进行执行,达到自动运维的地步。

校验应用:主要是对自动运维进行业务监控,防止整个自动化运维跑偏。

整个系统设计分析处理对应上述的智能监测闭环,推荐决策对应于智能控制闭环,两个闭环可以分别演进;其次存在一个纠偏系统,这个是由大量的业务规则组成的,这也是由于通信网络的重要性造成的,也是由于通信网络生成(设备商)和经营(运营商)分离的特性导致的;最后这个架构的特性仔细观察可以发现存在超级管理者,在整个智能运维过程中可以随时切断自动化,这也是因为通信网络的影响比较大而导致;另外可以看到整个通信网络机器学习中重要的推理模型种类分为需求,预测,推荐,模式四种,分别代表用户对于结果的要求,预测行为,上下文识别行为,自愈行为

目前通信网络一般由OSSEMSNE一层网络实体和两层管理系统构成。上述的方案的智能运维的训练,分析,推荐,反馈系统和现有系统的关系如下图,网元一般情况下会增加一个通用推理功能,其接收其他管理系统训练后的推理模型,在实际生产环境中接收实时数据后,实时推理,这种方式的特点是对网络的反应具备实时性,这个称之为自环;其次是在EMS中,对于本网络的数据进行训练,得到推理模型,在收到数据后进行推理,或者把模型推送给网元。他具备了以上架构中的所有元素,区别在于由于成本和职责的定位,其主要面对数据量不太的情况,非实时的推理情况,不会采取集群运算和大规模矩阵运算。最上面一层则是采取类似EMS,只不过其支持大数据量训练,集群计算,可能是第三方系统,同样其训练的模型可以在图中的三个层次进行共享。

 

最后这个架构和当前各层生产系统的关系还体现在其主要设计为侧挂系统,如Cognet报告中所述,即提供各种服务给当前生成系统,如果撤除智能运维框架,现有生产系统也照样运行,只是自动化程度降低而已。

 

对于智能控制,这个专项领域相关论文进展不大。所以在解决方案的最有一部份,我们针对最先落地智能检测的一些典型问题,思路和相关算法做一下讨论,首先给看下面一张问题导图

 

自上而下看,任何一个异常,在监测之后都希望找到其根本原因,根本原因则是通过故障传播链来得到。一个故障传播链需要从这样几个部分得到,

通过机器聚类学习在一些随机事件中自动发现属于同一类别的事件;通过异常事件之间的相关性分析,来发现这些事件的相关性有多大;通过异常服务和事件的相关性分析,找到导致异常服务的具体网络事件;通过全链路调用挖掘发现不同组件之间的关系。通过这样一些关系的挖掘,找到故障传播链。另外对于事件的预测也可以成为事件异常检测的一种手段,因为如果发现检测的值相离预测值较远,则认为是异常。这些问题的通用算法总结如下:

事件异常检测:基于窗口,基于预测,基于近似性,基于隐式马尔可夫模型,也有机器学习,集成学习,迁移学习,深度学习,深度生成模型等等

事件趋势预测:有ARIMAEWMA、时序数据分解、RNN

事件相关性:基本算法包括DTWMK最佳配对等

事件聚类:聚类用到的基本算法包括DBSCANK-medoidsCLARANS

服务-事件相关:用基本算法包括Pearson 关联分析, J-MeasureTwo-sample test

故障传播链:现有文献中常见的算法有:FP-GrowthApriori、随机森林

 

机会和挑战:

 

尽管智能运维有着灼热的前景,但是不可否认,未来依然是机会和挑战共存。笔者认为,未来的挑战来自如下几个方面:

首先是算法的挑战,由于智能运维属于专业领域,人工智能在这个领域的学术研究并不太多。目前的一些经典算法主要集中在监测领域,对于控制领域的算法和应用则需要从业人员自行研究,和计算机视觉,语言等直接可以拿到一些效果很好的算法以及相关参数相比,智能运维起点则低了很多,需要从基础算法的选择,调优等探索开始,可借鉴性的论文也比较少;同时高水平的人工智能学者目前也都处于目前最热的视觉,语言等领域,本领域如果要提高影响力,则需要从数据,业务开源,公开比赛做起,如同谷歌李飞飞教授举办的ImageNet一样把图像识别的识别率经过几年的努力,直接超过了人类,这些则需要大家的共同努力

其次是数据同源的挑战,不可否认目前在电信的领域沉淀着非常多的数据,不同数据来自不同厂商,类型也不同,例如关系型,对象型,日志,文件型等等,相互之间的数据关联和访问,以及访问的效率也是一个非常大的挑战。

最后一个是电信领域特有的问题,电信领域目前网络是生产和运营分离,由于不同运营商,以及不同地域的地理,经济都不同,会直接影响到期业务模型。这样对于生产商做出来的原始算法模型,在不同的运营商不同的地域都需要重新训练和调整,这个涉及到目前机器领域相关迁移学习的问题。这个也是本领域面临的问题。

尽管存在一些问题,但是基于机器学习的智能运维不可阻挡,周边的生态环境已经发生变化,物联网,虚拟化网络,巨大的数据量喷发,百舸争流的经营常态都让我们思考,未来,我们还能从智能运维中期待到什么?

 

 

你可能感兴趣的:(工作)