2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测

2021国际AIOps挑战赛决赛暨AIOps创新高峰论坛于2021年5月13日在北京成功举行。本文根据中国移动研究院首席科学家、人工智能与智慧运营中心总经理冯俊兰博士现场发言纪要整理而成。

演讲内容

各位领导,各位老师,各位同仁和同学们,大家好。

我分享的内容是移动通信网络运维中的一个特别具体的问题:《基于移动通信网络运维中的多指标时空序列预测》,跟大家介绍一下。

一个企业数据中心的好坏很大程度上取决于它的运营运维能力的强弱,或者说它的智能化运维的能力如何。同样的逻辑,也适用于通信网络,但所面临的问题有所不同。

◆ 移动通信智能化中预测问题

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第1张图片

以移动通信网络为例,日常大家经常会用到4G、5G网络服务,这背后的运营运维在公司的整个成本中占比最大。随着大家日常用的流量在大幅增加,该如何控制运营成本,如何实现在用移动互联网的时候成本不增加,是我们需要重点关注的问题,其中有非常多的需要进行智能化运维的点。

运营运维的工作开展,是靠流程来保障的。我们基于规范性流程,比如说参照TM forum提出的eTOM流程梳理出114个运维流程总图,同时考虑企业实际运维流程,完成流程穿越,提炼其中哪些是可以通过智能化的能力进行改进的场景。

在完成这些工作后,发现其中接近20%左右的场景都会涉及到如何做好预测的能力。

把移动通信网络需要智能化的场景分层,最底层的是网元层,再往上是运营运维层,最上面是服务层。就下面的两层而言,不管是网元的智能,还是运营的智能,都把其中需要用到预测能力梳理出来。

1)网元智能层面:针对每类网元的流程特点做预测。比如无线网,如何去做预测才能控住电费,让base station的用电量是最经济的,这需要对每个base station的流量做快速的中短时预测,而非长时的预测,具体包括网络的负荷的预测、关键的KPI指标预测等。核心网也类似,需要对用户的行为做预测。IP网的预测周期会更长。

2)运营智能层面:在运营过程当中,我们在规划建设阶段需要做长期的预测;维护阶段,会做设备状态的指标预测,短期的时空预测能力都会用到这个环节中来;优化阶段,需要依据预测来做网络的优化,例如大家拿着手机,某天早晨要赶过来会场,在不同的base station之间切换,如何更好地服务用户,就需要对用户的行为做预测,进而做到更好的网络服务。

这是我要演讲内容的大背景,也解释了为什么会专注这个问题。

◆ 时序预测的模型体系

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第2张图片

今天的内容里面有很多关于时空预测的问题,先以一个简单的时间序列预测为例(天气预测、股票预测),分析数据为单域的时间序列, x轴是时间点,Y轴是数值,需要预测的是数值随着时间的推移如何变化的。

典型的时间序列预测模型是马尔可夫在九十年代提出的。从左侧算法看到传统的预测建模方法在企业的运营当中是很常用的。比如说周期因子法、转换为图像法(把运维领域复杂的数据,尤其把大量的告警,直接转化为图片的形式做处理)、转换为频域法(转为频域的数据进行处理)、各种线性模型、各种基于因素分解的模型(分析出哪些是长期趋势,哪些是季节性的,哪些是节日性的,哪些是突发的,哪些是随机不可预测的),这些是属于传统建模领域的应用。

另外一个方向是基于监督学习的方法,主要分为两种,一种是基于时间序列的,另外是基于时空序列的(数据状态不再是以时间域为主,而是关于时间和空间的信息)。针对时空序列举个例子,要预测移动通信几百万base station的流量,base station与base station之间形成了一个图,即存在空间关系(base station与base station间的关系),同时存在时间信息(每个base station的流量随着时间变化形成时序数据),这就是一个时空序列,我今天主要讲的内容主题就是围绕时空序列中的预测。

◆ 时间序列VS.时空序列

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第3张图片

时间序列和时空序列的区别是什么?左侧是时间序列,原始数据是单一的时间序列,原始数据可以分解为周期性、趋势、噪声等多个维度。右侧是时空序列,可以分为两种形式,一种是时序图片数据,一种是时序表格数据。时序图片数据:预测天气的遥感图片,随着时间的推移图片会有各种变化,图片本身已经存在二维信息,再加时间维度,从而得到基于图片的时空预测。时序表格数据:在移动通信网中,更多是时空表格类数据。在选定的时间段内,网元自身和网元间存在多维度时序数据,构成表格数据;同时存在不同时间段,构成多个时序表格数据。

综上所述,时空序列跟时间序列是完全不同的两个概念,主要体现在几个方面:

◆ 时空序列预测共性问题

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第4张图片

第一,输入输出均为时空序列。时间序列预测是输入历史序列预测未来序列需假设未来序列一定程度上和历史序列有相似之处,这是时序序列预测的前提。但时空序列却不同,时空序列输入是时间空间上的某些序列点,输出同样是时空序列。

第二,空间的相关性。每个节点受空间维度中其他节点的影响。和时间序列不同,时空序列存在空间相关性,例如base station流量预测中,base station间存在各种复杂关系,既有物理连接关系,有业务关系,同时有突发情况关系等。

第三,动态时间相关性。每个时刻的观测值受历史时刻的影响是动态的,随时间变化而变化。

第四,时空相关性。每个时刻各节点的值受历史时刻中各节点值的影响。

要解决的是如何把时间空间相关性在建模时同时准确表达,这是非常关键的点,但在时间序列预测中不需要关注这些问题。

◆ 时空序列公开数据集

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第5张图片

通过对业界时空序列数据集梳理发现,交通领域数据集占绝大多数,只有最下面MILAN公开数据集是属于通信领域的。针对交通领域的时空序列预测和移动通信网络有非常多的不同之处,相信这种差异也存在其他领域。

希望通信业界各位代表携手打破壁垒,将更多的数据分享到市场上来,集市场合力,把更多实践中遇到的问题定义清楚,进而带动学术界的进一步发展。

◆ 常用评价指标

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第6张图片

时空序列预测需要有一个自身的评价标准。常用的时间序列评价指标包括:MAPE、MAE和RMSE等。推动任何一个领域的向前发展,其评价方式是非常重要的。这里思考是否需要针对时空预测定义新的标准,因为在平时业务中,业务评价指标很难和已有评价指标相对应。如何把业务关注的指标对应到可以进行客观计算的标准,对学术界的发展,对算法工作的探索,是非常有效的。

◆ 移动通信网络时空序列特性:异质性更加突出

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第7张图片

移动通信网络领域和交通领域的时空数据建模区别在哪里?以及移动通信网络领域面临的时空序列问题和学术上面临的时空序列问题有哪些不同?

首先,移动通信网络领域的base station(节点)异质性更加突出。不同base station存在非常不同的特性,例如城市base station和农村base station、覆盖站和流量站等,它们之间的特性差异很大。通信网络存在大规模异质节点,如何把节点自身的特性更好地表达在模型中是关键的问题。

第二是 “边”同样存在异质性。例如在高速路场景base station间的关系,和城市密集区base station间的关系,差别非常大,同样的差异存在于农村和城市的base station间关系等。

所以base station(节点)和base station间的关系(边)都是异质的,如何把异质的特性以及其中的时空相关性在模型中表达,是应该关注的问题。

◆ 移动通信网络时空序列特性:突发性不确定性更强

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第8张图片

通信网络领域流量数据和交通领域流量数据,同样存在很大差别。

在交通领域中,用户(人)作为一个物理体,在物理空间中存在着一定的连续性,“你现在堵在这里,不可能一会跳到那里”。但是在移动通信网络中,不连续性很强,网络连接可以瞬间在这个base station,瞬间切换到另外一个base station上;同样base station可以瞬间发生较大范围的流量变化(有点类似量子的特性,不受物理空间约束),这也导致很多连续性的假设是不成立的。

另外一点是突发性。突发性的原因有很多维度,包括用户行为的突发性,网络状态的突发性等。从公开的行业数据和中国移动企业自身数据对比来看,移动通信网络的不确定性会更强。

◆ 通信网络结构复杂性

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第9张图片

通信网络规模巨大、结构复杂,节点(小区、base station)间的影响关系复杂且动态变化。

在小区级别的预测任务中,一阶邻居小区数量上百,且根据通信网络优化原则,邻居小区位置与数目会持续动态变化,从而导致节点(小区、base station)间影响关系是动态的。

交通流量预测领域会根据连接的密度不同,通常在路口预测群体的流量变化。而通信网络是在某一个节点(小区、base station)计算流量,从而导致二者的邻居节点会有所不同。在交通场景的邻居节点数目平均为1.6个。而在通信网络中,密集城区场景平均邻居节点数目为105.8,稀疏郊县场景平均邻居节点数目为17.8,两个领域的本质区别在于计算量上有非常大的不同,即密集图和稀疏图间的计算会有非常大的不同。

◆ 移动通信网络数据质量影响因素复杂

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第10张图片

通信网络是一个强运营的网络,网络质量受到各种复杂因素影响。例如:由于网络的各种应急处理机制,网络资源被不断调度;网络各项技术不断升级,导致网络割接非常多;为了“base station节能”采取的动作,会直接影响通信网络质量;随着数据需求的增加,企业存在大量采集设备,采集设备自身也会存在一定的不稳定性;另外还有不断变化的“邻区关系”;还有“天气”因素,如果大雾天在靠海洋的地区会有大气波导对信号的影响;各种“信号屏蔽”,比如高考的时候会有一个信号屏蔽的设备放在周围,这些都会对网络流量造成影响,流量的突发性很大,这些是通信网络中形成时空序列的很多因素。

相对应,在交通网络领域则会面临着“交通临时管制”、“交通事故/修路”、“采集设备不稳定”等因素的影响数据质量。

◆ 多指标时空序列预测建模

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第11张图片

以上介绍的为背景,回答了在移动通信网络中为什么要专门研究时空序列的问题。从2015年开始,有大量的学术文章、工作实践都在做多指标时空序列预测建模。

通过梳理,我们可以清晰了解到在移动通信网络做时空序列相关的内容。

◆ 时空序列预测——ConvLSTM

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第12张图片

首先列举的是ConvLSTM,通过“预测未来降雨强度”,解决时空序列的问题(第一篇真正意义解决时空预测问题的文章)。

模型输入输出都是时空数据。模型基于雷达回声图“预测未来降雨强度”,提出时空关系模型,计算数据空间和时间之间的关系。具体实现包括:通过CNN和LSTM,对输入到状态、状态到状态转换进行建模,构建编码器预测结构Encoder和Forecasting,这个工作在做时空序列大都会应用到,值得深入看一下。

◆ 时空序列预测 - 引入图网络(STGCN)

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第13张图片

STGCN把图神经网络引入到时空序列的预测当中,有效提取时间域和空间域的依赖关系。本模型首先用Gated-Conv来实现时间信息抽取。与RNN提取时间特征方式不同,Gated-Conv优点在于:不易出现错误累积,可以实现并行处理。模型是三明治式结构,中间层是Spatio graph convolutional提取空域信息,上下用Gated-Conv来提取时域信息。(此外值得一提的是,这几年图神经网络有非常大的进展)。

◆ 时空序列预测 - 引入注意力机制(ASTGCN)

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第14张图片

ASTGCN将注意力机制引入到时空序列预测,用于建模不同邻区节点和时间点对目标节点的影响,但这里的注意力机制不同于NLP中常用的基于transformer的attention,是比较简单的加乘注意力。

◆ 时空序列预测 - 时空同步GCN(STSGCN)

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第15张图片

STSGCN将时空同步引入时空序列预测。该模型区别于对时间信息和空间信息分别建模再组合的方式。该模型不仅考虑本时刻节点间的关系,同时考虑相邻时刻间对本节点当前时刻的影响,时间信息和空间信息不可以完全隔裂建模后组合。

◆ 时空序列预测:Attention Only Model

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第16张图片

这篇Attention Only Model的论文是完全通过attention机制来对时空相关性进行建模。注意这里的Attention也是简单机制的Attention,不同于multi-head transformer的Attention,但是这个模型的复杂度非常高。

◆ 时空序列预测:Diffusion Convolutional Recurrent Neural Network

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第17张图片

本篇文章引入传播机制,我们在实际应用中参考到这篇文章。

◆ 时空序列预测:Graph Wavenet

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第18张图片

这篇paper把Wavenet引入到图网络的时空信息提取,即Graph Wavenet。

◆ 时空序列预测:Node-Specific 时空序列建模(AGCRN)

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第19张图片

针对时空序列建模,前面文章均是基于总体图的建模,这篇文章基于node建模,往前更近了一步,对我们实际应用有很大启发。

◆ 长时序列预测:Transformer-Based Attention

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第20张图片

本篇文章介绍基于Transformer-Based Attention的时序预测。文章针对Transformer存在的时间和空间复杂度高的缺陷,本文提出ProbSparse self-attention机制,基于原来的transformer做了改进,用在长时时序序列场景。

我们在时空序列预测方向的探索

接下来,说一下中国移动研究院的工作,方便大家理解今天的演讲内容。

◆ 应用

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第21张图片

我们在算法层面,针对时间相关性和空间相关性联合建模、节点和边存在异质性等痛点问题,通过引入联合图卷积和异质性建模等方式,实现通信领域时空数据表达,支撑时空数据预测。

在应用层面,基于时空序列预测算法,实时预测中国移动某省现网70万+小区未来3小时15分钟粒度的业务量与用户数等指标,帮助运维人员及时发现高流量的退服小区并第一时间排障,提升用户体验,助力网络运维智能化。

◆ 移动通信网络智能化创新平台

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第22张图片

中国移动目前在做关于移动通信网络智能化的创新平台,作为中国乃至全球最大的运营商,中国移动有责任去带动整个产业的发展。通过搭建创新平台,实现数据共享,推动学术和算法持续研究。同时通过开放平台的业务场景、计算能力、数据以及积累下来的运维知识,支持各种各样的实践和评测。

◆ 网络智能化开放创新平台及生态构建

2021AIOps挑战赛|基于移动通信网络运维中的多指标时空序列预测_第23张图片

中国移动提出在 2025年实现L4级的网络智能化。在升级过程中必须有评测标准做保障,才能保障做到L4。期待跟高校、业界同行,不管是传统设备厂家,还是具备AI能力的提供方,有更深入的合作。

目前挑战赛部分演讲嘉宾的PPT已经上传,后续陆续更新,敬请期待!
链接:https://pan.baidu.com/s/19uvpB-WJjED-WPezVjkHbg
密码:mctl

你可能感兴趣的:(技术干货,机器学习,数据挖掘,运维,深度学习)