AIOPS2022_题目

比赛名称:无线网络故障定位的根本原因分析

一、背景

当故障发生时,根本原因分析在无线网络运行和管理中起着重要作用。快速、准确的故障定位对于及时恢复网络至关重要。真实的网络往往有复杂的环境和部署场景,故障的发生是不规律的。因此,根据现有的知识来推断已经发生或即将发生的问题是很有挑战性的。

根源定位依赖于变量之间的依赖关系。关键是要确定因果关系。以下图为例,其中Y受变量 X 1 , X 2 , X 3 X_1,X_2,X_3 X1,X2,X3的影响。当Y的值发生变化时,我们需要分析 X 1 , X 2 , X 3 X_1,X_2,X_3 X1,X2,X3中的哪个变量对Y有最重要的影响。目前的操作多以工程师的主观意见来完成,这有几个缺点。首先,估计的因果效应严重依赖于工程师的专业知识。与数据驱动的方法相比,这种方法不能灵活地推广到其他应用中,而且复杂的关系也很难把握。其次,工程师的专业知识通常是有限的,因此有可能忽略了某些因素。例如,在说明性的例子中, X 3 X_3 X3也会影响 X 2 X_2 X2。在测量 X 2 X_2 X2的影响时,我们也应该考虑到 X 3 X_3 X3

AIOPS2022_题目_第1张图片
在本次竞赛中,我们将提供如图1所示的因果关系图供参考。本次竞赛的目的是根据收集到的真实网络数据和图1中给出的相关因果关系图,学习一个通用的根本原因分析模型。

由于数据安全问题,我们对特征名称进行了匿名处理。我们已经建立了一个竞赛平台来支持这个活动,注册用户可以在这里下载数据,分享想法,并提交他们的结果。

二、描述

AIOPS2022_题目_第2张图片
在电信网络中,feature0的性能低于预期始终是一个客户关心的问题。本次比赛主要是对feature0的不良表现(KPI低)进行根本原因分析。当它的值小于200时,我们需要分析影响因素并定位出原因。因果关系如图1所示。在电信网络中,每个特征feature都可以被解释为一个key performance indicator关键性能指标(KPI)。这些KPI的值随时间变化,并相互影响。根据图1中提供的关系,我们需要推断出feature0的低值的根本原因。

(图中)
1、资源不足Resource insufficient
2、边缘地区的信号较弱Weak signal in marginal areas
3、节点间的强干扰Strong interference among nodes
4、特征Y中的元素分辨力低Low discrimination of the elements in feature Y
5、特征Y对于n来说是不平衡的Feature Y is not balanced regarding to n
6、KPI的四个实体不平衡

三、数据集

提供的真实世界数据集包括:

  • 因果关系图(见图1)。这个因果关系图来自一个标准的通信协议,在不同的场景下是通用的。椭圆代表一个变量或一组变量。白色椭圆代表观察到的变量。灰色椭圆代表一个中间变量(不可观察)。矩形代表可能的根本原因。在顶部,feature0是操作者关心的目标变量。变量之间的关系往往是非线性的。有些关系是决定性的,有些是概率性的。
  • 特征数据集。这个数据集总共包含2984个样本。每个样本是一个从不同的5G道路测试中收集的时间片。**有23个可观察的变量(图1中的白色椭圆),携带着在时间片中测量的不同KPI的信息。**在2984个样本中,只有约45%的样本被标记为根源性故障,其他的仍未被标记。
    我们在数据会中留下了更详细的描述。

3.1数据集细节

Data in each time slice:

我们采用时间片分析,这意味着我们只需要 at the time slice level上定位根本原因。
例如,表1显示了从2020-08-18 18:24:40到2020-08-18 18:25:42的一个时间片(一分钟,每秒钟数据都会列出来)。数据点每秒钟都被记录下来。
特征0的值保持在一定范围内,允许有一些抖动。
在这里,这个时间片中feature0的值大约是300。我们根据这个时间片中的所有数据点来标注根本原因。注意,多个根本原因也可以同时出现,例如,表1中的时间片同时被标记为根本原因2和3。
AIOPS2022_题目_第3张图片
一些备注:

  • 特征值可以是连续的或离散的Feature values can be continuous or
    discrete:例如,特征0是连续的,特征15是离散的。
  • 有些特征反映的是统计信息:例如,特征3_1-3_8表示特征3落在相应数值1~8的计数。
  • 空间特征:例如,特征28_0-28_7表示特征28在0~7方向的数值。
  • 时间特征:例如,特征19的波动将导致特征0的不稳定行为。
  • 不同的数据收集粒度:例如,特征19每隔几秒钟报告一次,而特征0则是每秒钟记录一次。

注:数据是从不同的场景中收集的。在一些场景中,一些特征可能没有任何内在的值,这并不是由缺失的收集造成的。

部分标记的数据:

  • 只有少数数据被贴上了标签:在现实中,所有的标签都应该由工程师来做,依靠专业知识因此很昂贵。大量的数据仍然没有被标注。
  • 标签并不全面:在2984个样本中,我们对其中的45%进行了标注(可能是多标签)。未标记的样本也可能有缺陷。The unlabeled samples may also have faults.

3.2 特征细节

AIOPS2022_题目_第4张图片
特征3_1-3_8表示特征3落在相应数值1~8的计数。
AIOPS2022_题目_第5张图片
AIOPS2022_题目_第6张图片

四、输出形式

参与者需要输出每个时间片的根本原因。最终结果应如下表所示,为CSV格式,代表一个带有指标函数的根本原因集。
AIOPS2022_题目_第7张图片

五、判断指标

我们将抽取KaTeX parse error: Undefined control sequence: \epslion at position 4: N_t\̲e̲p̲s̲l̲i̲o̲n̲ ̲=150个样本作为测试集,参与者应该对每个根本原因作出判断,我们将把他们的预测 P i P_i Pi与我们的真实标签 I i I_i Ii进行比较。
AIOPS2022_题目_第8张图片
分数为 S i S_i Si初始值为0,预测对了加一分,预测不对减一分,最后得分除以真实标签分数(满分),相当于做了归一化操作得到一个比率值。
最后计算每个样本的平均分
备注 (1) 如果所有的预测都是正确的,你将得到最高的最终分数S=1。(2) 如果预测的输出结果留有空白(全部为零),最终得分将为S=0。 (3) 如果预测的根本原因不在标签集中,将被扣除一个分数,因此最终得分可能为负。
比如说本来六个原因是{1,1,1,0,0,0},你预测的是{1,1,1,1,0,0},得两分。你预测的是{0,0,0,1,1,1}得-3分。

你可能感兴趣的:(机器学习)