Online Anomaly Prediction for Robust Cluster System

题目:《Online Anomaly Prediction for Robust Cluster System

时间:2009

会议:IEEE International Conference on Data Engineering

简介:

这是一篇发表在一个顶级会议上的会议论文。主要的工作是通过将stream-based的数据进行异常点的预测,文中也提到了这是首篇对stream-based data进行预测的paper。另外,当前对异常点研究的成果并不多,大多数也都是基于statistics的,而这篇则是用到了 Markov chain和navie Bayesian,毕竟是09年的paper,所以技术并不是很新,所以放在现在可以借鉴和改进的地方很有很多。

应用技术:

Markov chain和navie Bayesian classification

检测的是IBM的集群中的数据

模型框架:

Online Anomaly Prediction for Robust Cluster System_第1张图片

从图中可以很直观的看出整个模型的框架:

1、将当前的特征点(多维)映射到坐标中,通过Markov Chain可以得到这个样本点中每个特征的概率分布,从而得到一个分布的region。其中,由于每个样本点可能有多个特征,而每个特征的范围可能是连续的,而Markov的状态空间则是要求有限的状态空间,所以文中使用了一个equ-depth的方式来划分这个范围,从而将连续的数据转换为离散的。

2、通过Markov Chain得到每个样本点的特征的概率分布,通过下面的公式对特征的概率分布进行Bayesian计算。

然后比较在anmoly和nomaly之间哪个confidence更高。

算法的流程如下:

Online Anomaly Prediction for Robust Cluster System_第2张图片

首先是对bayesian模型的训练。

通过对labeled的数据进行navi bayesian的训练,可以计算得到每个特征点中的各个metric对分类结果(anomaly、normaly)的概率。

Online Anomaly Prediction for Robust Cluster System_第3张图片

后面的实验部分通过了三个指标进行了验证:

detection rate(检测率)

false alarm rate(错误警报率)

distance statistics(警报时隔)


下图就是对future data和current data的detection。

Ntp是在指定的时间周期中出现正确的警报的数量。

Nfp是在指定的时间周期中出现错误的警报的数量。


time prediction diff的意思是异常出现和发出警报的时间差。


Online Anomaly Prediction for Robust Cluster System_第4张图片

Online Anomaly Prediction for Robust Cluster System_第5张图片

总结:

1、文中的一个创新之处是在通过Bayesian对future data分类的时候,没有是对data进行分类,而是对data中的特征分布进行分类的,这样更能发现一些潜在的特征。

2、由于发表的时间较早,所以放在现在来看的话,可以用一些更先进的方法例如DL和Mate Learning等技术来对内部进行一些改进。

你可能感兴趣的:(quantitative,trading)