时间序列异常检测算法S-H-ESD

1. 基于统计的异常检测

1.1 Grubbs' Test

Grubbs' Test为一种假设检验的方法,常被用来检验服从正太分布的单变量数据集(univariate data set)YY 中的单个异常值。若有异常值,则其必为数据集中的最大值或最小值。原假设与备择假设如下:

  • H0:数据集中没有异常值
  • H1: 数据集中有一个异常值

Grubbs' Test检验假设的所用到的检验统计量(test statistic)为

其中,Y¯为均值,s为标准差。原假设H0被拒绝,当检验统计量满足以下条件

其中,N为数据集的样本数,tα/(2N),N−2为显著度(significance level)等于α/(2N)、自由度(degrees of freedom)等于N−2的t分布临界值。实际上,Grubbs' Test可理解为检验最大值、最小值偏离均值的程度是否为异常。

1.2 ESD

在现实数据集中,异常值往往是多个而非单个。为了将Grubbs' Test扩展到kk个异常值检测,则需要在数据集中逐步删除与均值偏离最大的值(为最大值或最小值),同步更新对应的t分布临界值,检验原假设是否成立。基于此,Rosner提出了Grubbs' Test的泛化版ESD(Extreme Studentized Deviate test)。算法流程如下:

  • 计算与均值偏离最远的残差,注意计算均值时的数据序列应是删除上一轮最大残差样本数据后;

  • 计算临界值(critical value);

 

  • 检验原假设,比较检验统计量与临界值;若Ri>λj,则原假设H0不成立,该样本点为异常点;

  • 重复以上步骤k次至算法结束。

2. 时间序列的异常检测

鉴于时间序列数据具有周期性(seasonal)、趋势性(trend),异常检测时不能作为孤立的样本点处理;故而Twitter的工程师提出了S- ESD (Seasonal ESD)与S-H-ESD (Seasonal Hybrid ESD)算法,将ESD扩展到时间序列数据。

2.1 S-ESD

STL将时间序列数据分解为趋势分量、周期分量和余项分量。想当然的解法——将ESD运用于STL分解后的余项分量中,即可得到时间序列上的异常点。但是,我们会发现在余项分量中存在着部分假异常点(spurious anomalies)。如下图所示:

时间序列异常检测算法S-H-ESD_第1张图片

在红色矩形方框中,向下突起点被误报为异常点。为了解决这种假阳性降低准确率的问题,S-ESD算法用中位数(median)替换掉趋势分量;余项计算公式如下:

其中,X为原时间序列数据,SX为STL分解后的周期分量,X~为X的中位数。

2.2 S-H-ESD

由于个别异常值会极大地拉伸均值和方差,从而导致S-ESD未能很好地捕获到部分异常点,召回率偏低。为了解决这个问题,S-H-ESD采用了更具鲁棒性的中位数与绝对中位差(Median Absolute Deviation, MAD)替换公式((1)中的均值与标准差。MAD的计算公式如下:

 

S-H-ESD的Python实现有pyculiarity,时间序列异常检测数据集有Yahoo公开的A Labeled Anomaly Detection Dataset。

3. 参考资料

[1] Hochenbaum, Jordan, Owen S. Vallis, and Arun Kejariwal. "Automatic Anomaly Detection in the Cloud Via Statistical Learning." arXiv preprint arXiv:1704.07706 (2017).
http://www.cnblogs.com/en-heng/  作者:Treant

 

你可能感兴趣的:(网络安全,机器学习,异常检测,S-H-ESD,时间序列,异常检测)