基于统计学方法的异常检测

一、概述
在异常值检测中,统计建模的一种流行形式是检测极端单变量值。在这种情况下,需要确定单变量分布尾部的数据值,以及相应的统计显著水平。这似乎是一种相当有限制的情况,因为大多数多维异常值并不对应于数据值的极端值。相反,异常值通常由数据值之间的相对位置定义。虽然极端单变量值对应的是一种非常特殊的离群值,但除了单变量情况外,它们还有许多应用。这是因为几乎所有的离群点检测算法都执行某种数值评分,以测量数据点的异常程度。
二、极值分析的统计方法
极值分析的统计方法量化了分布尾部的概率。尾部的概率值很低,表明它内部的数据值应该被认为是异常的,许多尾部不等式限制了这些概率
2.1 概率尾部不等式

  • 马尔科夫不等式
    基于统计学方法的异常检测_第1张图片
  • 切比雪夫不等式
    基于统计学方法的异常检测_第2张图片
    Markov和Chebychev不等式是相对弱的不等式,并且经常没有提供足够紧密的边界在许多情况下有用。这是因为这些不等式不假设任何特定形状的概率分布。然而,许多实际场景可以使用特定形式形式的随机变量来捕获。在这种情况下,尾部分布可能更有严格的界限。一个特殊的情况是一个随机变量X可以表示为其他独立有界随机变量的和。
    2.2 不同种类的界限
  • Lower Tail Chernoff Bound
    基于统计学方法的异常检测_第3张图片
  • Upper Tail Chernoff Bound
    基于统计学方法的异常检测_第4张图片
  • Hoeffding Inequality
    基于统计学方法的异常检测_第5张图片
    2.2 统计尾部置信检验
    最基本的统计检验假定基础数据值呈正态分布,正态分布在许多实际领域的测量中是非常常见的。
  • t值检验
    t分布被表示为几个独立的同分布的标准正态分布的函数。它只有一个参数v,这个参数对应于自由度的数。这调节了这种正态分布的数量,也就是他的表达方式,
    基于统计学方法的异常检测_第6张图片
    对于较小的值,这个分布有较重的尾部,可以用来提供相应的尾部概率。
    基于统计学方法的异常检测_第7张图片
    从上图中可以看出自由度更小的t分布尾部更重。
    2.2 多元数据中的极值分析
  • 基于深度的方法
    凸包分析用于寻找异常值。具体想法是,数据外边界的点位于凸包的角上。这样的点更有可能是离群值,基于深度的算法以迭代的方式进行。在第k次迭代中,将数据集凸包角上的所有点从数据集中移除。这些点的深度为k,重复这些步骤,直到数据集为空,所有深度为r的点都作为异常值报告。
    这种方法的计算复杂度随维数的增加呈指数增长,这是因为d维空间中的凸包至少包含2^d个点,因此,这种方法不仅在计算上不切实际,而且在高维情况下越来越无效。
  • 基于角度的方法
    基本思想:数据边界上的数据很可能将整个数据包围在一个较小的角度内,而内部的数据点则可能以不同的角度围绕着他们。如果数据点与其余点离的较远,则潜在角度可能越小。因此,具有较小角度谱的数据点是异常值,而具有较大角度谱的数据点不是异常值。
  • 异常值分析的概率混合建模
    前边讨论了异常值建模的极值分析问题,然而,在实际应用中,大多数离群值是根据其在多维空间中的相对值来定义的,而不是简单的位于数据的外部边界。在这种情况下,关键思想是使用概率混合建模的数据点,对于每个数据点,我们可以估计模型的生成概率(或拟合概率)。首先,我们假定生成模型的一种特定形式。然后利用EM算法对模型的参数进行估计。有一个最大似然拟合的生成模型。给出这个模型,然后我们估计潜在数据点的生成概率。适合分布的数据点将有高的拟合概率,而异常值将有非常低的拟合概率。
    2.3 概率建模的局限性
    参数方法很容易受到底层数据中的噪声和过度拟合的影响。混合模型总是假设一个特定的数据分布,然后试图了解这个分布的参数。在这个分布的一般性和需要学习的参数的数量之间存在一个自然的权衡。如果这种权衡没有仔细校正那么可能会出现以下两种情况
  • 当模型的特定假设限制性太强时,数据不太可能很好的拟合模型,因此,许多虚假的异常值可能会被报告为离群值。
  • 当模型过于一般化时,用来描述模型的参数数量就会增加,这可能会过拟合数据,并错过真正的异常值,

参考文献

【1】《Outlier Analysis》——Charu C. Aggarwal

你可能感兴趣的:(异常检测,统计学)