异常检测(Anomaly Detection)

问题的动机

什么是异常检测呢?为了解释这个概念,让我举一个例子吧:
假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行 QA (质量控制测试),而作为这个测试的一部分,你测量了飞机擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。

异常检测(Anomaly Detection)_第1张图片

这样一来,你就有了一个数据集,从 x(1)到 x(m),如果你生产了 m 个引擎的话,你将这些数据绘制成图表,看起来就是这个样子:
异常检测(Anomaly Detection)_第2张图片
这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量xtest。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。给定数据集 x(1),x(2),…,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。

异常检测(Anomaly Detection)_第3张图片

    上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。这种方法称为密度估计,表达如下:

表达式

   欺诈检测: X(i) = 用户的第 i 个活动特征模型 p(x) =我们其属于一组数据的可能性通过 p(x)<ε 检测非正常用户。异常检测主要用来识别欺骗。如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速等尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模的式用户。再一个例子是检测一个数据中心,特征可能包含:内存使用况被访问的磁盘数量,CPU 的负载,网络的通信量等。根据这些特征可以构建个模型,用来判断某些计算机是不是有可能出错了。

高斯分布

高斯分布,也称为正态分布。回顾高斯分布的基本知识。
通常如果我们认为变量 x 符合高斯分布 x~N(μ,σ2)则其概率密度函数为:
在正态分布函数

我们可以利用已有的数据来预测总体中的 μ 和 σ2 的计算方法如下:

计算

高斯分布样例:
异常检测(Anomaly Detection)_第4张图片
注:机器学习中对于方差我们通常只除以 m 而非统计学中的(m-1)。这里顺便提一下,在实际使用中,到底是选择使用 1/m 还是 1/(m-1)其实别很小,只要你有一个还算大的训练集,在机器学习领域大部分人更习惯使用 1/m 这个版本的公式。这两个版本的公式在理论特性和数学特性上有不同,但是在实际使用中,他们的区别甚小,几乎可以忽略不计。

算法(Algorithm)

应用高斯分布开发异常检测算法。
异常检测算法:对于给定的数据集 (1),x(2),…,x(m) ,我们要针对每一个特征计算 μ 和 σ2 的估计值。
异常检测(Anomaly Detection)_第5张图片

一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):
p(x)值

当 p(x)<ε 时,为异常。下图是一个由两个特征的训练集,以及特征的分布情况:
异常检测(Anomaly Detection)_第6张图片

下面的三维图表表示的是密度估计函数,z 轴为根据两个特征的值所估p(x)值:
异常检测(Anomaly Detection)_第7张图片

    我们选择一个 ε,将 p(x)=ε 作为我们的判定边界,当 p(x)>ε 时预测数为正常数据,机器学习课程-第 9 周-十五、异常检测(Anomaly Detection)否则则为异常。

开发和评价一个异常检测系统

异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 y 的值来告诉我们数据是否真的是异常的。我们需要另一种方法来帮助检验算法是否有效。当我们开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,我们从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。
例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:
6000 台正常引擎的数据作为训练集
2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集
2000 台正常引擎和 10 台异常引擎的数据作为测试集
具体的评价方法如下:

  1. 根据测试集数据,我们估计特征的平均值和方差并构建 p(x)函数
  2. 对交叉检验集,我们尝试使用不同的 ε 值作为阀值,并预测数据是否异常,根据 F1值或者查准率与查全率的比例来选择 ε
  3. 选出 ε 后,针对测试集进行预测,计算异常检验系统的 F1 值,或者查准率与查全率之比

异常检测与监督学习对比

之前我们构建的异常检测系统也使用了带标记的数据,与监督学习有些相似,下面的对比有助于选择采用监督学习还是异常检测:
两者比较:
异常检测(Anomaly Detection)_第8张图片
希望这节课能让你明白一个学习问题的什么样的特征,能让你把这个问题当做是一个异常检测,或者是一个监督学习的问题。另外,对于很多技术公司可能会遇到的一些问题,通常来说,正样本的数量很少,甚至有时候是 0,也就是说,出现了太多没见过的不同的异常类型,那么对于这些问题,通常应该使用的算法就是异常检测算法。

你可能感兴趣的:(异常检测(Anomaly Detection))