机器学习-吴恩达-笔记-11-异常检测

目录

问题的动机

高斯分布

算法

开发和评价一个异常检测系统

异常检测与监督学习对比

选择特征

多元高斯分布

使用多元高斯分布进行异常检测


【此为本人学习吴恩达的机器学习课程的笔记记录,有错误请指出!】

问题的动机


异常检测(Anomaly detection)问题是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。

例子: 判断飞机引擎是否有某种异常,引擎特征有热量、振动等。

如图:

机器学习-吴恩达-笔记-11-异常检测_第1张图片

上图中,在蓝色圈内的数据属于该组数据的可能性 () 较高,而越是偏远的数据,其属于该组数据的可能性 () 就越低。

这种方法称为密度估计,表达如下:

 

高斯分布


高斯分布,也称为正态分布。

通常如果我们认为变量 符合高斯分布 ∼ (, 2) 则其概率密度函数为:

可以先利用已有的数据来预测总体中的 和 2 ,计算方法如下:

 

高斯分布样例:

机器学习-吴恩达-笔记-11-异常检测_第2张图片

注意:机器学习中对于方差通常只除以而非统计学中的( - 1)。在实际使用中,到底是选择使用1/还是1/( - 1)其实区别很小,只要你有一个较大的训练集,在机器学习领域大部分人更习惯使用1/这个版本的公式。

 

算法


应用高斯分布开发异常检测算法。

异常检测算法:

对于给定的数据集 (1), (2), . . . , (),要针对每一个特征计算 和 2 的估计值:

机器学习-吴恩达-笔记-11-异常检测_第3张图片

一旦获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 ():

()是联合概率,当 () < 时,为异常。

下图是一个由两个特征的训练集,以及特征的分布情况:

机器学习-吴恩达-笔记-11-异常检测_第4张图片

下面的三维图表表示的是密度估计函数, 轴为根据两个特征的值所估计()值:

机器学习-吴恩达-笔记-11-异常检测_第5张图片

我们选择一个,将 () = 作为我们的判定边界,当() > 时预测数据为正常数据,否则为异常。

 

开发和评价一个异常检测系统


异常检测算法是一个非监督学习算法,意味着我们无法根据结果变量 的值来告诉我们数据是否真的是异常的,所以需要另一种方法来帮助检验算法是否有效。

当开发一个异常检测系统时,我们从带标记(异常或正常)的数据着手,从其中选择一部分正常数据用于构建训练集,然后用剩下的正常数据和异常数据混合的数据构成交叉检验集和测试集。

例如:我们有 10000 台正常引擎的数据,有 20 台异常引擎的数据。 我们这样分配数据:

6000 台正常引擎的数据作为训练集

2000 台正常引擎和 10 台异常引擎的数据作为交叉检验集

2000 台正常引擎和 10 台异常引擎的数据作为测试集

 

具体的评价方法如下:

1. 根据训练集数据,估计特征的平均值和方差并构建 () 函数

2. 对交叉检验集,尝试使用不同的值作为阀值,并预测数据是否异常,根据 F1 值或者查准率与查全率的比例来选择

3. 选出 后,针对测试集进行预测,计算异常检验系统的1值,或者查准率与查全率之比

 

异常检测与监督学习对比


之前构建的异常检测系统使用了带标记的数据,与监督学习有些相似,下面的对比有助于选择采用监督学习还是异常检测:

两者比较:

异常检测

监督学习

非常少量的正向类(异常数据 = 1) , 大

量的负向类( = 0)

同时有大量的正向类和负向类

许多不同种类的异常,非常难。根据非常少

量的正向类数据来训练算法。

有足够多的正向类实例,足够用于训练算

法。

未来遇到的异常可能与已掌握的异常、非常

的不同。

未来遇到的正向类实例可能与训练集中

的非常近似。

例如: 欺诈行为检测、生产(例如飞机引擎)

检测、数据中心的计算机运行状况检测

例如:邮件过滤器、天气预报、肿瘤分类

 

选择特征


对于异常检测算法,使用的特征是至关重要的,下面谈谈如何选择特征。

异常检测假设特征是符合高斯分布的,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布。

例如使用对数函数: = ( + ),其中 为非负常数;  或者 = , 为 0-1 之间的一个分数,等方法。

(编者注:在 python 中,通常用 np.log1p()函数, 1就是 ( + 1),可以避免出现负数结果,反向函数就是np.expm1())

把特征的分布转为高斯分布:

机器学习-吴恩达-笔记-11-异常检测_第6张图片

误差分析:

一个常见的问题是一些异常的数据可能也会有较高的 () 值,因而被算法认为是正常的。这种情况下我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。如可以增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。

异常检测误差分析(如增加新特征 2):

机器学习-吴恩达-笔记-11-异常检测_第7张图片

我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用 CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。

 

多元高斯分布


假设我们有两个相关的特征,而且这两个特征的值域范围比较宽,这种情况下,一般的高斯分布模型可能不能很好地识别异常数据。其原因在于,一般的高斯分布模型尝试的是去同时抓住两个特征的偏差,因此创造出一个比较大的判定边界。

下图中是两个相关特征, 洋红色的线( 根据 ε 的不同其范围可大可小) 是一般的高斯分布模型获得的判定边界,很明显绿色的 X 所代表的数据点很可能是异常值,但是其 () 值却仍然在正常范围内。多元高斯分布将创建像图中蓝色曲线所示的判定边界。

机器学习-吴恩达-笔记-11-异常检测_第8张图片

在一般的高斯分布模型中,我们计算 () 的方法是: 通过分别计算每个特征对应的几率,然后将其累乘起来。

在多元高斯分布模型中,我们将构建特征的协方差矩阵,用所有的特征一起来计算 ()。

首先计算所有特征的平均值,然后再计算协方差矩阵:

机器学习-吴恩达-笔记-11-异常检测_第9张图片

注:其中 是一个向量,其每一个单元都是原特征矩阵中一行数据的均值。

最后计算多元高斯分布的 ():

其中:

||是定矩阵,在 Octave 中用 det(sigma)计算

1 是逆矩阵,下面我们来看看协方差矩阵是如何影响模型的:

机器学习-吴恩达-笔记-11-异常检测_第10张图片

上图是 5 个不同的模型,从左往右依次分析:

1. 是一个一般的高斯分布模型

2. 通过协方差矩阵,令特征 1 拥有较小的偏差,同时保持特征 2 的偏差

3. 通过协方差矩阵,令特征 2 拥有较大的偏差,同时保持特征 1 的偏差

4. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的正相关性

5. 通过协方差矩阵,在不改变两个特征的原有偏差的基础上,增加两者之间的负相关性

 

多元高斯分布模型与原高斯分布模型的关系:

可以证明的是,原本的高斯分布模型是多元高斯分布模型的一个子集,即像上图中的第1、 2、 3例子所示。如果协方差矩阵只在对角线的单位上有非零的值时,即为原本的高斯分布模型。

原高斯分布模型和多元高斯分布模型的比较:

原高斯分布模型

多元高斯分布模型

不能捕捉特征之间的相关性,但可以通过将

特征进行组合的方法来解决

自动捕捉特征之间的相关性

计算代价低,能适应大规模的特征

计算代价较高,训练集较小时比较适用

 

必须要有 > ,不然的话协方差矩阵不

可逆的,通常需要 > 10,另外特征冗余

也会导致协方差矩阵不可逆

使用建议:

原高斯分布模型被广泛使用着,如果特征之间在某种程度上存在相互关联的情况,可以通过构造新新特征的方法来捕捉这些相关性。

如果训练集不是太大,并且没有太多的特征,可以使用多元高斯分布模型。

 

使用多元高斯分布进行异常检测


如开发一个异常检测算法:

机器学习-吴恩达-笔记-11-异常检测_第11张图片

首先,根据训练集计算出模型的参数 和 ,最后计算出新数据的 ()。

原始高斯模型与多元高斯模型的关系如图:

机器学习-吴恩达-笔记-11-异常检测_第12张图片

原始模型和多元高斯分布比较如图:

机器学习-吴恩达-笔记-11-异常检测_第13张图片

 

你可能感兴趣的:(机器学习,机器学习)