机器学习第九周(三)--多元高斯分布

  • 多元高斯分布
    • 多元高斯引入
    • 多元高斯图像
  • 多元高斯分布解决异常检测
    • 多元高斯分布定义
    • 多元高斯分布检测异常
    • 多元高斯模型和原始模型关系
    • 原始模型和多元高斯模型的选择

多元高斯分布

以一个例子引入:
机器学习第九周(三)--多元高斯分布_第1张图片
把这俩个特征单独拿出来都是符合高斯分布的,现有一个绿色的异常点,我们很难从x1和x2这俩个维度下去判别是否是异常点。
因为从左图看,正常数据是分布在椭圆范围内,我们使用的异常检测算法是从中心区域向外以正圆的形式扩展的,当我们碰到左上角的绿色点时,很有可能就处于正常数据等同的同心圆内,所以就不能判定异常。

所以我们需要改良版的异常检测算法—-多元高斯分布

多元高斯引入

机器学习第九周(三)--多元高斯分布_第2张图片
在多元高斯分布中,不要把模型  p(x1)  ,  p(x2)  ,…,  p(xn)  分开,而要建立  p(x)  整体的模型。
多元高斯分布的参数包括向量 μ  和矩阵   。具体公式如上图。
我们关键在于弄清综合后的模型  p(x) 


多元高斯图像

下面给出一些多元高斯模型的图像,有助理解。
机器学习第九周(三)--多元高斯分布_第3张图片
机器学习第九周(三)--多元高斯分布_第4张图片
机器学习第九周(三)--多元高斯分布_第5张图片

矩阵   中元素对应x1和x2,矩阵   的改变就是x1和x2的改变。

还可以通过改变非对角线元素进行建模,得到不同的高斯分布。
机器学习第九周(三)--多元高斯分布_第6张图片
机器学习第九周(三)--多元高斯分布_第7张图片

当对角线元素设为负数时,图像的方向会发生变化。

同理,改变 μ  也就是移动分布中心。
机器学习第九周(三)--多元高斯分布_第8张图片


多元高斯分布解决异常检测

多元高斯分布定义

机器学习第九周(三)--多元高斯分布_第9张图片
改变俩个参数 μ    ,会得到不同的高斯分布,这俩个参数的计算如上图所示。


多元高斯分布检测异常

1、首先用训练集拟合模型  p(x) 
2、对于新数据,计算  p(x) 
3、判定是否  p(x)  < ϵ 

机器学习第九周(三)--多元高斯分布_第10张图片


多元高斯模型和原始模型关系

机器学习第九周(三)--多元高斯分布_第11张图片
原始模型是多个分模型相乘在一起的。原始模型可看作是高斯模型的一个特例。在协方差矩阵   的非对角线元素都为0的情况下,这两者是相同的。


原始模型和多元高斯模型的选择

机器学习第九周(三)--多元高斯分布_第12张图片

原始模型 多元高斯模型
手动选择新特征 自动捕捉不同变量之间的相关性
计算代价更小 计算更加复杂
m很小时也能work 必须满足m>n,且   必须是不可逆的,即m要远大于n,至少满足m>10n


注意:   是奇异矩阵可能的原因

1、 m>n这个关系没有满足。
2、有冗余特征,比如出现有x1=x2,或者x3=x4+x5,这些都是冗余特征,因为x1和x3并没有包含额外的信息。

你可能感兴趣的:(机器学习,机器学习笔记)