异常检测 Tips

https://www.coursera.org/learn/machine-learning/home/week/9

异常检测?

异常检测 Tips_第1张图片

算法过程

异常检测 Tips_第2张图片

拟合P(x)的例子(假设每个样本独立)

如果有两个特征,均值方差为, μ=(5,3),\sigema=(2,1) 每个特征的正太密度曲线为
异常检测 Tips_第3张图片

将两个特征的密度函数相乘得到:

异常检测 Tips_第4张图片

用这个分布函数可以计算出每个点的概率:
异常检测 Tips_第5张图片

建立一个异常检测系统

注意:偏斜数据集要计算查准率和召回率验证精确度!.

有监督和无监督的异常检测使用场景

使用无监督方法的情况

  1. 异常样本非常少的时候
  2. 有许多不同的异常种类,预测出的异常也可能是新的异常

tip :对于垃圾邮件问题一般用有监督 因为样本足够多,异常情况被包含

#特征变量的变换
首先要非高斯变量转换成高斯,例如取对数,开方等

异常检测 Tips_第6张图片

#特征变量的选择
交叉验证,注意变量间会有共线性,根据背景创建新变量

异常检测 Tips_第7张图片

#多元高斯分布
在前面的你和Px的例子中是在每个特征独立的假设下计算的,这种情况下计算出的p是一个“球”,但是如果有变量相关(椭球)会对异常检测造成误差。 

异常检测 Tips_第8张图片

这时就需要拟合一个多元高斯分布

利用高斯分布来进行异常检测

高斯分布:
这里写图片描述

参数:
异常检测 Tips_第9张图片

进行异常检测的步骤
1. 计算均值和协方差矩阵
异常检测 Tips_第10张图片

  1. 给出一个样本计算下式:
    异常检测 Tips_第11张图片

独立特征的高斯模型与混合高斯模型的比较

  1. 前者适用于大数据集因为不用算协方差矩阵.
  2. 后者样本数必须大于特征 m大于n(可逆),一般m远大于n的情况下使用

异常检测 Tips_第12张图片

你可能感兴趣的:(机器学习)