吴恩达机器学习----异常检测

吴恩达机器学习教程学习笔记 (13/16)

吴恩达教授(Andrew Ng)的机器学习可以说是一门非常重视ML理论基础的课程,做做一些简单的笔记加上个人的理解。本笔记根据吴恩达的课程顺序,以每章内容作为节点进行记录。(共18章,其中第3章“线性代数回顾”与第5章“Octava教程”的笔记就不总结了)

第十五章 异常检测(Anomaly Detection)

异常检测问题,是机器学习算法的一个常见应用。这种算法的一个有趣之处在于:它虽然主要用于非监督学习问题,但从某些角度看,它又类似于一些监督学习问题。
例子
假想你是一个飞机引擎制造商,当你生产的飞机引擎从生产线上流出时,你需要进行QA(质量控制测试),而作为这个测试的一部分,你测量了飞机引擎的一些特征变量,比如引擎运转时产生的热量,或者引擎的振动等等。
吴恩达机器学习----异常检测_第1张图片
这样一来,你就有了一个数据集,从x((1))到x((m)),如果你生产了m个引擎的话,你将这些数据绘制成图表,看起来就是这个样子:
吴恩达机器学习----异常检测_第2张图片
这里的每个点、每个叉,都是你的无标签数据。这样,异常检测问题可以定义如下:我们假设后来有一天,你有一个新的飞机引擎从生产线上流出,而你的新飞机引擎有特征变量x_test。所谓的异常检测问题就是:我们希望知道这个新的飞机引擎是否有某种异常,或者说,我们希望判断这个引擎是否需要进一步测试。因为,如果它看起来像一个正常的引擎,那么我们可以直接将它运送到客户那里,而不需要进一步的测试。
给定数据集 x(1),x(2),…,x(m),我们假使数据集是正常的,我们希望知道新的数据 xtest 是不是异常的,即这个测试数据不属于该组数据的几率如何。我们所构建的模型应该能根据该测试数据的位置告诉我们其属于一组数据的可能性 p(x)。
吴恩达机器学习----异常检测_第3张图片
上图中,在蓝色圈内的数据属于该组数据的可能性较高,而越是偏远的数据,其属于该组数据的可能性就越低。
这种方法称为密度估计,表达如下:
if p(x)>ε:anomaly
else:normal
欺诈检测:x(i)=用户的第 i个活动特征
模型p(x) 为我们其属于一组数据的可能性,通过p(x)<ε检测非正常用户。
异常检测主要用来识别欺骗。例如在线采集而来的有关用户的数据,一个特征向量中可能会包含如:用户多久登录一次,访问过的页面,在论坛发布的帖子数量,甚至是打字速度等。尝试根据这些特征构建一个模型,可以用这个模型来识别那些不符合该模式的用户。

1、算法

我将应用高斯分布开发异常检测算法。
异常检测算法:
对于给定的数据集 x(1),x(2),…,x(m),我们要针对每一个特征计算 μ 和 σ2 的估计值。 μ j = 1 / m ∑ i = 1 m x j ( i ) μ_j=1/m ∑_{i=1}^mx_j^{(i)} μj=1/mi=1mxj(i) σ j 2 = 1 / m ∑ i = 1 m ( x j ( i ) − μ j ) 2 σ_j^2=1/m ∑_{i=1}^m( x_j^{(i)}-μ_j )^2 σj2=1/mi=1m(xj(i)μj)2一旦我们获得了平均值和方差的估计值,给定新的一个训练实例,根据模型计算 p(x):在这里插入图片描述
当p(x)<ε时,为异常。
下图是一个由两个特征的训练集,以及特征的分布情况:
吴恩达机器学习----异常检测_第4张图片
下面的三维图表表示的是密度估计函数,z轴为根据两个特征的值所估计p(x)值:
吴恩达机器学习----异常检测_第5张图片
我们选择一个ε,将p(x)=ε作为我们的判定边界,当p(x)>ε时预测数据为正常数据,否则为异常。

2、异常检测与监督学习对比

两者比较:

异常检测 监督学习
非常少量的正向类(异常数据 y=1), 大量的负向类(y=0) 同时有大量的正向类和负向类
许多不同种类的异常,非常难。根据非常 少量的正向类数据来训练算法 有足够多的正向类实例,足够用于训练 算法,未来遇到的正向类实例可能与训练集中的非常近似
未来遇到的异常可能与已掌握的异常、非常的不同
例如: 欺诈行为检测 生产(例如飞机引擎)检测数据中心的计算机运行状况 例如:邮件过滤器 天气预报 肿瘤分类

3、选择特征

对于异常检测算法,我们使用的特征是至关重要的,下面谈谈如何选择特征:
异常检测假设特征符合高斯分布,如果数据的分布不是高斯分布,异常检测算法也能够工作,但是最好还是将数据转换成高斯分布,例如使用对数函数:x=log(x+c),其中 c 为非负常数; 或者 x=xc,c为 0-1 之间的一个分数,等方法。
注:在python中,通常用np.log1p()函数,log1p就是 log(x+1),可以避免出现负数结果,反向函数就是np.expm1()
吴恩达机器学习----异常检测_第6张图片
误差分析:
一个常见的问题是一些异常的数据可能也会有较高的p(x)值,因而被算法认为是正常的。这种情况下误差分析能够帮助我们,我们可以分析那些被算法错误预测为正常的数据,观察能否找出一些问题。我们可能能从问题中发现我们需要增加一些新的特征,增加这些新特征后获得的新算法能够帮助我们更好地进行异常检测。
异常检测误差分析:
吴恩达机器学习----异常检测_第7张图片
我们通常可以通过将一些相关的特征进行组合,来获得一些新的更好的特征(异常数据的该特征值异常地大或小),例如,在检测数据中心的计算机状况的例子中,我们可以用CPU负载与网络通信量的比例作为一个新的特征,如果该值异常地大,便有可能意味着该服务器是陷入了一些问题中。

感谢黄海广博士团队的翻译和笔记
END

你可能感兴趣的:(吴恩达机器学习笔记,吴恩达,异常检测)