吴恩达《机器学习》笔记——第十五章《异常检测》

15、Anomaly detection(异常检测)

  • 15.2 Gaussian distribution(高斯分布)
  • 15.3 Algorithm(算法)
  • 15.4 Developing and evaluating an anomaly detection system(开发和评估异常检测系统)
  • 15.5 Anomaly detection vs. supervised learning(异常检测 vs. 监督学习)
  • 15.8 Anomaly detection using the multivariate Gaussian distribution(使用多变量高斯分布的异常检测)

“异常检测”是指给了一堆无标签的数据集,找出其中有问题的数据,是一种“无监督学习”。

15.2 Gaussian distribution(高斯分布)

高斯分布也被称为正态分布:
吴恩达《机器学习》笔记——第十五章《异常检测》_第1张图片
吴恩达《机器学习》笔记——第十五章《异常检测》_第2张图片

15.3 Algorithm(算法)

本节讲了如何利用高斯分布进行异常检测。算法如下:
吴恩达《机器学习》笔记——第十五章《异常检测》_第3张图片
注:当特征相互独立(概率论中的知识)时,才对每个特征单独地构建高斯分布模型。

15.4 Developing and evaluating an anomaly detection system(开发和评估异常检测系统)

这一节讲的是如何评估一个异常检测算法。数据集是带有标签的
吴恩达《机器学习》笔记——第十五章《异常检测》_第4张图片
假设训练集都是不带标签的正常样本,验证集和测试集是带标签的样本并且含有异常样本。评估方法如下:
吴恩达《机器学习》笔记——第十五章《异常检测》_第5张图片
先训练一个模型;然后在验证集/测试集上去测试;用一些度量去评估。 ϵ \epsilon ϵ可以选择最大化验证集的F1值。

15.5 Anomaly detection vs. supervised learning(异常检测 vs. 监督学习)

在有标签的情况下,为什么还会选择异常检测(无监督学习)算法?下面讨论了使用异常检测和监督学习的情况:对于异常检测,1,特征太多;2,异常样本相比于正常样本太少;3,未来的异常样本可能和现有的异常样本无关。对于监督学习,1,异常样本足够多;2,未来的异常样本和现有的异常样本相似。

15.8 Anomaly detection using the multivariate Gaussian distribution(使用多变量高斯分布的异常检测)

多变量高斯分布的均值和协方差,怎么计算
吴恩达《机器学习》笔记——第十五章《异常检测》_第6张图片
原始模型(就是上面相互独立时构造的模型)vs. 多变量高斯分布模型:
吴恩达《机器学习》笔记——第十五章《异常检测》_第7张图片
注:由于多变量高斯分布中出现了协方差矩阵的逆,所以,要注意不可逆的情况:m

你可能感兴趣的:(机器学习,机器学习,人工智能,python)