吴恩达机器学习打卡day9

本系列文档按课程视频的章节(P+第几集)进行分类,记录了学习时的一些知识点,方便自己复习。

课程视频P83—主成分分析构思PCA(Principal Component Analysis Problem Formulation)

线性回归和PCA的最优模型都是最小化某个值,只是线性回归最小化预测值和真实值之间的误差,而PCA最小化投影误差。
PCA三维和PCA二维原理相同,都是最小化投影误差。

吴恩达机器学习打卡day9_第1张图片

图1

吴恩达机器学习打卡day9_第2张图片

图2

课程视频P84

svd产生的U是由特征向量组成的,按照特征值大小排列的,即大的特征值对应的特征向量在前面,小的特征值对应的特征向量在后面。特征值越大,说明此特征越重要,因此在下一步中可以取前K列特征(使得k固定的情况下,丢失最少的特征)。
吴恩达机器学习打卡day9_第3张图片

图3

吴恩达机器学习打卡day9_第4张图片

图4

吴恩达机器学习打卡day9_第5张图片

图5

课程视频P86

压缩后的数据是可以重现回原始数据了,会有一点误差,但误差很小。
吴恩达机器学习打卡day9_第6张图片

图6

课程视频P87

PCA仅能在训练集中的数据上运行,不能用在交叉验证集和测试集数据。
吴恩达机器学习打卡day9_第7张图片

图7

PCA优点是可以压缩数据和加快算法运行,并用在二维和三维的可视化上。
虽然PCA可以压缩数据,并保留数据中99%的方差(理解为几乎保留了数据的全部有效信息),但是PCA不能用于防止过拟合,目前我们防止过拟合只能使用正则化。

吴恩达机器学习打卡day9_第8张图片

图8

吴恩达机器学习打卡day9_第9张图片

图9

一句话,PCA是有损模型精度的,能不用就不用。
吴恩达机器学习打卡day9_第10张图片

图10

课程视频P88

在使用这些数据训练的过程中,我们假设这些数据是正常的。我们可以把异常检测应用在网站欺诈预测上,比如可以根据用户平时的打字速度,登录地点,登录时间,下单次数等预测是否用户登录情况异常等,也可以用于工业界或者根据CPU利用率,Memory情况等预测电脑是否中毒。
吴恩达机器学习打卡day9_第11张图片

图11

课程视频P89—高斯分布(Gaussian Distribution)

吴恩达机器学习打卡day9_第12张图片

图12

根据样本分布的稠密程度,我们大概可以画出其对应的高斯曲线,再根据曲线的大致形状,能够进行参数预测,图中标出了μ和σ的大小。。
吴恩达机器学习打卡day9_第13张图片

图13

课程视频P90—算法

** 我们先根据训练样本训练出模型,根据μ和σ以及p(x)的公式对测试样本做出预测,比较预测结果和ε的大小关系,确实是否异常。(上图中关于x1的正态分布是根据样本在x1坐标上的分布得到的,关于x2的正态分布是根据样本在x2坐标上的分布得到的)
**
吴恩达机器学习打卡day9_第14张图片

图14

吴恩达机器学习打卡day9_第15张图片

图15

课程视频P90—开发和评估异常检测系统

吴恩达机器学习打卡day9_第16张图片

图16

课程视频P91—异常检测 VS 监督学习

**异常检测:
正样本的数量比较少,负样本的数量有很多。只要有足够的负样本,便可以很好地拟合数据。
我们很难从数目较多的正样本中学习出模型来预测未知的样本,因为未知的样本异常的原因可能多种多样,而且可能是之前没有见过的类型。(以飞机引擎为例,异常可能有很多种原因,可能是一个零件的损坏,也可能是全部零件的损坏)

监督学习:
正样本和负样本的数目都很多。
有足够数目的正样本用来训练模型,而且未来需要预测的样本和模型中训练样本较为相似,这种情况需要使用监督学习算法。(可能我们会觉得垃圾邮件的例子也很很多分类,那为什么不适用异常检测而使用监督学习呢?因为虽然垃圾邮件的类型有很多,但是我们垃圾邮件的训练样本也有很多,因此使用监督学习算法)**
吴恩达机器学习打卡day9_第17张图片

图17

课程视频P92—异常检测

** 异常检测:
诈骗预测–虽然诈骗预测一般使用异常检测,但是如果有大量欺诈用户的数据,预测模型能够预测未知数据,我们倾向于使用监督学习算法;
工业界,如飞机引擎的检测;
数据中心用来检测数据是否异常;

监督学习:
垃圾邮件分类;
天气预测,根据已有数据预测未来的天气趋势(晴天/阴天等);
癌症分类;**

吴恩达机器学习打卡day9_第18张图片

图18

参考文献:
[1] https://blog.csdn.net/xueluowutong/article/details/85336370?spm=1001.2014.3001.5502
[2]https://blog.csdn.net/xueluowutong/article/details/85341581?spm=1001.2014.3001.5502

未完待续…

你可能感兴趣的:(机器学习,计算机视觉,人工智能,算法)