机器学习(第九周)--异常检测和推荐系统

异常检测

异常检测(Anomaly detection)问题 :

 给定图中的 这个训练集 如果你建立了一个模型,你将很可能发现部分点很可能发现模型p(x) 将会认为 在中心区域的这些点有很大的概率值,而稍微远离中心区域的点概率会小一些 更远的地方的点 它们的概率将更小 这外面的点 和这外面的点 将成为异常点

异常监测应用:

1、质量控制测试(QA)

2、欺诈监测

3、数据中心的计算机监控


使用高斯分布密度函数进行预测

机器学习(第九周)--异常检测和推荐系统_第1张图片


异常检测值算法评价:

1、把数据集分成训练集、交叉验证集、和测试集(比例按照,60:20:20)

2、训练集按照无监督学习方式,拟合高斯分布函数

3、交叉验证集上设定分类标记进行验证

4、在测试集上验证交叉验证分类结果

5、分类算法是有偏斜的分类,会存在严重的偏斜,根据分类结果计算F1-score,根据数值评价判断分类模型拟合效果

机器学习(第九周)--异常检测和推荐系统_第2张图片

异常检测算法与监督算法对比

1、异常检测算法中正样本数量较少(甚至没有),存在严重的偏斜,存在大量的负样本

监督算法中存在大量正样本和负样本

2、异常监测样本虽然也学习了正样本和负样本,在未来预测中可能会遇到其他特征的正样本

监督算法中预测的正样本和训练集的特征会相对较为接近

如下图:

机器学习(第九周)--异常检测和推荐系统_第3张图片


异常检测算法选取变量

单独一个变量表现如果不是近似服从高斯分布,可以尝试对变量进行转换,最终近似服从高斯分布,如下图

机器学习(第九周)--异常检测和推荐系统_第4张图片


异常检测方差分析

方差较大,可以尝试通过多项式的方式变幻,增加更多的特征值,进一步增大模型对样本拟合程度

机器学习(第九周)--异常检测和推荐系统_第5张图片


多元高斯分布如下:


机器学习(第九周)--异常检测和推荐系统_第6张图片


多元高斯分布在异常检测中应用如下:

机器学习(第九周)--异常检测和推荐系统_第7张图片


原始高斯分布模型与多元高斯分布模型关系:

高斯分布模型是多元分布模型中的一种特例:在协方差对角矩阵的情况下的特例,图形表示如下

机器学习(第九周)--异常检测和推荐系统_第8张图片


高斯分布异常检测和多元高斯分异常检测对比:

1、高斯分布捕捉变量间异常效果相对较差,如果想要检验则需要手动建立新的变量值;多元高斯分布能够很好的捕捉到变量间关系导致的异常结果,

2、高斯分布计算量相对较小;多元高斯分布计算量相对较大,计算量是高斯分布的n倍

3、高斯分布样本量较小的情况下也能很好的运行;多元高斯分布严格要求样本量大于特征值数量,经验判断样本量要大于10倍特征值

机器学习(第九周)--异常检测和推荐系统_第9张图片


推荐系统

1、推荐系统是在科技公司用应用很广泛的一种算法,如网站产品推荐、电影推荐等等

2、推荐系统是一种可以可以学习特征特性,建立一个优秀的推荐系统可以做到帮助我们自动选择特征值

对于已经给定特征值的推荐系统算法就是线性模型的一种扩展,在给缺失值预测一个返回值算法如下:

机器学习(第九周)--异常检测和推荐系统_第10张图片


参数θ计算方法如下:

机器学习(第九周)--异常检测和推荐系统_第11张图片


给定用户的评分分值,可以学习特征值

机器学习(第九周)--异常检测和推荐系统_第12张图片


根据以上两个算法给定一组起始的随机数θ,反复迭代达到收敛后就可以得到最终的特征值以及θ,这就是协同过滤算法的基本原理

协同过滤算法优化成两组参数值的算法,算法如下:

机器学习(第九周)--异常检测和推荐系统_第13张图片


计算参数θ和特征值x的公式如下:

机器学习(第九周)--异常检测和推荐系统_第14张图片


协同过滤算法的向量实现

机器学习(第九周)--异常检测和推荐系统_第15张图片


推荐给用户对于产品的模型如下

机器学习(第九周)--异常检测和推荐系统_第16张图片

对于评分归一化变化,可以避免某个用户全部未评分,预测的值全部为0的情况

机器学习(第九周)--异常检测和推荐系统_第17张图片


你可能感兴趣的:(机器学习课程回顾)