2022吴恩达机器学习(三)| 无监督学习

目录

系列文章目录

一、聚类(Clustering)

1.什么是聚类

2.直观理解 K均值算法(常用聚类算法)

2.K均值算法

3.优化目标

 4.随机初始化

5.选择聚类数

二、异常检测(Anomaly Detection)

1.发现异常事件

2.高斯分布/正态分布

3.异常检测算法

4.开发与评估异常检测系统

5.异常检测和监督学习对比

6.选择使用什么特征

具体笔记​编辑

引用


系列文章目录

(一) 监督机器学习:回归和分类

(二) 高级学习算法 和 无监督学习

>>>(三) 无监督学习、推荐系统 和 强化学习


无监督学习(聚类 k-means算法、异常检测算法)

一、聚类(Clustering)

1.什么是聚类

2.直观理解 K均值算法(常用聚类算法)

2.K均值算法

分成两步

1.选择k个随机的点,作为聚类中心

2.计算距离,分配最近聚类中心。关联聚成一类,计算平均值,中心点移动到平均值的位置(进行迭代)

3.优化目标

优化K均值的 代价函数/畸变函数

 4.随机初始化

需要多次运行K均值算法,每一次都重新进行随机初始化,最后选择代价函数最小的结果【k小(50-1000)适用,k大就哒咩】

5.选择聚类数

通过评估算法在后续目的的表现如何,来选择k值

二、异常检测(Anomaly Detection)

1.发现异常事件

为x的概率建立模型

2.高斯分布/正态分布

3.异常检测算法

给定数据集

计算平均值和方差

给定一个新的训练实例,根据模型计算概率

和阈值进行比较,得到是否异常

4.开发与评估异常检测系统

采用实数评估

从带标记的数据着手,划分训练集(其中一部分正常数据)、交叉检验集和测试集(正常数据和异常数据)

评估度量(精确率/召回率、F1分数)

5.异常检测和监督学习对比

异常检测:非常少的正向类,大量负向类

监督学习:大量正/负向类

6.选择使用什么特征

仔细选择特征很重要,当特征为非高斯分布时,最好将数据转换成高斯分布

误差分析


具体笔记2022吴恩达机器学习(三)| 无监督学习_第1张图片


引用

黄海广老师整理的课程笔记:fengdu78, Coursera-ML-AndrewNg-Notes, (2018), GitHub repository, https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

你可能感兴趣的:(【机器学习】,学习记录,python,机器学习,经验分享,人工智能)