机器学习笔记(十一)-聚类(Clustering)

本次学习笔记主要记录学习机器学习时的各种记录,包括吴恩达老师视频学习、李宏毅老师视频学习、周志华老师的《机器学习》(西瓜书)以及李航老师的《统计学习方法》。作者能力有限,如有错误等,望联系修改,非常感谢!

机器学习笔记(十一)-聚类(Clustering)

  • 一、无监督学习简介
  • 二、K-means简介
  • 三、优化目标
  • 四、随机初始化
  • 五、选择聚类数


第一版       2022-03-17        初稿

一、无监督学习简介

机器学习笔记(十一)-聚类(Clustering)_第1张图片
训练集只有x,没有任何标签y。
两个分开的点集,称为簇。一个能够找到圈出的点集的算法,称为聚类算法。
机器学习笔记(十一)-聚类(Clustering)_第2张图片
市场分割
社交网络分析
组织计算机族群
星系的形成

二、K-means简介

k均值是最普及的聚类算法,其接受一个未标记的数据集,然后将数据聚类成不同的组。
机器学习笔记(十一)-聚类(Clustering)_第3张图片
k均值是一个迭代算法,假设将数据聚类成n个组,其方法为:
1.首先选择K个随机的点,称为聚类中心。
2.对于数据集中的每一个数据,按照距离K个中心点的距离,将其与距离最近的中心点关3.联起来,与同一个中心点关联的所有点聚成一类。
4.计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。
5.重复2-4步骤直至中心点不再变化。
机器学习笔记(十一)-聚类(Clustering)_第4张图片
机器学习笔记(十一)-聚类(Clustering)_第5张图片
机器学习笔记(十一)-聚类(Clustering)_第6张图片
第一个for循环是赋值步骤,即:对于每一个样例i,计算其应该属于的类
第二个for循环是聚类中心的移动,即:对于每一个类K,重新计算该类的质心。
机器学习笔记(十一)-聚类(Clustering)_第7张图片

三、优化目标

机器学习笔记(十一)-聚类(Clustering)_第8张图片
k均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此k均值的代价函数,又称为畸变函数

四、随机初始化

机器学习笔记(十一)-聚类(Clustering)_第9张图片
在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样
做:
1.我们应该选择K<m,即聚类中心点的个数要小于所有训练集实例的数量
2.随机选择K个训练实例,然后令K个聚类中心分别与这K个训练实例相等
机器学习笔记(十一)-聚类(Clustering)_第10张图片
k均值问题:可能会停留在一个局部最小值处,这取决于初始化的情况。
为解决上述问题,通常多次运行k均值算法,每一次都重新进行随机初始化,最后在比较多次运行k均值的结果,选择代价函数最小的结果。
若k较大,不会明显改善。
机器学习笔记(十一)-聚类(Clustering)_第11张图片

五、选择聚类数

机器学习笔记(十一)-聚类(Clustering)_第12张图片
机器学习笔记(十一)-聚类(Clustering)_第13张图片
聚类参考资料:
机器学习笔记(十一)-聚类(Clustering)_第14张图片
机器学习笔记(十一)-聚类(Clustering)_第15张图片
机器学习笔记(十一)-聚类(Clustering)_第16张图片

1 2 3


  1. 机器学习-吴恩达 ↩︎

  2. 机器学习-李宏毅 ↩︎

  3. 机器学习-周志华 ↩︎

你可能感兴趣的:(机器学习,聚类,机器学习,算法)