(西瓜书)第9章 聚类

A.聚类任务

Background:通过训练无标记样本的学习揭示数据内在性质
干什么:将数据集中的样本划分为若干cluster(簇/类)

B.距离计算

p=2,欧氏距离;p=1,曼哈顿距离

C. 原型聚类

1. k均值算法(k-means)
(1) 主要思想:欧氏距离越小则簇内样本相似度越高
(2) 尚未用python实现 T_T
(3)算法流程:
(西瓜书)第9章 聚类_第1张图片

2. 学习向量量化(LVQ)
(1) 与k均值算法类似,但是LVQ假设样本带有类别标记,学习时利用样本的类别辅助聚类。
(2)算法流程:图片为西瓜书 P205 图9.4
注意:yj表示样本类型
(西瓜书)第9章 聚类_第2张图片
(3)重点:上图第6-7行,原型向量pi*与xj类别标记相同,则令pi*向xj方向靠近
(西瓜书)第9章 聚类_第3张图片

3. 高斯混合聚类
① 从几何角度看: 加权平均值
(1)单高斯模型(GSM),即正态分布模型
在这里插入图片描述
(2)一个GMM由K个GSM组成,每个GSM成为GMM的一个component,即K个类;在这里插入图片描述
② 从混合模型角度看:
(西瓜书)第9章 聚类_第4张图片

D.密度聚类 DBSCAN

① 簇:由密度可达关系导出的最大的密度相连样本的集合
② 核心思想:先发现密度较高的点,然后把相近的高密度点逐步都连成一片,进而生成各种簇。
③ 算法实现:

对每个数据点为圆心,以eps为半径画个圈(称为邻域eps-neigbourhood),然后数有多少个点在这个圈内,这个数就是该点密度值。然后我们可以选取一个密度阈值MinPts,如圈内点数小于MinPts的圆心点为低密度的点,而大于或等于MinPts的圆心点高密度的点(称为核心点Core point)。如果有一个高密度的点在另一个高密度的点的圈内,我们就把这两个点连接起来,这样我们可以把好多点不断地串联出来。之后,如果有低密度的点也在高密度的点的圈内,把它也连到最近的高密度点上,称之为边界点。这样所有能连到一起的点就成一了个簇,而不在任何高密度点的圈内的低密度点就是异常点

E.层次聚类 AGNES

① 核心思想:不断地合并距离最近的聚类簇,直至达到预设的聚类簇数

F.参考文献

  1. 《机器学习》周志华.
  2. 《机器学习-高斯混合模型》 https://www.bilibili.com/video/av35183585?from=search&seid=6277901996095117924
  3. 《基于密度的聚类方法 Density-based clustering》 https://www.jianshu.com/p/0f33ed1c38b9
  4. 《高斯混合模型(GMM)》 https://www.cnblogs.com/mindpuzzle/archive/2013/04/24/3036447.html
  5. 《漫谈 Clustering (3): Gaussian Mixture Model》 http://blog.pluskid.org/?p=39

你可能感兴趣的:(聚类)