周志华《机器学习》同步学习笔记 ——第九章聚类

周志华《机器学习》同步学习笔记 ——第九章聚类

  • 9.1 聚类任务
  • 9.2 性能度量
    • 外部指标
    • 内部指标
  • 9.3 距离计算
  • 9.4 原型聚类
    • 9.4.1 k均值算法
    • 9.4.2 学习向量量化 (LVQ)
    • 9.4.3 高斯混合聚类
  • 9.5 密度聚类
  • 9.6 层次聚类

9.1 聚类任务

聚类是一种经典的无监督学习方法无监督学习的目标是通过对无标记训练样本的学习,发掘和揭示数据集本身潜在的结构与规律,即不依赖于训练数据集的类标记信息。聚类则是试图将数据集的样本划分为若干个互不相交的类簇,从而每个簇对应一个潜在的类别。
聚类直观上来说是将相似的样本聚在一起, 从而形成一个簇(cluster)
对于评价聚类结果的好坏,性能度量为提供了一系列有效性指标。
距离度量提供了度量相似性的方法,每个样本可以对应于高维空间中的一个数据点,若它们的距离相近,我们便可以称它们相似。

9.2 性能度量

对于样本簇,我们希望簇内相似度高簇间相似度低
一般聚类有两类性能度量指标:外部指标内部指标

外部指标

将聚类结果与某个参考模型的结果进行比较,以参考模型的输出作为标准,来评价聚类好坏。假设聚类给出的结果为λ,参考模型给出的结果是λ*,则我们将样本进行两两配对,定义:
周志华《机器学习》同步学习笔记 ——第九章聚类_第1张图片
基于这四个值可以导出以下常用的外部评价指标:
周志华《机器学习》同步学习笔记 ——第九章聚类_第2张图片

内部指标

不依赖任何外部模型,直接对聚类的结果进行评估
定义:周志华《机器学习》同步学习笔记 ——第九章聚类_第3张图片
导出下面这些常用的内部评价指标:
周志华《机器学习》同步学习笔记 ——第九章聚类_第4张图片

9.3 距离计算

对于度量距离的函数,应满足:
周志华《机器学习》同步学习笔记 ——第九章聚类_第5张图片
常用闵可夫斯基距离 L p L_p Lp范数
在这里插入图片描述
p = 1 p=1 p=1,即为曼哈顿距离。
p = 2 p=2 p=2,即为欧式距离。
属性分为两种:连续属性离散属性。对于连续值的属性,一般都可以被学习器所用,而对于离散值的属性,需要作下面进一步的处理:

若属性值之间存在序关系,则可以将其转化为连续值,例如:身高属性“高”“中等”“矮”,可转化为{1, 0.5, 0}。
若属性值之间不存在序关系,则通常将其转化为向量的形式,例如:性别属性“男”“女”,可转化为{(1,0),(0,1)}。

在进行距离度量时,连续属性存在序关系的离散属性都可以直接参与计算
而对于不存在序关系的离散属性,称为:“无序属性”,需要用VDM进行距离计算。对于离散属性的两个取值a,b,定义:
周志华《机器学习》同步学习笔记 ——第九章聚类_第6张图片
于是,在计算两个样本之间的距离时,我们可以将闵可夫斯基距离和VDM混合在一起进行计算:
周志华《机器学习》同步学习笔记 ——第九章聚类_第7张图片
当不同属性中要性不同,可以用加权距离,例如:
在这里插入图片描述
以上都是定义的“相似度度量”,距离越大,相似度越小。
一些满足直递性的距离称为“非度量距离”,需要通过距离度量学习来实现
周志华《机器学习》同步学习笔记 ——第九章聚类_第8张图片

9.4 原型聚类

原型聚类即“基于原型的聚类”(prototype-based clustering),通过参考一个模板向量模板分布的方式来完成聚类的过程。

9.4.1 k均值算法

先随机指定类中心,根据样本与类中心的远近划分类簇,接着重新计算类中心,迭代直至收敛。
最小化这个平方误差
在这里插入图片描述
流程:周志华《机器学习》同步学习笔记 ——第九章聚类_第9张图片

9.4.2 学习向量量化 (LVQ)

LVQ使用样本真实类标记辅助聚类,首先根据样本的类标记,从各类中分别随机选出一个样本作为该类簇的原型,从而组成了一个原型特征向量组,接着从样本集中随机挑选一个样本,计算其与原型向量组中每个向量的距离,并选取距离最小的原型向量所在的类簇作为它的划分结果,再与真实类标比较。
关键修正:
若划分结果正确,则对应原型向量向这个样本靠近一些
若划分结果不正确,则对应原型向量向这个样本远离一些
流程:
周志华《机器学习》同步学习笔记 ——第九章聚类_第10张图片

9.4.3 高斯混合聚类

采用高斯分布来描述原型。假设每个类簇中的样本都服从一个多维高斯分布,那么空间中的样本可以看作由k个多维高斯分布混合而成。
对于多维高斯分布,其概率密度函数:
周志华《机器学习》同步学习笔记 ——第九章聚类_第11张图片
接着定义高斯混合分布:
周志华《机器学习》同步学习笔记 ——第九章聚类_第12张图片
这样空间中样本的采样的步骤为:

  1. 先选择一个类簇(高斯分布
  2. 再根据对应高斯分布的密度函数进行采样

根据贝叶斯定理
周志华《机器学习》同步学习笔记 ——第九章聚类_第13张图片
需要选择PM最大时的类簇并将该样本划分到其中。
由于没有真实类标信息,对于类条件概率,并不能像贝叶斯分类那样通过最大似然法计算出来,这里的似然函数变为:
周志华《机器学习》同步学习笔记 ——第九章聚类_第14张图片
简单的最大似然无法求出所有参数,需要EM: 首先对高斯分布的参数及混合系数进行随机初始化,计算出各个 P M P_M PM(即 p j i p_{ji} pji,第 i i i个样本属于 j j j类),再最大化似然函数(即 L L ( D ) LL(D) LLD分别对 α α α u u u ∑ ∑ 求偏导 ),对参数进行迭代更新。
周志华《机器学习》同步学习笔记 ——第九章聚类_第15张图片周志华《机器学习》同步学习笔记 ——第九章聚类_第16张图片
在这里插入图片描述
流程:
周志华《机器学习》同步学习笔记 ——第九章聚类_第17张图片

9.5 密度聚类

基于密度的聚类,从样本分布的角度来考察样本之间的可连接性,并基于可连接性(密度可达)不断拓展类簇。
其中DBSCAN是一种著名的算法,首先定义:
周志华《机器学习》同步学习笔记 ——第九章聚类_第18张图片
周志华《机器学习》同步学习笔记 ——第九章聚类_第19张图片
找出一个核心对象所有密度可达的样本集合形成簇。首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到所有的核心对象都遍历完。
步骤:
周志华《机器学习》同步学习笔记 ——第九章聚类_第20张图片

9.6 层次聚类

基于树形结构的聚类方法,常用的是自底向上的结合策略(AGNES算法)。
假设有N个待聚类的样本,基本步骤为:

  1. 初始化>,每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度
  2. 寻找各个类之间最近的两个类,把他们归为一类
  3. 重新计算新生成的这个类与各个旧类之间的相似度
  4. 重复2和3直到所有样本点都归为一类

关键的一步为计算两个类簇的相似度,有几种方法:

  1. 单链接:取类间最小距离,包容性较强
  2. 全链接:取类间最大距离,包容性最低
  3. 均链接:取类间两两的平均距离,从全局出发
    周志华《机器学习》同步学习笔记 ——第九章聚类_第21张图片

步骤:
周志华《机器学习》同步学习笔记 ——第九章聚类_第22张图片

你可能感兴趣的:(机器学习,学习笔记,人工智能)