《机器学习》西瓜书学习笔记(六)

上一篇笔记在这里:《机器学习》西瓜书学习笔记(五)


第九章 聚类

9.1 聚类任务

无监督学习(unsupervised learning):训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律。
聚类:将数据集中的样本划分为若干个通常是不相交的子集(称为簇)。

9.2 性能度量

《机器学习》西瓜书学习笔记(六)_第1张图片

聚类性能度量外指标

  • Jaccard系数(Jaccard Coefficient,简称JC)
  • FM指数(Fowlkes and Mallows Index,简称FMI)
  • Rand指数(Rand Index,简称RI)

上述性能度量的结果值均在[0,1]区间,值越大越好。

对于簇划分C={C1,C2,...,Ck},定义

《机器学习》西瓜书学习笔记(六)_第2张图片

dist(·,·)是两个样本间距离
μ代表簇C的中心点
avg(C)对应于簇C内样本间平均距离
diam(C)对应于簇C内样本间的最远距离
dmin(Ci,Cj)对应于簇Ci与簇Cj最近样本点间的距离
dcen(Ci,Cj)对应于簇Ci与簇Cj中心点间的距离

聚类性能度量内指标

  • DB指数(Davies-Bouldin Index,简称DBI)
  • Dunn指数(Dunn Index,简称DI)
《机器学习》西瓜书学习笔记(六)_第3张图片

9.3 距离计算

距离度量(distance measure):函数dist(·,·)满足以下性质:

  • 非负性:dist(xi,xj)>=0;
  • 同一性:dist(xi,xj)=0当且仅当xi=xj;
  • 对称性:dist(xi,xj)=dist(xj,xi);
  • 直递性:dist(xi,xj)<=dist(xi,xk)+dist(xk,xj).

闵科夫斯基距离(Minkowski distance)

加权闵科夫斯基距离

p=2时,闵科夫斯基距离就是欧氏距离(Euclidean distance)

p=1时,闵科夫斯基距离就是曼哈顿距离(Manhattan distance):

能直接在属性值上计算距离的属性称为有序属性,反之称为无序属性
对无序属性可采用VDM(Value Difference Metric)。令mu,a表示在属性u上取值为a的样本数,mu,a,i表示在第i个样本簇中在属性u上取值为a的样本数,k为样本簇数,则属性u上两个离散值a与b之间的VDM距离为

将闵科夫斯基距离和VDM结合起来

非度量距离(non-metric distance):不满足直递性。

9.4 原型聚类

算法先对原型进行初始化,然后对原型进行迭代更新求解。

9.4.1 k均值算法

《机器学习》西瓜书学习笔记(六)_第4张图片

9.4.2 学习向量量化

《机器学习》西瓜书学习笔记(六)_第5张图片
如果pi*和xj的标记相同,则令pi*向xj靠拢,反之令pi*远离xj

学得一组原型向量{p1,p2,...,pq}后,即可实现对样本空间X的簇划分。对任意样本x,它能被划入其距离最近的原型向量所代表的簇中,即

称为Voronoi划分。

9.4.3 高斯混合分类

高斯分布的概率密度函数:

《机器学习》西瓜书学习笔记(六)_第6张图片

μ为n维均值,Σ是n×n的协方差矩阵,概率密度函数记为p(x|μ,Σ)

混合高斯分布:由k个高斯分布混合而成。

《机器学习》西瓜书学习笔记(六)_第7张图片

其中,“混合系数”αi>0

假设样本的生成过程由高斯混合分布给出:首先,根据混合系数αi(也是第i个混合成分的概率)定义的先验分布选择高斯混合成分;然后,根据被选择的混合成分的概率密度函数进行采样,从而生成相应的样本。
若训练集D={x1,x2,...,xm}由上述过程生成,令随机变量zj∈{1,2,...,k}表示生成样本xj的高斯混合成分,其取值未知。显然zj的先验概率P(zj=i)对应于αi(i=1,2,...,k).根据贝叶斯定理,zj的后验分布对应于

《机器学习》西瓜书学习笔记(六)_第8张图片

简记为γji(i=1,2,...,k)
将样本D划分成k个簇C,样本xj的簇标记为λj要最大化γji
做一下极大似然估计

《机器学习》西瓜书学习笔记(六)_第9张图片

求导置0,解得

《机器学习》西瓜书学习笔记(六)_第10张图片
《机器学习》西瓜书学习笔记(六)_第11张图片

此外还要考虑αi的和为1,则有拉格朗日函数

《机器学习》西瓜书学习笔记(六)_第12张图片
《机器学习》西瓜书学习笔记(六)_第13张图片

9.5 密度聚类

密度聚类算法假设聚类结构能通过样本分布的紧密程度确定。

  • ε-邻域:Nε(xj)={xi∈D|dist(xi,xj)<=ε}
  • 核心对象xj:|Nε(xj)|>=MinPts
  • 密度直达:若xj位于xi的ε-邻域中,且xi是核心对象,则称xjxi密度直达。
  • 密度可达:对xixj,若存在样本序列p1,p2,...,pn,其中p1=xipn=xjpi+1pi密度直达,则称xjxi密度可达。
  • 密度相连:对xixj,若存在xk使得xixj均由xk密度可达,则称xixj密度相连。
《机器学习》西瓜书学习笔记(六)_第14张图片

9.6 层次聚类

《机器学习》西瓜书学习笔记(六)_第15张图片
《机器学习》西瓜书学习笔记(六)_第16张图片

下一篇:《机器学习》西瓜书学习笔记(七)

你可能感兴趣的:(《机器学习》西瓜书学习笔记(六))