机器学习周志华笔记--聚类

聚类:无监督学习。

性能度量:簇内相似度高且簇间相似度低。

距离计算:闵可夫斯基距离:欧氏距离(p=2) or 曼哈顿距离(p=1)

1. 原型聚类

1)k均值聚类(k-means clustering):最小化平方误差。

从样本集中随机选择k个样本作为初始均值向量——计算每个样本与各均值向量的距离,将样本划入距离最近的均值向量的簇内——求出新的均值向量,并更新——不断重复上述过程知道没有变化为止。

2)学习向量量化(learning vector quantization,LVQ)

LVQ假设数据样本带有类别标记,学习过程利用样本的这些监督信息来辅助聚类。

初始化一组原型向量——找出与有标记的训练样本最近的原型向量,并根据两者的类别标记是否一致来对原型向量进行相应的更新(若类别不同,则原型向量与样本之间的距离增大)——迭代更新直到原型向量不再更新或者更新很小

3)高斯混合聚类(mixture-of-gaussian):采用概率模型来表达聚类原型。

2. 密度聚类:假设聚类结构能通过样本分布的紧密程度确定

DBSCAN:先找出各样本的邻域并确定核心对象集合Ω,然后从Ω中随机选取一个核心对象作为种子,找出由它密度可达的所有样本,这就构成了第一个聚类簇。

3. 层次聚类:在不同层次对数据集进行划分,从而形成树形的聚类结构。

AGNES:是一种采用自底向上聚合策略的层次聚类算法。它先将数据集中的每个样本看作一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。

你可能感兴趣的:(机器学习)