机器学习第30天

简单的最大似然法根本无法求出所有的参数,这样PM也就没法计算。**这里就要召唤出之前的EM大法,首先对高斯分布的参数及混合系数进行随机初始化,计算出各个PM(即γji,第i个样本属于j类),再最大化似然函数(即LL(D)分别对α、u和∑求偏导 ),对参数进行迭代更新**。


高斯混合聚类的算法流程如下图所示:


密度聚类则是基于密度的聚类,它从样本分布的角度来考察样本之间的可连接性,并基于可连接性(密度可达)不断拓展疆域(类簇)。其中最著名的便是**DBSCAN**算法,首先定义以下概念:



简单来理解DBSCAN便是:**找出一个核心对象所有密度可达的样本集合形成簇**。首先从数据集中任选一个核心对象A,找出所有A密度可达的样本集合,将这些样本形成一个密度相连的类簇,直到所有的核心对象都遍历完。DBSCAN算法的流程如下图所示:


层次聚类是一种基于树形结构的聚类方法,常用的是**自底向上**的结合策略(**AGNES算法**)。假设有N个待聚类的样本,其基本步骤是:

> 1.初始化-->把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似度。

> 2.寻找各个类之间最近的两个类,把他们归为一类(这样类的总数就少了一个)

> 3.重新计算新生成的这个**类与各个旧类之间的相似度**

> 4.重复2和3直到所有样本点都归为一类,结束

可以看出其中最关键的一步就是**计算两个类簇的相似度**,这里有多种度量方法.:

* 单链接(single-linkage):取类间最小距离


全链接(complete-linkage):取类间最大距离


均链接(average-linkage):取类间两两的平均距离


很容易看出:**单链接的包容性极强,稍微有点暧昧就当做是自己人了,全链接则是坚持到底,只要存在缺点就坚决不合并,均连接则是从全局出发顾全大局**。层次聚类法的算法流程如下所示


以上主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means、LVQ、高斯混合聚类、密度聚类以及层次聚类算法。K-Means与LVQ都试图以类簇中心作为原型指导聚类,其中K-Means通过EM算法不断迭代直至收敛,LVQ使用真实类标辅助聚类;高斯混合聚类采用高斯分布来描述类簇原型;密度聚类则是将一个核心对象所有密度可达的样本形成类簇,直到所有核心对象都遍历完;最后层次聚类是一种自底向上的树形聚类方法,不断合并最相近的两个小类簇

你可能感兴趣的:(机器学习第30天)