基于高斯混合分布的聚类,我看了很多资料,,写的千篇一律,一律到让人看不明白。直到认真看了几遍周志华写的,每看一遍,都对 GMM 聚类有一个进一步的认识。所以,如果你想了解这一块,别看乱七八糟的博客了,直接去看周志华的《机器学习》 P206页。
下面是我额外看的几篇论文,还不错,我大致总结了一下,作为笔记。
1、基于高斯混合模型的层次聚类算法 瞿俊(厦门大学,2006)提到计算高斯混合分布中每两个组成成分的重叠度,然后根据重叠的程度,即重叠率是否大于一个阈值,决定是否将两个分布合并。如果合并了,就重新更新均值和方差。
2、基于高斯混合模型的参数迁移聚类 费全花(西安电子科技大学 2012)的综述部分叙述的还是不错的。提到绝大多数学习方法都是基于训练数据和测试数据都来自于相同的分布和同一个特征空间的假设,当数据分布变化时,又要从头训练数据。此外,被广泛应用的 EM 算法具有对初始值敏感、容易陷入局部最优的缺陷,提出了集成学习和迁移学习的改善思路。集成学习是将多个弱分类器集成为一个强的分类器,而迁移学习是将从一个环境中学习到的任务,用来帮助新环境的学习任务。
理论已经证明,利用混合正态分布模型可以逼近任何一个光滑分布。即只要项数 k 足够大,有限混合分布模型可以用于描述任何复杂的现象。图像分割可归结为一个聚类问题,对于给定的高斯混合模型,要利用该模型对数据进行聚类,还必须确定该模型中各个高斯部件所包含的未知参数,即系数、均值和方差。最常用的求解算法是 EM 算法,但是 EM 算法存在对初始值敏感、容易陷入局部最优的缺陷。
第二章基于提出了基于空间信息的 EMBoost 聚类算法,用基于GMM 的 EM 算法与集成学习结合,改善了 EM 算法对初始值敏感以及结果不稳定的缺陷,然后加入了图像的局部信息以获得更好的聚类结果。一些小点:
(1)、构造一个高精度估计器是一件非常难的事情,然而产生多个只比随机猜测略好的粗糙估计却很容易,集成学习就是在这种情况下产生的。
(2)【8】中对聚类集成的定义是:将多个对一组对象进行划分的不同结果进行合并,而不使用对象原有的特征。例:基于 Bagging 的聚类方法已经比较成熟,普遍的做法是:首先确定 Bagging 采样概率进行多次采样,得到多组样本;然后使用聚类算法对每组样本进行单独的聚类;最后将结果合并。文献【30】是将 Boosting 与谱聚类相结合。此文是将 Boosting 与 EM 相结合。
(3) UCI 数据集
第三章,基于空间信息的 GMM 参数迁移聚类
(1)、机器学习和数据挖掘领域的一个共同的假设是训练数据和测试数据服从相同的分布或者具有相同的特征表示,当数据分布变化时就要重新选择数据。迁移学习强调的是在不同的但是具有相似性只是分别的领域、任务之间的知识的迁移。同时,迁移学习也可以避免数据重标定的巨大耗费。
(2)、迁移学习主要包括 三个方向:迁移什么,即寻找哪些知识可以在不同的领域或任务之间进行迁移;怎样迁移,即如何开发有效的算法来迁移这些可以被迁移的知识;什么时间迁移,即在什么情况下可以使用迁移学习,什么情况下不可以使用迁移学习。
(3)、将样本分为确定性样本和不确定性样本。确定性样本是指那些不管划分多少次,都始终在同一个类中;不确定性样本是指样本被分到某一类是概率性的。文中引入聚类一致性值 CI 来判断样本的确定性与不确定性。所谓的聚类一致性值,是指将样本多次聚类,该样本属于某个类别的概率。设定一个阈值,如果大于该阈值,那么该样本就属于源域(即确定性样本);否则属于目标域(即不确定样本)。源域和目标域划分不合理的话,会产生负迁移现象。
(4)如何迁移:基于有限高斯混合模型的 EM 算法,估计出源域的参数,包括均值和方差;然后,结合 K 近邻 和聚类一致性,j将源域的参数迁移到目标域;然后利用高斯分布公式,求出目标域样本的概率值,最终计算目标域样本的最终归属矩阵,得到数据划分的结果
第四章 基于块的参数迁移聚类
(1)、先将图划分为多个小块。比较常见的是分水岭方法以及基于图论的图切割方法。
3、《基于高斯混合模型的变分自动编码器》(2017 哈工大)
本文研究的是生成模型。所谓生成模型,就是以满足某个未知概率分布的数据集作为输入,然后学习到一个能够表示这个概率分布的模型。
在聚类任务上,提取数据的特征很关键。深度嵌入聚类 DEC 利用深度神经网络获取数据特征,然后利用聚类算法,在数据特征上进行聚类分析。但是 DEC 只能聚类不能生成数据样本。为了生成有意义的数据样本,生成模型被大量提出,这类模型有两个目的:一是捕获数据的统计结构,二是生成数据样本
生成模型的优势有许多:能够与强化学习想结合,在给定目前的状态下,用于规划的生成模型能够学习到未来状态的条件分布,而用于强化学习的生成模型能够在虚拟的环境中学习;生成模型能够预测缺失数据。生成模型可以多模态输出。
比如一幅图像,如果使用最小均方误差来预测下一帧,,会很模糊,而利用生成模型预测的,一般比较清晰。
4、基于高斯混合模型聚类的变量选择即应用
1、采用距离度量的方法,对于高维数据和大型数据效果非常不理想。这是因为:高维数据中对于数据簇的聚类信息有很多维无关的属性向量,破坏聚类的信息结构;高维数据在高维空间中的分布可能比较稀疏,不可能存在数据点对在所有维度中有距离相等的点。
而基于模型的聚类对数据的划分,是依赖于样本数据的概率分布。因此,在选择模型上, GMM 比较符合。一方面,从中心极限定理出发;另一方面(这一部分,这篇论文写得真的是菜啊,语言各种不通顺)
关于如何进行变量选择的综述,如下,我就直接截图了: