论文阅读“Variational Deep Embedding: A Generative Approach to Clustering”

Jiang Z, Zheng Y, Tan H, et al. Variational deep embedding: A generative approach to clustering[J]. CoRR, 2016.

摘要翻译

聚类是计算机视觉和机器学习中最基本的任务之一。在本文中,作者提出了变分深度嵌入(VaDE)模型,这是一种在变分自动编码器(VAE)框架内提出的新的无监督生成聚类方法。具体来说,VaDE用高斯混合模型(GMM)和深度神经网络(DNN)对数据生成过程进行建模:1)GMM选择一个类簇;2)生成隐含嵌入;3)DNN将隐含嵌入解码为可观察的嵌入。VaDE中的推理是以变分的方式进行的:使用不同的DNN对可观测值的潜在嵌入进行编码,以便使用随机梯度变分贝叶斯(SGVB)估计器和重新参数化技巧对证据下界(ELBO)进行优化。本文进行了强基线的定量比较,实验结果表明,VaDE在不同模式的4个基准上显著优于最先进的聚类方法。此外,通过VaDE的生成性质,论文中还展示了它为任何特定的集群生成高度真实的样本的能力,而无需在训练过程中使用监督信息。最后,VaDE是一个灵活且可扩展的无监督生成聚类框架,比GMM更一般的混合模型更容易置入该模型中。

Intro简记

作者对现有的聚类方法进行了归类,包含基于相似度的聚类和基于特征的聚类。

  • 基于相似性的聚类在一个距离矩阵上建立模型,该距离矩阵是一个N×N矩阵,用来测量每对N个样本之间的距离。最典型的方法是Spectral Clustering,利用距离矩阵的拉普拉斯谱在聚类前降维。

这句话可以作为当数据规模太大时,SC方法无法在合理时间内得到实验结果的解释。
But these methods suffer scalability issue due to super-quadratic running time for computing spectra.

  • 基于特征的方法以N×D矩阵作为输入,其中N为样本数目,D为特征维度。该类方法以k-means和GMM模型为代表。其中高斯混合模型(GMM),假设数据点由高斯混合模型(MoG)生成,并利用期望最大化(EM)算法对GMM的参数进行优化。

相比于可以使用深度变分模型用于产生样本的VAE模型而言,VaDE可以说是对VAE的一种扩展,即一个高斯混合先验取代了VAE中的单个高斯先验。因此,从数据角度而言,VaDE的设计更适合于聚类任务。

模型解析

该部分主要描述变分深度嵌入(VaDE)是如何在变分自动编码器(VAE)框架内的使用概率模型用于聚类。作者指出,在GMM在这个部分中并不是必须的,可以在模型中进行替换。

生成过程

首先是VADE的生成过程。假设给定数据包含有K个簇,一个观测样本由以下过程生成:
先明确符号的定义:

符号定义
K是一个预定义的参数,为高斯混合模型中子高斯模型的数量;
是簇k的先验概率, , ;
c 为类簇的标记;
Cat(π)是由π参数化的分类分布;
和为类簇c对应的高斯分布的均值和方差;
是一个单位矩阵;
是一个神经网络,其输入为,由参数化;
和分别为多元伯努利分布和高斯分布,由和参数化;
VaDE图

以及其生成过程应该对应起来看。

  1. 从分类分布Cat(π)中选定一个类簇c,c ∼ Cat(π); 其实就是从中选出子高斯模型
  2. 根据选定的子高斯模型采样z,z ∼ ;
  3. 生成样本x:
    (1)若x是binary,即x向量中只包含0,1两个值
    a)计算其对应的期望向量, 即
    b)从多元伯努力分布中采样x, x ∼
    (2)若x是实值的,即x是由实数组成的Embedding
    a)计算对应的期望和方差和, 即
    b)从多元高斯分布中采样x, x ∼
    上述的生成过程可以看出,z依赖于c,x依赖于z。因此在给定z的情况下,x和c是相互独立的,可以由一个联合分布进行形式化:
    各部分可以分别写成
变分下界

给定数据点,VaDE需要最大化生成样本的可能性。因此,生成过程中的对数似然可以写成:

(小声bb,为了便于理解大家可以参考GMM中琴生不等式的使用,传送门)
其中 为证据下界(ELBO), 是近似真实后验 的变分后验,这里作者直接假设它可以因式分解为:

与VAE类似,作者使用一个神经网络来建模VaDE中的:


而 的计算可以写作:

对于分解式
希望 近似于 ,并使用 作为 的代替。
变分下界可以写成:
显然,最终的变分下界可以由SGVB和重采样技巧记性最大化,其参数包括
参数集

一旦用最大化变分下界ELBO完成训练,可以为每个观察到的样本x提取一个潜在表示z,
聚类的分配则由形如softmax的方式给出

对VaDE中ELBO下界的分析

按照VAE的做法,作者对VaDE中的变分下界也进行了拆解,写成了重构项+KL散度的形式


KL散度的形式为:高斯混合(MoG)先验 到变分后验 的极限散度,它将latent embedding 进行了正则化使其位于MoG流形上。
该先验的重要性

注:
AE+GMM代表在生成z的时候,直接使用了VaDE中的,忽略了;
VAE+GMM表示对数据直接进行VAE建模,然后对隐含空间使用GMM;
emmm,有人会问,VaDE难道不等于VAE+GMM么?其实我第一次看的时候,也觉得是这样,但是!!!

  • 我又悟了悟,感觉作者的意思是,其实在模型图中,VaDE使用的是由GMM去选择类簇c,只是在最后的推导的过程中,便于优化,使用了类似VAE-encoder部分的学习方式,估计了,且这只是中的一项。虽然我不太理解前面推导中我red mark的地方,但是单从形式上看,确实提供了来自数据的GMM的相关信息。
  • 相反,在VAE+GMM中,被替换为了。也就是说,该模型的设置中,使用了VAE学习出的z代替原始文本x,从生成的角度,其对应的维度和包含的信息远没有原始文本中多,并且还有由采样所带来的损失。因此,VAE+GMM与VaDE在聚类的过程中得出的趋势大体上是相同的。

感觉对问题的转化和剖析都很到位。但是,在给定x的条件下,z和c相互独立的假设,我有点不能理解。


你可能感兴趣的:(论文阅读“Variational Deep Embedding: A Generative Approach to Clustering”)