论文阅读“Variational Deep Embedding: A Generative Approach to Clustering”

Jiang Z, Zheng Y, Tan H, et al. Variational deep embedding: A generative approach to clustering[J]. CoRR, 2016.

摘要翻译

聚类是计算机视觉和机器学习中最基本的任务之一。在本文中，作者提出了变分深度嵌入(VaDE)模型，这是一种在变分自动编码器(VAE)框架内提出的新的无监督生成聚类方法。具体来说，VaDE用高斯混合模型(GMM)和深度神经网络(DNN)对数据生成过程进行建模：1)GMM选择一个类簇；2)生成隐含嵌入；3)DNN将隐含嵌入解码为可观察的嵌入。VaDE中的推理是以变分的方式进行的：使用不同的DNN对可观测值的潜在嵌入进行编码，以便使用随机梯度变分贝叶斯(SGVB)估计器和重新参数化技巧对证据下界(ELBO)进行优化。本文进行了强基线的定量比较，实验结果表明，VaDE在不同模式的4个基准上显著优于最先进的聚类方法。此外，通过VaDE的生成性质，论文中还展示了它为任何特定的集群生成高度真实的样本的能力，而无需在训练过程中使用监督信息。最后，VaDE是一个灵活且可扩展的无监督生成聚类框架，比GMM更一般的混合模型更容易置入该模型中。

Intro简记

作者对现有的聚类方法进行了归类，包含基于相似度的聚类和基于特征的聚类。

基于相似性的聚类在一个距离矩阵上建立模型，该距离矩阵是一个N×N矩阵，用来测量每对N个样本之间的距离。最典型的方法是Spectral Clustering，利用距离矩阵的拉普拉斯谱在聚类前降维。

这句话可以作为当数据规模太大时，SC方法无法在合理时间内得到实验结果的解释。
But these methods suffer scalability issue due to super-quadratic running time for computing spectra.

基于特征的方法以N×D矩阵作为输入，其中N为样本数目，D为特征维度。该类方法以k-means和GMM模型为代表。其中高斯混合模型(GMM)，假设数据点由高斯混合模型(MoG)生成，并利用期望最大化(EM)算法对GMM的参数进行优化。

相比于可以使用深度变分模型用于产生样本的VAE模型而言，VaDE可以说是对VAE的一种扩展，即一个高斯混合先验取代了VAE中的单个高斯先验。因此，从数据角度而言，VaDE的设计更适合于聚类任务。

模型解析

该部分主要描述变分深度嵌入(VaDE)是如何在变分自动编码器(VAE)框架内的使用概率模型用于聚类。作者指出，在GMM在这个部分中并不是必须的，可以在模型中进行替换。

生成过程

首先是VADE的生成过程。假设给定数据包含有K个簇，一个观测样本由以下过程生成：
先明确符号的定义：

符号定义
K是一个预定义的参数，为高斯混合模型中子高斯模型的数量;
是簇k的先验概率, , ;
c 为类簇的标记;
Cat(π)是由π参数化的分类分布;
和为类簇c对应的高斯分布的均值和方差;
是一个单位矩阵;
是一个神经网络，其输入为，由参数化;
和分别为多元伯努利分布和高斯分布，由和参数化;

VaDE图

以及其生成过程应该对应起来看。

从分类分布Cat(π)中选定一个类簇c，c ∼ Cat(π); 其实就是从中选出子高斯模型
根据选定的子高斯模型采样z，z ∼ ;
生成样本x:
(1)若x是binary，即x向量中只包含0,1两个值
a)计算其对应的期望向量, 即
b)从多元伯努力分布中采样x, x ∼
(2)若x是实值的，即x是由实数组成的Embedding
a)计算对应的期望和方差和, 即
b)从多元高斯分布中采样x, x ∼
上述的生成过程可以看出，z依赖于c，x依赖于z。因此在给定z的情况下，x和c是相互独立的，可以由一个联合分布进行形式化：

各部分可以分别写成

变分下界

给定数据点，VaDE需要最大化生成样本的可能性。因此，生成过程中的对数似然可以写成：

（小声bb，为了便于理解大家可以参考GMM中琴生不等式的使用，传送门）
其中为证据下界(ELBO)，是近似真实后验的变分后验，这里作者直接假设它可以因式分解为：

与VAE类似，作者使用一个神经网络来建模VaDE中的:

而的计算可以写作：

对于分解式

希望近似于，并使用作为的代替。
变分下界可以写成：

显然，最终的变分下界可以由SGVB和重采样技巧记性最大化，其参数包括

参数集

一旦用最大化变分下界ELBO完成训练，可以为每个观察到的样本x提取一个潜在表示z,

聚类的分配则由形如softmax的方式给出

对VaDE中ELBO下界的分析

按照VAE的做法，作者对VaDE中的变分下界也进行了拆解，写成了重构项+KL散度的形式

KL散度的形式为：高斯混合(MoG)先验到变分后验的极限散度，它将latent embedding 进行了正则化使其位于MoG流形上。

该先验的重要性

注：
AE+GMM代表在生成z的时候，直接使用了VaDE中的，忽略了；
VAE+GMM表示对数据直接进行VAE建模，然后对隐含空间使用GMM；
emmm，有人会问，VaDE难道不等于VAE+GMM么？其实我第一次看的时候，也觉得是这样，但是！！！

我又悟了悟，感觉作者的意思是，其实在模型图中，VaDE使用的是由GMM去选择类簇c，只是在最后的推导的过程中，便于优化，使用了类似VAE-encoder部分的学习方式，估计了，且这只是中的一项。虽然我不太理解前面推导中我red mark的地方，但是单从形式上看，确实提供了来自数据的GMM的相关信息。
相反，在VAE+GMM中，被替换为了。也就是说，该模型的设置中，使用了VAE学习出的z代替原始文本x，从生成的角度，其对应的维度和包含的信息远没有原始文本中多，并且还有由采样所带来的损失。因此，VAE+GMM与VaDE在聚类的过程中得出的趋势大体上是相同的。

感觉对问题的转化和剖析都很到位。但是，在给定x的条件下，z和c相互独立的假设，我有点不能理解。