论文阅读“Dissimilarity Mixture Autoencoder for Deep Clustering”

Lara J S, González F A. Dissimilarity Mixture Autoencoder for Deep Clustering[J]. arXiv preprint arXiv:2006.08177, 2020.

摘要翻译

差异混合自编码(DMAE)是一种基于特征聚类的神经网络模型,它融合了灵活的dissimilarity function,可以集成到任何一种深度学习体系结构中。它在内部表示了一个差异混合模型(DMM),通过将概率重新解释为神经网络表示,将K-Means、GMM或Bregman聚类等经典方法扩展到任何凸和可微的dissimilarity function。DMAE可以与深度学习架构集成到端到端模型中,允许同时学习聚类分配和神经网络参数。通过对图像和文本聚类基准数据集进行实验,结果表明DMAE在无监督分类准确率和标准化互信息对比中具有较强的竞争力。

Intro介绍

Unsupervised learning (UL) aims to automatically extract meaningful patterns from unlabeled data, it covers different tasks like clustering, density estimation, dimensionality reduction, anomaly detection, data generation, among others.

Remarkable examples for UL:(1) autoencoders (AE); (2)generative models (GAN and VAE); (3) deep clustering methods (similarity-based or feature-based)
作者提出的DMAE,是一种 feature-based聚类的深度神经网络模型,同时它包含dissimilarity function,保留了similarity-based聚类的灵活性。DMAE在内部以编码器-解码器体系结构表示了指数分布的混合,允许使用基于梯度的优化进行参数估计。DMAE将经典的概率概念重新解释为神经网络组件,允许集成到深度学习架构中。主要贡献点:

  • DMAE:一种基于样本和混合成分之间的可微凸差异函数的深度聚类模型,可应用于深度嵌入空间。
  • 该模型是一个使用概率神经网络表示的编码器-解码器网络,可以与其他深度学习组件一起使用。允许通过基于梯度的优化、在线学习和迁移学习等现代策略进行可扩展的参数估计。
  • 由于DMAE的公式是基于差异的函数,所以它可以拟合来自不同概率分布的数据,如圆形、角形、概率空间等,同时保持参数的可解释性。同样地,如果问题需要更高的复杂性,所提出的模型可以用深度学习组件进行扩展,在可解释性和性能之间进行权衡。
相关工作

聚类模型的性能高度依赖于输入数据的拓扑结构和属性,例如,聚类可能形成不同的几何形状(如圆形、椭圆形、角状等),也可能由不同类型的变量(如连续的、离散的等)组成。不同的集群策略更适合于不同的问题。
作者在Intro中也提到了similarity-based and feature-based两类聚类方法,因此在这一部分进行详述。

模型浅析(Dissimilarity Mixture Autoencoder)

DMAE由三个主要成分组成。首先,�提出了一个差异混合模型(DMM),将Bregman聚类等经典方法扩展到任何凸和可微的差异函数; 其次,提出了一种期望最大化的自编码器作为DMM的学习过程;第三,利用无监督表示学习对模型进行了深度聚类扩展。

Dissimilarity Mixture Model

Mixture Model是一种聚类的概率方法,它允许通过一组个分布的组合来表示样本的密度。在本工作中,属于类簇的数据点的似然被建模为如下的指数分布:


其中 是一个binary类型的潜在变量,指示样本 是否属于类簇 ; 是一个唯一确定的值,将概率标准化为一个有效的概率密度; 是一个控制可能性指数行为的常数; 是一个差异度量函数,用于度量 和与当前类簇 相关的参数 之间的亲和力。当 是Bregman divergence(出自论文Clustering with bregman divergences)时,指数族与所提出的似然值之间存在直接联系。然而,所提出的似然分布考虑了一个更一般的可微差异函数,该函数必须是 的凸函数。给出一些可参考的差异函数:
根据典型的混合模型(MM)公式,需要确定一个后验类簇分配分布 的表达式,为此,我们引入了一个边缘先验分布 ,并且有 和 。这个边缘分布代表了 的离散性质,并引入了额外的模型参数--混合系数 。后验分布可以通过贝叶斯规则来确定:

for ,我们提出重新参数化的 ,将该因子作为模型的参数,允许对非归一化概率分布进行优化。由此转化为:

其中, 为神经网络中常用的softmax, 值可以重新解释为softmax的逆温度,这是一个超参数,用于控制softmax函数的稀疏性,较高的α值近似于one-hot的softmax输出。同样(值得注意的是),当差异函数是负点积 且 时,该表达式与前馈神经网络之间存在直接的联系,即关于所有组件 的 将相当于一个由softmax激活的单层网络 ,其中 是一个包含聚类参数 的矩阵, 是一个具有重新参数化混合系数 的向量。
在参数 和 的学习中,DMAE的学习过程定义为E步的重新解释,M步定义为自动编码器的编码、解码和优化阶段。

Autoencoder for Expectation-Maximization

EM是一种迭代更新模型参数直到收敛的算法,它需要在任何次迭代中确定E步和M步的一般表达式。
E-step:计算q^(t)


对于具有离散的潜在变量数的模型,所求分布等于后验分布,即可以由公式(2)计算得到。其中 是一个矩阵,其中每一行大小为 的特征向量 共计 个样本, 是一个矩阵,其中每一行代表一个样本 对应的潜在分量 。

M-step:通过最大化分布q^(t)下的完全对数似然值的期望值来更新参数

对于包含 个样本和 个分量的DMM,其完全似然 采用如下计算:
其完全对数似然(the complete log-likelihood)为:

考虑到 分量是binary随机变量以及关于q(t)的定义(见公式(4)),条件期望 等于后验分布 。所以有:完全对数似然值的期望 计算如下:

由于不相似函数 必须是凸的,利用琴森不等式:

琴生不等式(Jensen's inequality)以丹麦数学家约翰·琴生(Johan Jensen)命名。它给出积分的凸函数值和凸函数的积分值间的关系。琴生不等式有以下推论:过一个下凸函数上任意两点所作割线一定在这两点间的函数图象的上方,即:

Jensen's inequality 一般形式

我们可以得到如下的表达:

利用公式(9)和完全对数似然必须最大化的要求,可以确定出一个下界即:

其中,样本的参数和是使用softmax输出作为权值的所有集群参数的凸组合。

损失函数基于完全对数似然值和软分配参数的下界,类似于其他聚类方法中通常使用的失真度量。表示如下:

由此,差异混合自编码器(DMAE)是将EM过程重新解释为一个具有对应于DMM参数的共享权重的编码器-解码器网络。在DMAE中,执行一个编码过程来计算 soft-assignments 或后验概率,这等同于E步;同样,重构和被计算为潜在表示的线性解码,并最小化重构误差或失真度量(公式(12))来更新模型的参数, 这相当于M步。
DMAE最重要的特性之一是,它由可微操作组成,因此可以通过基于梯度的优化将损失最小化。像批处理学习和在线学习等方法可以使用,因为DMM假设是样本间独立同分布(i.i.d),允许其应用于具有控制内存消耗的大型数据集。此外,还可以利用无监督表示学习,通过利用反向传播和其他深度学习组件的外部梯度来增强DMAE。

Unsupervised Representation Learning

DMAE使用一个深度自编码器进行无监督表示学习,并将DMM合并到潜在空间中进行聚类。完整的架构可分为四个主要组件:deep encoder, dissimilarity mixture encoder, dissimilarity mixture decoder, and deep decoder.

  • Deep Encoder
    该组件将输入数据转换为一个更简单的表示或潜在空间。它定义了一个从原始输入空间到维度为的空间的映射。这是通过在训练过程中学习的几个非线性变换来实现的。具体来说,它定义了一个函数,该函数使用一组权值将输入样本转换为潜在表示(R是潜在维度的大小)。
  • Dissimilarity Mixture Encoder (DM-Encoder)
    该组件将潜在表示,软分配到个类簇中。它定义了从空间到维度为的潜在空间的映射。该表示等价于公式(2)中所示的DMM的赋值和在均匀分布和稀疏空间之间发生变化。它定义了聚类参数和,并需要一个成对差异函数来计算差异向量,这样中的每个值就表示和所有集群参数之间的差异性。


    因此,软分配是通过softmax激活函数确定的,它使用软最大逆温度来控制稀疏性和偏差向量(重参数混合系数)。

  • Dissimilarity Mixture Decoder (DM-Decoder)
    该组件用于计算类簇参数和,定义了从稀疏空间到重建参数的潜在空间的映射。这是由所有类簇的参数和的凸组合实现的,如公式(11)。如果该可以构建成一个矩阵,重建就等价于如下的矩阵乘法:

  • Deep Decoder
    正常的Decoder组件,意在学习从重建参数空间到重建输入空间的映射。它定义了一个函数,该函数使用一组权值将输入样本转换为原始重建表示如下:


    整体模型通过优化组合Loss函数进行学习。
    Total loss


论文用了很巧妙的转化思想,将差异融合模型DMM融入到神经网络的学习中;利用将EM算法构建为编码和解码架构,使得概率顺理成章的成为了神经网络的表示。值得学习!

你可能感兴趣的:(论文阅读“Dissimilarity Mixture Autoencoder for Deep Clustering”)