论文阅读“Reconsidering Representation Alignment for Multi-view Clustering”

Trosten D J, Lokse S, Jenssen R, et al. Reconsidering representation alignment for multi-view clustering[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1255-1265.

摘要梳理

对视图表示的分布进行对齐是当前最先进的深度多视图聚类模型的核心组成部分(对齐的重要性)。然而,作者发现了简单对齐表示分布做法的一些缺点。本文证明了这些缺点既导致了在表示空间中不可分离的类簇,又抑制了模型对视图进行优先排序的能力(即在最终的融合及聚类中,未考虑视图的重要程度)。基于这些观察结果,本文开发了一个简单的深度多视图聚类的基线模型。 提出的基线模型完全避免了表示对齐,同时表现类似于或优于目前的技术水平。进一步还通过添加一个对比学习组件来扩展基线模型。这就引入了一个选择性的对齐过程,保留了模型对视图进行优先级排序的能力。

The low-level content of the views are vastly different, but they can still carry the same high-level cluster structure.

The objective of multi-view clustering is to discover this common clustering structure, by learning from all available views simultaneously.

These models efficiently learn from multiple views by transforming each
view with a view-specific encoder network. The resulting representations are fused to obtain a common representation for all views, which can then be clustered by a subsequent clustering module.

多视图聚类中分布对齐的缺陷

作者首先给出了一个命题,假设数据集由个视图和个真实类簇标签组成,我们希望根据这个真实类簇标签对数据进行聚类。于是给出了3点假设:

由此,可以得到
(1)如果来自不同视图的表示是完美对齐的,那么数据对应的不重复的最大的类簇个数为:

(2)若未进行对齐,则为:

然后基于此假设,作者进行了一波证明和实验的展示。这里不进行赘述,感兴趣的可以移步原文。

方法浅析

图中,上半部的红框中是提出的基线模型SiMVC,CoMVC是在其基础上添加了样本级别的对比学习模块。

  • SiMVC
    来自不同视图的输入,经过view-sepcific编码器,进行特征提取。
    之后使用带权平均对各视图进行融合表示:
    为视图融合权重,相加之和为1。其做法是随机初始化非归一化的权重,在最终的融合层进行softmax进行归一化。作者指出这样做的两个好处(i)在训练过程中,该模型有一种简单且可解释的方法,根据其聚类目标对视图进行优先排序。通过不依赖辅助的注意力网络框架,也使模型在内存消耗和训练时间方面更有效。(ii)在推断过程中,权重可以作为任何其他模型参数,这意味着样本外推理可以使用任意的批处理大小来完成,而无需对训练后的模型进行任何修改。总之就是好用。
    将融合后的表示通过一层带有softmax激活的全连接层,得到维的软聚类分配。
    最终的聚类模块损失采用的是DDC loss。主要包含三个部分:
    其中,
    第一项用于保证在隐含表示空间中类簇是可分离和紧凑的。
    第二项鼓励对不同对象的聚类分配向量进行正交。
    第三项使类簇分配向量接近标准单形(这里可能是指接近one-hot)。
  • CoMVC
    在SiMVC的基础上,本文引入了对比学习模块,其损失为NT-Xent
    该损失是对比学习模块的常用损失,在这个基础上,作者对负例集合进行了选择。虽然对于式(11)而言,确实是普通对比学习的目标,但它可能与聚类目标相反,因为在聚类中,我们希望同一类簇的样本可以尽可能相似,并且聚在一起。
    为了防止对比损失破坏这种类簇的结构,本文使用了如下的方式对负例进行构造:首先定义了集合
    该集合由样本的所有视图中所有其他对象的相似性组成,但并不包含被分配到同一类簇的样本。然后,通过从中采样固定数量的相似性来构造。
    该过程确保了对比学习中只排斥由集群模块分配给不同集群的样本的表示。
    由此,CoMVC的损失函数如下:
    而是一个影响对比损失强度的超参数。是来自SiMVC的融合权重。此外,将对比损失与最小的融合权重相乘,会根据信息最小的视图的权重,自动调整对比损失的强度。
    另一方面来讲,对比学习模块是可选的:如果模型通过将其融合权值设置为0来学会放弃一个视图,那么它将同时禁用对齐过程。通过调整对齐权重而不依赖于对抗性训练,CoMVC可以利用对齐表示的优势,同时规避对抗对齐的缺点,以及可能存在的最小-最大优化的困难。

总的来说,第一个模型只是个多视图聚类的深度通用模型,甚至对融合和损失都没有进行改进。在此基线模型的基础上,引入对比学习替换基于对抗学习的对齐方式,一定程度上对多视图对齐进行了优化。平心而论,主要的创新在于对比学习中对负例的构造和整个模型中对视图优先的选择的思想。可能也是因为我没看大佬的证明吧。。。毕竟我是毋庸置疑的看不懂。。。

你可能感兴趣的:(论文阅读“Reconsidering Representation Alignment for Multi-view Clustering”)