论文阅读“Contrastive clustering”(AAAI2021)

论文标题

 

Contrastive clustering

论文作者、链接

作者:Li, Yunfan and Hu, Peng and Liu, Zitao and Peng, Dezhong and Zhou, Joey Tianyi and Peng, Xi

链接:Contrastive Clustering| Proceedings of the AAAI Conference on Artificial Intelligence

代码:GitHub - Yunfan-Li/Contrastive-Clustering: Code for the paper "Contrastive Clustering" (AAAI 2021)


Introduction逻辑(论文动机&现有工作存在的问题)

聚类——往往在真实世界的数据集中,计算消耗是非常大的——深度聚类通过使用神经网络来提取对下游任务有用的图片的特征信息——现在注重于如何学习特征表达,以及端到端方式的进行聚类——两阶段方式交替学习的过程中(特征学习阶段和聚类阶段),会累积误差——两阶段的方法只能处理离线任务(即,是基于整个数据集的聚类,在大尺度数据集上难以适用)

论文阅读“Contrastive clustering”(AAAI2021)_第1张图片

论文核心创新点

揭示了特征矩阵的行列与实例以及簇表达的关系

从实例级和簇级进行对比学习

端到端式的训练


相关工作

对比学习

深度聚类


论文方法

论文阅读“Contrastive clustering”(AAAI2021)_第2张图片

 模型主要由三部分构成,一对主干网络,实例级对比头和簇级对比头。简单来说,成对的主干网络通过数据增广来构建数据对,然后从这些增广的样本中提取特征,最后实例级对比头和簇级对比头分别从特征矩阵的行和列进行对比学习。训练过后,根据簇对比头预测的软标签得到簇的分布。

成对的主干网络

用数据增广来构建样本对。一个数据实例x_i,随机从增广家族\mathcal{T}中生成两个数据增广T^a,T^b,对数据使用增广得到两个增广的视图,即x_i^a=T^a(x_i),x_i^b=T^b(x_i)。合理的选择数据增广可以使得下游任务有更好的性能。本文用了五种数据增广,包含:Resized-Crop, ColorJitter, Grayscale, HorizontalFlip, and Gaussian-Blur。

用一个权重共享的神经网络f(\cdot)来提取增广视图的特征,即h_i^a=f(x_i^a),h_i^b=f(x_i^b)

实例级对比头

对比学习的目标是增广正样本对的相似性,同时减小负样本对的相似性。在不同的情况下定义不同的样本对。本文中,将同一个实例生成的增广样本构成正样本对,负样本对则反之。

给定一个大小为N的mini-batch,CC执行两种数据增广得到2N个数据即\left\{x_{1}^{a}, \ldots, x_{N}^{a}, x_{1}^{b}, \ldots, x_{N}^{b}\right\}。对于具体的样本x_i^a,总共有2N-1个样本对,其中只有其对应的样本x_i^b构成的样本对\{x_i^a,x_i^b\}为正样本对,其余的2N-2个样本对是负样本对。

为了减少对比损失导致的信息丢失,本文并不直接对特征矩阵进行对比学习。而是使用一个MLP记为g_I(\cdot)将特征矩阵映射到子空间中,即z^a_i=g_I(h^a_i),在此基础上应用实例级对比损失。用余弦距离衡量每个样本对的相似性,即:

论文阅读“Contrastive clustering”(AAAI2021)_第3张图片

 其中k_1,k_2 \in \{a,b\}以及i,j \in [1,N]。对于一个给定的样本x_i^a,其损失为:

论文阅读“Contrastive clustering”(AAAI2021)_第4张图片

 其中\tau_I是温度参数。我们希望去区别数据集中所有的正样本,所以对每一个增广的视图计算实例级对比损失,即:

论文阅读“Contrastive clustering”(AAAI2021)_第5张图片

簇级对比头

跟着“标签也是一种特征”的思想,当将一个数据点映射到一个空间,该空间的维度等于簇的个数,此时,特征的第i个元素可以视为分配给第i个簇的概率,最后特征向量也相应的成为一个软标签。

Y^a \in \mathbb{R}^{N \times M}作为聚类头对一个mini-batch的第一个增广视图的输出(Y^b则为第二个增广),然后Y^a_{n,m}则可以解释为样本n分配给簇m的概率,其中N是batch-size,M是簇的个数。因为每一个样本只属于一个簇,所以Y^a的每一行都应该是one-hot的。至此,Y^a的第i列可以视为第i个簇的特征表示,每一列之间都应该相异。

g_I(\cdot)相似,也使用一个两层的MLP记为g_C(\cdot),将特征矩阵映射到M维空间,即y^a_i=g_C(h^a_i),其中,y^a_i表示样本x^a_iY^a的第i行)的软标签。\hat{y^a_i}Y^a的第i列,簇i在第一个数据增广下的特征,将其与\hat{y^b_i}(簇i的第二个增广特征)结合构建正的簇样本对\{\hat{y^a_i},\hat{y^b_i}\},剩余的2M-2对都是负样本对。相似的,用余弦距离度量样本对之间的相似性,即:

论文阅读“Contrastive clustering”(AAAI2021)_第6张图片

 其中k_1,k_2 \in \{a,b\}以及i,j \in [1,M]。不失一般性,用以下损失函数,来将簇\hat{y}^a_i与除\hat{y}^b_i之外的所有的簇进行区分,即:

论文阅读“Contrastive clustering”(AAAI2021)_第7张图片

 其中\tau_C是簇级的温度参数。对所有簇进行遍历,簇级对比损失计算为:

论文阅读“Contrastive clustering”(AAAI2021)_第8张图片

 其中H(Y)=-\sum_{i=1}^{M}\left[P\left(\hat{y}_{i}^{a}\right) \log P\left(\hat{y}_{i}^{a}\right)+P\left(\hat{y}_{i}^{b}\right) \log P\left(\hat{y}_{i}^{b}\right)\right]是一个mini-batch中的簇分配概率P\left(\hat{y}_{i}^{k}\right)=\frac{1}{N} \sum_{t=1}^{N} Y_{t i}^{k}, k \in\{a, b\}的熵函数,这一项可以避免琐碎解(即,将所有的样本都分配到同一个簇中)

目标函数


消融实验设计

数据增广的重要性

对比头的效果


一句话总结

在SimCLR的框架下引入簇的矩阵解释,并应用于对比学习


论文好句摘抄(个人向)

(1)In this sense, the i-th column of Y a can be seen as a representation of the i-th cluster and all columns should differ from each other.

你可能感兴趣的:(论文阅读,人工智能,深度学习)