Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding

最近,自监督学习(SSL)在学习图像表示方面取得了巨大的经验进步。然而,我们对表示的理解和知识仍然有限。这项工作表明,siamese-network-based SSL取得SOTA的成功主要基于学习图像patches的表征。特别是,我们表明,当我们仅学习固定比例图像patch的表示并线性聚合图像(实例)的不同patch的表征时,它可以在多个基准上实现与基线方法相当甚至更好的结果。此外,我们还表明,patch表征聚合还可以大大改进各种SOTA基线方法。我们还建立了SSL目标和图像patches共生统计建模之间的形式化连接,这补充了普遍的不变性观点。通过在嵌入空间和投影空间中可视化不同图像块的最近邻,我们表明,虽然投影具有更多不变性,但embedding space往往保持更多的等变性和局部性

在这项工作中,我们寻求基于实例的SSL方法背后的原理,并认为成功在很大程度上来自根据图像中的共生统计信息学习图像patches的表征。为了证明这一点,我们将当前的SSL方法简化为使用单一crop尺度来学习固定大小的图像patches的表征,并在我们的公式和共现统计建模之间建立正式联系。patch表征可以线性聚合(bag-of-words)以形成图像的表征。与基于整个图像的基线表示法相比,学习后的表示法实现了类似或更好的性能。特别是,即使kNN分类器也能很好地处理聚合patch特征。这些发现也与最近在基于patch特征的监督学习方面的工作产生了共鸣。我们还表明,对于使用多尺度crop预训练的基线SSL方法,整个图像表示本质上是来自同一实例的不同patches表征的聚合。

此外,给定各种SOTA基线SSL模型,我们表明相同的聚合过程可以进一步提高表征质量。然后,我们在ImageNet和CIFAR10数据集上提供了基于余弦相似性的图像patches表征可视化。特别是,我们发现,虽然投影空间实现了显著的不变性,但经常用于表示评估的embedding space倾向于保留更多的局部性和等变性。我们的发现可能为实例增强不变SSL方法的成功提供有用的解释和理解。共现统计建模公式和嵌入空间中的等变保持特性都补充了当前流行的不变性观点。最后,这些结果激发了对未来几个潜在方向的有趣讨论。

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第1张图片
从同一实例中,提取固定大小的图像块,进行颜色增强,编码到额mbedding和投影空间。在训练过程中,来自同一实例的不同图像patch投影被拉到一起,同时应用反折叠正则化。训练后,对来自同一实例的不同patch embedding进行平均,以获得图像表示。

1.Self-Supervised Image Patch Embedding and Co-Occurrence Statistics Modeling

如前所述,与基于实例的SSL方法中使用的典型多尺度增强不同,我们使用固定尺度裁剪来学习固定大小图像块的表示。我们表明,任何SSL目标都可以使用,如第4节所示,只要它们学习到non-collapsed表示,其中来自同一上下文1的不同图像块在投影空间中很接近,如图1所示。在这项工作中,我们主要使用基于协方差正则化的技术[Bardes等人,2021,Zbontar等人,2021,Li等人,2022,HaoChen等人,2021],为此,我们提出了一个通用公式:

实例内方差不变性协方差正则化(I2 VICReg)

where z = g(h) and h = f(x; θ). We call h the embedding and z the projection of an image patch, {x} all have the same size. The parametric function f(·; θ) is a deep neural network with parameter θ, and g is typically a much simpler neural network with only one or a few fully connected layers.demb is the dimension of an embedding vector, z.

对于图像,我们提取固定大小的图像面片,在embedding f和投影g之前进行颜色增强,给定图1中红色虚线框中的图像块xi,目标尝试使其投影zi对实例中其他图像块的投影保持不变。 此外,正则化尝试去相关z的不同投影维度,同时保持每个维度的方差。此类VICReg目标的一个具体示例是中提出的以下软约束损失函数:

Relationship to Co-Occurrence Statistics Modeling

假设x1和x2是从同一图像中采样的两个颜色增强patch。我们用p(x1)和p(x2)表示其边缘分布,其中包括由于在图像内的不同位置采样而产生的变化、随机颜色增强以及由于从数据集采样图像而产生的变化。我们还用p(x1,x2)表示它们的联合分布,假设x1和x2来自同一图像。我们表明,对比学习可以通过以下目标来理解,即通过x1和x2生成的两个嵌入z1和z2的内积来近似归一化共生统计:

命题3.1。上述优化问题可以重写为以下光谱对比形式:

证明相当简单,见附录A.1。我们可以看到,第一项类似于等式1中的相似项,第二个光谱对比项HaoChen等人[2021]最小化了两个独立patch embedding之间的内积,这具有正交化它们的效果。如前所述,在等式1中,谱对比正则化和协方差正则化项之间存在对偶性。有关更深入的讨论,请参阅附录A.2。

Bag-of-Feature Model.

在我们学习了固定比例图像patch的embeeding之后,我们可以将实例中的所有图像patch{x11,…,xHW}嵌入到embedding space中{h11,…,hHW}。然后,整个图像表示Rimg是所有patch embedding的线性聚合,如图1所示。根据图像patch的大小,从同一实例聚合一小部分patch在实践中可能就足够了Eg.对于比例=0.2,我们发现与聚合所有补丁相比,16个补丁聚合实现了类似的性能。我们也可以对投影进行网格化以获得整个图像表示,但embedding通常包含更多的等变性和局部性,从而获得更好的性能。我们将在第5节中展示这个结果。

2. Quantitative Empirical Results

通过实验,我们证明了用固定大小的面patch训练的自监督学习方法学习的表示几乎与用多尺度crop学习的表示一样强。在某些情况下,使用多尺度crop进行预训练并在固定中心crop上进行评估,在性能方面等同于使用固定大小的小斑块进行预训练并通过平均整个图像的嵌入进行评估。我们进一步表明,对于多尺度预训练模型,随着聚集patch数量的增加,固定尺度小图像patch的平均嵌入收敛于中心裁剪图像生成的嵌入。因此,使用多尺度预训练和中心作物评估的标准实践可以被视为获得平均patch embedding的有效方法。此外,我们还表明,patch 聚合评估可以进一步显著改善基线模型的表示。我们的实验使用了CIFAR-10、CIFAR-100和更具挑战性的ImageNet-100数据集。

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第2张图片
基于补丁和标准自监督预训练方法在CIFAR-10上的性能。我们评估了线性分类器在各种预训练方法中的性能,包括基于patch的训练(其中在预训练期间对0.2级的patch进行采样)和标准训练,其中在训练前,patch尺度在0.08和1.0之间均匀采样。“中心”评估是标准评估协议,其中线性分类器在图像的单个固定中心面片上进行训练和评估,该图像是CIFAR数据集的整个图像。对于n patch评估,分类器根据n个patch的线性聚合embedding进行训练和评估,使用与预训练期间相同的比例因子进行采样。比例0.2和0.08分别对应于14×14和9×9图像块。

基于补丁聚合的多尺度预训练模型评价

我们在最后一节中的结果表明,当使用各种大小的patch执行预训练步骤,并且使用聚合patch embedding执行评估步骤时,可以获得最佳性能。因此,评估用其他自监督学习方法预训练的模型的嵌入,以研究该评估协议是否提供了统一的性能提升,这是很有趣的。我们对预训练1000个epoch的VICReg模型和预训练800个peoch的SwAV模型进行了评估。所有模型均从其原始存储库下载。表4显示了使用完整图像和聚合嵌入在ImageNet验证集上的线性评估性能。在所有模型上,聚合嵌入优于fullimage评估,通常超过1%。此外,增加聚合过程中平均的patch数也会提高性能。由于内存和运行时问题,我们没有超过48个补丁,但我们假设补丁数量的进一步增加将进一步提高性能,正如我们在CIFAR-10上所证明的那样,其中256个补丁的性能明显优于16个补丁。

基于面片的嵌入到全实例嵌入的收敛性。

在本实验中,我们证明了对于多尺度预训练SSL模型,线性聚合patch嵌入收敛于实例嵌入。我们采用多尺度预训练VICReg基线模型,并使用从ImageNet数据集中随机选择的512幅图像。对于每幅图像,我们首先得到224×224中心裁剪的嵌入。然后,我们随机聚合不同100×100图像块的N个嵌入,并计算块聚合嵌入和中心裁剪嵌入之间的余弦相似性。图3(a)显示,当N从1增加到16到所有图像patch,聚合表示收敛到实例嵌入

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第3张图片
图3:(a)patch嵌入收敛到实例嵌入。对于基线多尺度预训练VICReg模型,我们证明了随着聚集的patch数的增加,patch嵌入聚合收敛到整个图像嵌入。(b) ImageNet上各种RandomResizedCrop比例的线性评估。(a) N个patch嵌入的聚合与实例嵌入之间的余弦相似性的演化,实例嵌入是图像中所有可能patch的聚合。(b) 在中央、1和16个patch评估设置上,评估各种预训练patch大小的线性分类器的性能。比例0.02、0.08、0.2和1.0分别对应于32×32、64×64、100×100和224×224个图像块。

Patch Embedding Visualization: Invariance or Equivariance?

patch嵌入可视化:不变性还是等变性?实例增强不变SSL方法主要从不变性角度出发。在本节中,我们提供了CIFAR-10最近邻和ImageNet余弦相似映射可视化,以进一步了解学习的表示。在CIFAR-10实验中,我们采用在CIFAR-10上预先训练了14×14个图像块的模型,并从训练集中计算所有不同图像块的投影和嵌入向量。然后,对于给定的14×14图像块(例如图4中由红色虚线框包围的图像块),我们根据投影和嵌入空间中的余弦相似性来可视化其k个最近邻。图4显示了两个不同图像块的结果。由绿色方框圈出的面片是来自同一类别的另一个实例的图像patch,而未圈出的patch则来自同一实例。在ImageNet实验中,我们采用多尺度预训练VICReg模型,然后对于给定的图像patch(例如,图5中由红色虚线框包围),我们可视化了该patch嵌入与来自同一实例的其他patch嵌入之间的余弦相似性。在本实验中,我们使用了两种不同的图像块比例,71×71和100×100。热图可视化标准化为相同比例。事实上,在嵌入空间中,最近的神经网络大多是相似“部分”信息的局部移位patch。然而,对于投影空间,许多神经网络是来自同一类的不同“部分”信息的patch例如,我们可以在图4中看到,投影空间中“轮子”的NNs可能是“门”或“窗”,然而,嵌入空间中的NNs都包含“轮子”信息。在第二个示例中,“马腿”NNs可能具有不同的“马”身体部位,而嵌入空间中NNs都是“马腿”

结论

在本文中,我们试图了解实例增强不变SSL方法的成功。我们证明了学习固定大小图像块(I2-VICReg)的嵌入并从同一实例中线性聚合它们可以达到与多尺度预训练相当甚至更好的性能。另一方面,通过多尺度预训练模型,我们证明了整个图像嵌入本质上是patch embedding的平均值。从概念上讲,我们在I2 VICReg和patch的共生统计建模之间建立了密切联系。通过可视化最近邻和余弦相似热图,我们发现投影向量相对不变,而嵌入向量是equivariant的,这可能解释了其更高的判别性能。这一结果表明,学习共生统计的SSL目标鼓励不变解,而投影头引入的隐式偏差实现了更有利的等变特性。

本节继续显示使用14×14 patch 预训练的模型。在该可视化中,我们主要使用kNN和余弦相似性来查找查询patch的最近邻,标记在红色虚线框中。同样,绿色框表示补丁来自同一类别的其他实例;红色框表示修补程序来自不同类别的其他实例。没有颜色框的补丁来自同一实例。下面,我们将讨论该问题的几个有趣方面。

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第4张图片
与嵌入向量相比,投影向量更具不变性,嵌入空间包含局部信息,当patch大小足够小时,这些信息在相似面片之间共享。我们可以看到,与投影空间相比,嵌入空间倾向于保留更多的局部性

Additional Projection and Embedding Spaces Comparison

如图7所示,嵌入空间的语义信息崩溃程度要小得多。投影空间倾向于将类的不同“部分”折叠为类似的向量,而嵌入空间保留了关于patch中细节的更多信息。这表现为相邻patch之间的视觉相似性更高。

Different “Parts” in the Embedding Space

在图10中,我们提供了一些更典型的“部分”patch,并显示了它们的嵌入邻居。虽然许多部分由不同实例共享,但我们也发现一些不太理想的情况,例如图10(4a)(2d),其中最近的邻居几乎都来自同一实例。如前所述,目标基本上是对patch的共生统计进行建模。如果同一个补丁没有被不同的实例“共享”,那么它就相对缺乏信息。虽然完全相同的补丁可能不会“共享”,但网络设计中嵌入的颜色增强和深度图像可能会创建近似共享。

Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第5张图片
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第6张图片
图6:投影空间和嵌入空间中余弦相似性热图的更多可视化。这里,查询patch由红色虚线框标记,其大小为71×71,实例图像大小为224×224。嵌入空间包含更多的局部信息,而投影空间相对更具不变性,尤其是当patch具有足够的信息来确定类别时。
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第7张图片
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第8张图片
图11:飞机的组成结构。“天空”部分由船只、鸟类等共享。“翅膀”类似于船只的轮廓,也由飞鸟共享。螺旋桨部分主要由其他飞机共享。
Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding_第9张图片
图12:马的组成结构。左下角包含“阴影”,鹿和狗共享类似的阴影。右下角部分包含“腿”,鹿和狗也共享这些腿。然而,从背部到大腿主要由其他马共享。

你可能感兴趣的:(Intra-Instance VICReg: Bag of Self-Supervised Image Patch Embedding)