CVPR 2021 Exploring Simple Siamese Representation Learning

CVPR 2021 Exploring Simple Siamese Representation Learning_第1张图片

从理论与实验角度证实了所提方法的有效性;与此同时,还侧面证实了对比学习方法成功的关键性因素:孪生网络

目前孪生网络已成为无监督视觉表征学习模型的常见结构。这些模型在满足特定条件(避免孪生网络的所有输出都“崩溃”成一个常量)下,最大限度地提高了同一图像的两个放大部分之间的相似性。目前主要存在3种防止孪生网络崩溃的策略:一、对比学习,例如SimCLR,负对相斥,正对相吸,负样本对排除了来自解空间的恒定输出;二、聚类是另一种避免恒定输出的方法,例如SwAV将在线聚类引入孪生网络中。三、除了对比学习和聚类,BYOL仅依赖正样本对,但在使用动量编码器的情况下不会让孪生网络崩溃。本论文是FAIR的陈鑫磊&何恺明大神在无监督学习领域的又一力作,提出的简单孪生表达学习机制(SimSiam)不使用上述的任一方法(负样本对,大批量,动量编码器),也可以避免表达学习中的“崩溃”问题,并取得很好的效果。

论文中,直接最大化了一个图像的两个视图的相似性,在预测层对孪生网络结构引入了一定的非对称性;这种非对称可以帮助一定程度让缓解特征崩溃的问题,因为两个共享分支不再被强迫输出完全同样的特征,预测层一定程度容纳了非一致的特征;实验表明“崩溃”虽然存在,但停止梯度的操作是预防这种现象出现的关键。在适当的动量系数下,移动平均行为可以提高精度,但移动平均行为与防止“崩溃”出现没有直接关系。停止梯度的重要性表明,一个不同的潜在优化问题还有待解决。假设存在两组隐式变量,SimSiam的行为类似于在优化各组变量之间交替进行。相当于引入了另一组的中间的隐变量,然后迭代地优化这个特征隐变量以及特征网络;理论与实验中证实了这一假设。另外实验还证实了孪生网络是相关方法共同成功的基本原因。“不变性”的定义意味着对同一概念的两次观察应该产生相同的输出,孪生网络可以很自然地引入归纳偏差来建模不变性。类似于卷积,它是通过权重共享来建模平移不变性的一种成功的归纳偏差,权重共享孪生网络可以对更复杂的变换(例如增强)建模不变性。

为了最大化了一个图像的两个视图的相似性,在体系结构(如下图所示)中,采用图像中的两个随机增强视图作为输入;这两个视图同时被输入到一个由骨干网络(例如ResNet)和一个MLP头组成的编码器中分开进行处理;编码器在两个视图之间共享权重。预测MLP头,将一个视图的输出进行变换,并另一个视图的输出搭配起来,另一个视图需要做停止梯度运算;将两个输出向量的负余弦相似性最小化,使两者的相似度最大化。

论文提出的模型在不依赖于大批量训练的情况下,经典批量大小也适用。通过在ImageNet上做基准实验,证实了论文提出的方法颇具竞争力。

你可能感兴趣的:(CVPR,2021)