自监督:BYOL;DetCon;SimSiam;SEER

BYOL    https://arxiv.org/abs/2006.07733v3

Bootstrap your own latent: A new approach to self-supervised Learning

介绍了一种新的自监督图像表示学习方法,即Bootstrap-Your-Own-latential(BYOL)。BYOL依赖于两个神经网络,即在线和目标网络,它们相互作用并相互学习。从图像的增强视图出发,训练网络预测同一图像在不同增强视图下的目标网络表示。同时,我们用在线网络的慢移动平均值来更新目标网络。虽然最先进的方法依赖于负对,但BYOL在没有负对的情况下实现了新的技术水平。使用ResNet-50结构的线性评估,BYOL在ImageNet上达到74.3%的top-1分类准确率,使用更大的ResNet达到79.6%。我们证明了BYOL在转移和半监督基准上的表现与现有技术相当或更好。在GitHub上给出了我们的实现和预训练模型。

https://github.com/sthalles/PyTorch-BYOL

https://github.com/lucidrains/byol-pytorch



DetCon    https://arxiv.org/abs/2103.10957

Efficient Visual Pretraining with Contrastive Detection

自我监督的预训练已经被证明能为迁移学习提供有力的表征。然而,这些性能的提高需要大量的计算成本,而最先进的方法需要比有监督的预训练多一个数量级的计算量。我们通过引入一个新的自监督目标对比检测来解决这个计算瓶颈,对比检测的任务是识别对象级的特征。这一目标为每幅图像提取了丰富的学习信号,从而实现了从ImageNet到COCO的最先进的传输性能,同时所需的预训练减少了5倍。特别是,我们最强的ImageNet预训练模型的性能与SEER相当,SEER是迄今为止最大的自我监督系统之一,它使用了1000倍以上的预训练数据。最后,我们的目标无缝地处理更复杂的图像(如COCO中的图像)的预训练,通过有监督的从COCO到PASCAL的转移学习来缩小差距。

为了产生DetCon目标所需的掩码,我们研究了几种分割过程,从简单的空间启发式到基于图的算法( graph-based algorithms)。

Spatial heuristic    空间启发式。最简单的分割我们只考虑基于空间接近度的组位置。具体来说,我们将图像划分为一个n×n的非重叠方子区域网格(图3,第2列)。如第3.1节所述,当使用单个全局掩码(n=1)时,DetConS目标恢复为SimCLR。

Image-computable masks: FH.    图像可计算掩模。我们还考虑Felzenszwalb-Huttenlocher算法[16],一个经典的分割过程,使用基于像素的相似性迭代合并区域(图3,第3列)。我们通过改变尺度s和最小簇大小c这两个超参数,在COCO上训练时使用s∈{500,1000,1500}和c=s,在ImageNet上训练时使用s=1000,生成了一组不同的掩模。(Efficient graph-based image segmentation,2004)

Image-computable masks: MCG.     图像可计算掩模。多尺度组合分组[2]是一种更复杂的算法,它在中级分类器的指导下,将超像素分组到许多重叠的对象建议区域(图3,第4列)。对于每幅图像,我们使用16 MCG最高分数的掩模。注意,我们的公式支持掩模可以重叠的事实。(Multiscale combinatorial grouping,2014)

Human annotated masks.     人类注释。在这项工作中,我们考虑了使用上述无监督mask所带来的好处。在最后一节中,我们询问更高质量的掩码(由人工注释器提供;图3,第5列)是否可以改进我们的结果。



SimSiam ★★★★★

Exploring Simple Siamese Representation Learning    https://arxiv.org/abs/2011.10566

暹罗网络已成为一种常见的结构,在各种最近的模型,无监督视觉表征学习。这些模型最大限度地提高了一个图像的两个增强之间的相似性,但要满足一定的条件,以避免崩溃的解决方案。在本文中,我们报告了令人惊讶的实验结果,简单的连体网络可以学习有意义的表示,即使使用以下任何一种:(i)负样本对,(ii)大批量,(iii)动量编码器。我们的实验表明,对于损失和结构,确实存在坍塌解,但停止梯度操作在防止坍塌中起着至关重要的作用。我们对停止梯度的含义提出了一个假设,并通过概念验证实验进一步验证了这一假设。我们的“SimSiam”方法在ImageNet和下游任务上取得了有竞争力的结果。我们希望这个简单的基线将激励人们重新思考暹罗体系结构在无监督表征学习中的作用。代码将可用。


SEER

Self-supervised Pretraining of Visual Features in the Wild

https://github.com/facebookresearch/vissl    https://arxiv.org/pdf/2103.01988v2.pdf

用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER

你可能感兴趣的:(自监督:BYOL;DetCon;SimSiam;SEER)