【计算机视觉】MoCo v3 讲解

MoCo v3

论文信息

标题:An Empirical Study of Training Self-Supervised Vision Transformers

作者:Xinlei Chen, Saining Xie, Kaiming He

期刊:ICCV 2021

发布时间与更新时间:2021.04.05 2021.04.08 2021.05.05 2021.08.16

主题:计算机视觉、对比学习、MoCo

arXiv:[2104.02057] An Empirical Study of Training Self-Supervised Vision Transformers (arxiv.org)

代码:GitHub - facebookresearch/moco-v3: PyTorch implementation of MoCo v3 https//arxiv.org/abs/2104.02057

模型

作者谦虚地指出 MoCo v3 这篇论文没有提出全新的方法,而是探究了在对比学习孪生网络范式下训练 ViT(Vision Transformer)时出现不稳定的直接原因以缓解不稳定的训练技巧,同时比较了采用 Trm 结构的编码器与采用 CNNs 的编码器在性能上的差异。相比于广为使用的 CNNs ,学者们对与 ViT 模型相关的训练方法和技巧研究甚少,本篇论文的工作旨在补充训练 ViT

你可能感兴趣的:(【NLP,&,CV】,1024程序员节,计算机视觉,人工智能,机器学习,神经网络,深度学习)