DINOv2: A Self-supervised Vision Transformer Model

论文地址:[2304.07193] DINOv2: Learning Robust Visual Features without Supervision (arxiv.org)

演示地址:DINOv2 by Meta AI

DINOv2: A Self-supervised Vision Transformer Model_第1张图片

Meta 在开源了Segment Anything (参见我的另外两篇文章:北方的郎:Meta:segment anything, 北方的郎:Meta Segment Anything 测试效果)之后又开源了一组DINOv2模型。这次的功能更多了,包括分类、分割、图像检索、深度估计等。

作者指出:自然语言处理领域近期在大规模数据的模型预训练方面取得的突破为计算机视觉领域的类似基础模型铺平了道路。这些模型可以通过产生通用的视觉特征大大简化任何系统中图像的使用,即在不进行微调的情况下适用于图像分布和任务的特征。这也是本文的中心思想,即可以通过类似的方法来训练模型,生成一些通用的视觉特征,这些特征适用于不同的图像分布和不同的任务,无需进行进一步的微调即可使用。而最重要的是,仅需使用已有的自监督学习方法便能够生成这样的特征。

DINOv2: A Self-supervised Vision Transformer Model_第2张图片

文章获取了142M的图像数据,结合DINO和iBOT losses,KL正则化等训练策略训了一个foundation model,在一些下游任务上不用finetune也可以去的不错的效果。

DINOv2: A Self-supervised Vision Transformer Model_第3张图片

关键做法:

1. 网络结构:DINOv2包含两个完全相同的ResNet网络,其中一个作为学生网络,另一个作为教师网络。两者输入不同的图像,输出通过动量更新机制交互学习。

2. 数据增强:输入图像进行随机裁剪、翻转和颜色扰动,以学习图像的局部特征与全局特征。中心偏移机制进一步减轻数据增强导致的特征偏移。

DINOv2: A Self-supervised Vision Transformer Model_第4张图片

3. 动量更新:学生网络的输出通过带有动量的更新规则不断逼近教师网络的输出,实现自下而上的特征学习过程。动量可以平滑更新并加速学习。

4. 实验设置:使用ImageNet-1k数据集, Resize图像到256x256,batch size为4096, total epochs为800。所用设备为8个V100 GPU。

5. 实验结果:学习得到的特征在ImageNet分类与检测任务上取得了SOTA性能,表明具有很强的泛化能力。特征可视化结果显示学习到的特征层次逐渐由低级到高级。

DINOv2证明了通过非监督学习可以学习到高质量的视觉特征,这开创了计算机视觉领域的新方向。其学习到的特征甚至超过了监督学习方法,这为未来大规模学习视觉特征提供了思路。

你可能感兴趣的:(AI应用,transformer,深度学习,计算机视觉)