Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏

本视觉Transformers(86M参数)在ImageNet上达到83.1%的top-1精度,蒸馏版本高达84.4%!优于ViT、RegNet和ResNet等,代码刚刚开源!

注:文末附【Transformer】学习交流群
Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第1张图片
Training data-efficient image transformers & distillation through attention
Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第2张图片

  • 作者单位:Facebook AI, 索邦大学。注:其中一位也是DETR的作者之一
  • 代码(不到一天,已经近200 star了):https://github.com/facebookresearch/deit
  • 论文:https://arxiv.org/abs/2012.12877

最近,显示出纯粹基于注意力的神经网络可解决图像理解任务,例如图像分类。但是,这些视觉transformers使用昂贵的基础架构预先接受了数亿个图像的训练,从而限制了它们在更大的社区中的应用。关于视觉Transformer,推荐看一下这个最新综述:华为等提出视觉Transformer:全面调研

在这项工作中,通过适当的训练计划,我们仅通过在Imagenet上进行训练即可生产出具有竞争力的无卷积transformers。我们不到三天就在一台计算机上对其进行了训练。我们的视觉transformers(86M参数)在ImageNet上无需外部数据即可达到83.1%的top-1精度(单幅评估)。我们共享我们的代码和模型,以加快社区在这方面的研究进展。


此外,我们介绍了特定于transformers的师生策略。它依靠蒸馏令token确保学生通过注意力向老师学习。我们展示了这种基于token的蒸馏的兴趣,尤其是在使用卷积网络作为教师时。这使我们能够报告与卷积网络相比在Imagenet(我们可以获得高达84.4%的准确性)和迁移到其他任务时具有竞争力的结果。
Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第3张图片
Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第4张图片

主要贡献:

实验结果

Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第5张图片


Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第6张图片

Transformer交流群

已建立CVer-Transformer微信交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer5555。加的时候备注一下:Transformer+学校+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

Facebook提出DeiT:通过注意力来训练数据高效的图像Transformer和蒸馏_第7张图片

你可能感兴趣的:(Transformer,计算机视觉论文速递,backbone,深度学习,人工智能,机器学习,计算机视觉,卷积)