CoAtNet: Marrying Convolution and Attention for All Data Sizes

本文系统调研了CNN和Transformer的特性,并将两者结合提出新的家族式网络:CoAtNet,无额外数据时高达86%准确率,在JFT加持下,高达89.77%!性能优于CvT、BotNet和Swin等网络。

谷歌两天祭出两大Backbone,昨天的ViT-G,今天的CoAtNet…

注:别老收藏呀,欢迎点赞,支持分享!

想看更多CVPR 2021论文和开源项目可以点击:

CVPR2021-Papers-with-Code

CoAtNet

CoAtNet: Marrying Convolution and Attention for All Data Sizes
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第1张图片

  • 作者单位:谷歌大脑(Quoc V. Le等人)
  • 论文:https://arxiv.org/abs/2106.04803

Transformers 在计算机视觉方面吸引了越来越多的兴趣,但它们仍然落后于最先进的卷积网络。在这项工作中,我们表明虽然 Transformer 往往具有更大的模型容量,但由于缺乏正确的归纳偏差,它们的泛化可能比卷积网络更差。

为了有效地结合两种架构的优势,我们提出了 CoAtNets(发音为“coat”nets),这是一个基于两个关键insight构建的混合模型系列:

CoAtNet: Marrying Convolution and Attention for All Data Sizes_第2张图片

(1)深度卷积和自注意力可以通过简单的相对注意力自然地统一起来;

(2) 以有原则的方式垂直堆叠卷积层和注意力层在提高泛化、容量和效率方面非常有效。

注:算法细节建议去看原文消化

CoAtNet家族
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第3张图片
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第4张图片

实验结果

实验表明,我们的 CoAtNets 在各种数据集的不同资源限制下实现了最先进的性能。
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第5张图片

例如,CoAtNet 在没有额外数据的情况下实现了 86.0% 的 ImageNet top-1 准确率,在额外的 JFT 数据下达到了 89.77%,优于卷积网络和 Transformer 的现有技术。

CoAtNet: Marrying Convolution and Attention for All Data Sizes_第6张图片

值得注意的是,当使用来自 ImageNet-21K 的 1300 万张图像进行预训练时,我们的 CoAtNet 实现了 88.56% 的 top-1 准确率,与使用来自 JFT 的 300M 图像进行预训练的 ViT-huge 相匹配,同时使用的数据减少了 23 倍。

CoAtNet: Marrying Convolution and Attention for All Data Sizes_第7张图片
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第8张图片
CoAtNet: Marrying Convolution and Attention for All Data Sizes_第9张图片

CVer-视觉Transformer交流群

建了CVer-Transformer交流群!想要进Transformer学习交流群的同学,可以直接加微信号:CVer9999。加的时候备注一下:Transformer+学校/公司+昵称,即可。然后就可以拉你进群了。

强烈推荐大家关注CVer知乎账号和CVer微信公众号,可以快速了解到最新优质的CV论文。

CoAtNet: Marrying Convolution and Attention for All Data Sizes_第10张图片

你可能感兴趣的:(Transformer,backbone,计算机视觉论文速递,人工智能,深度学习,机器学习,计算机视觉,Transformer)