AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

ABSTRACT
本文在前言中指出,尽管Transformer在自然语言处理任务上的成就,但其在计算机视觉中的应用仍然有限。在视觉中,注意力机制要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构。文章表明,图像patch的一维序列对CNN不是必需的,应用在transformer直接执行图像分类任务更好。当对大量数据进行预训练并传输到多个中型或小型图像识别基准 (ImageNet,CIFAR-100,VTAB等) 时,与最先进的卷积网络相比,视(ViT) 获得了出色的结果,同时的计算资源更少。
INTRODUCTION
基于自注意力的体系结构,特别是在transformer 应用,已经成为(NLP) 中的首选选择模型。主要方法是在大型文本集上进行预训练,然后在较小的任务集上进行fine-tune。随着模型和数据集的增长,该模型仍然没有性能饱和的迹象。
在计算机视觉上,卷积网络仍然占据着主导地位,收到NLP的启发,一些工作试着融合自注意力机制和CNN,另一些工作完全取代了卷积结构,后一种方法理论上可以很高效,但由于使用了专门的注意力机制,很难在现代硬件上进行扩展,因此,在很大的数据集上传统的ResNet依旧处于领先地位。
文章收到NLP中Transformer缩放成功的启发,尝试将Transformer直接用于图像分类,并尽量减少修改。文中做法为:将图片分为多个patch,将这些patch的线性序列作为模型的输入,并用监督的方式进行训练。
为了验证这个假设,作者在更大的数据集上进行了预训练(14M指代ImageNet 22K数据集,300M指代Google的JFT 300M数据集。大规模的预训练表明优于归纳偏置。Vision Transformer只要在有足够数据进行预训练的情况下就能在下游任务上获得较好的迁移学习效果。在ImageNet 21k或者JFT-300M上进行训练时,ViT就能获得和现在最好的残差网络相近,或者说更好的结果。具体而言,在ImageNet上实现了88.55%,在ImageNet-ReaL上实现了90.72%,在CIFAR-100上实现了94.55%,在VTAB上实现了77.63%(这个数据集融合了19个数据集,主要用于测试鲁棒性)。

你可能感兴趣的:(深度学习,人工智能)