论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第1张图片

 一.论文简介:

文章链接:https://arxiv.org/abs/2010.11929

 代码地址:GitHub - google-research/vision_transformer

        "An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale" 是由 Dosovitskiy 等人于 2020 年发表的论文。这篇论文提出了 Vision Transformer (ViT) 模型,使用 Transformer 架构来进行图像识别任务。

        传统的计算机视觉模型通常使用卷积神经网络(CNN)来提取图像特征,但 ViT 提出了一种完全基于自注意力机制的新方法。该方法将图像划分为一个个固定大小的图像块,将每个图像块视为一个"词",并将图像块的像素值作为输入。然后,这些图像块通过 Transformer 模型进行处理,以获得全局的图像表示。

        ViT 模型的关键思想是将图像处理任务转化为自然语言处理(NLP)中的语言建模问题。它使用了 Transformer 的编码器架构,包括自注意力机制和前馈神经网络,用于对图像块之间的关系进行建模。通过对图像块序列进行预训练和微调,ViT 模型能够学习到图像的语义信息和特征表示。

        该论文还介绍了一种名为"Hybrid Pre-training"的方法,通过在大规模图像数据集上进行预训练,并结合传统的监督学习方法进行微调,进一步提高了 ViT 模型的性能。研究人员在多个图像分类数据集上对 ViT 进行了实验评估,并取得了与传统 CNN 模型相媲美甚至超越的结果。

        "An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale" 的贡献在于将 Transformer 模型引入计算机视觉领域,并证明了在大规模图像数据上,使用自注意力机制进行图像分类任务是可行的。该论文的提出为后续的研究和发展奠定了基础,并在视觉领域引发了广泛的兴趣和探索。

二.论文翻译

2.1摘要:

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第2张图片

 基于自注意力机制的架构,尤其是Transformer模型(Vaswani等人,2017年)已成为自然语言处理(NLP)中的首选模型。主流方法是在大型文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调(Devlin等人,2019年)。由于Transformer模型具有计算效率和可扩展性,现在可以训练规模空前的模型,参数量超过1000亿(Brown等人,2020年;Lepikhin等人,2020年)。随着模型和数据集的增长,性能仍未达到饱和状态。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第3张图片

 然而,在计算机视觉领域,卷积神经网络(LeCun等人,1989年;Krizhevsky等人,2012年;He等人,2016年)仍然是主导架构。受到自然语言处理的成功启发,有多个研究尝试将类似CNN的架构与自注意力相结合(Wang等人,2018年;Carion等人,2020年),有些甚至完全替代了卷积操作(Ramachandran等人,2019年;Wang等人,2020a年)。然而,后一种模型虽然在理论上高效,但由于使用了专门的注意力模式,在现代硬件加速器上尚未有效扩展。因此,在大规模图像识别中,经典的ResNet-like架构仍然是最先进的方法(Mahajan等人,2018年;Xie等人,2020年;Kolesnikov等人,2020年)。

 受到Transformer在自然语言处理(NLP)中的扩展成功的启发,我们尝试将标准的Transformer直接应用于图像,尽可能少地进行修改。为此,我们将图像分割为图像块,并将这些图像块的线性嵌入序列作为Transformer的输入。图像块的处理方式与NLP应用中的标记(词)相同。我们以监督的方式对该模型进行图像分类训练。

 当在中等规模的数据集(如ImageNet)上进行训练时,如果没有强有力的正则化,这些模型的准确性将略低于具有相似规模的ResNet模型,仅有几个百分点的差距。这看似令人沮丧的结果是可以预料的:相比于卷积神经网络(CNN),Transformer缺乏某些固有的归纳偏置,例如平移等变性和局部性,因此在训练数据不足时无法良好地泛化。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第4张图片然而,如果模型在更大的数据集(1400万至3亿张图像)上进行训练,情况就会发生变化。我们发现,大规模训练胜过归纳偏置。当Vision Transformer(ViT)在足够规模上进行预训练,并应用于数据较少的任务时,取得了出色的结果。当在公共的ImageNet-21k数据集或内部的JFT-300M数据集上进行预训练时,ViT在多个图像识别基准测试中接近或超过了最先进的方法。特别是,最佳模型在ImageNet上达到了88.55%的准确率,在ImageNet-ReaL上达到了90.72%的准确率,在CIFAR-100上达到了94.55%的准确率,在VTAB套件的19个任务中达到了77.63%的准确率。

2.2相关工作

Transformer模型最初由Vaswani等人(2017年)提出,用于机器翻译,并且在许多自然语言处理(NLP)任务中成为最先进的方法。大型基于Transformer的模型通常在大规模语料库上进行预训练,然后针对具体任务进行微调:BERT(Devlin等人,2019年)使用去噪的自监督预训练任务,而GPT系列的工作则使用语言建模作为其预训练任务(Radford等人,2018年;2019年;Brown等人,2020年)。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第5张图片

将自注意力机制天真地应用于图像需要每个像素与其他每个像素进行关注。由于像素数量的平方成本,这在实际输入尺寸上无法进行可扩展的操作。因此,在图像处理的背景下应用Transformer时,过去已经尝试了几种近似方法。Parmar等人(2018年)仅在每个查询像素的局部邻域中应用自注意力,而不是全局应用。这种局部多头点积自注意力块可以完全替代卷积(Hu等人,2019年;Ramachandran等人,2019年;Zhao等人,2020年)。在另一种工作中,Sparse Transformers(Child等人,2019年)采用可扩展的全局自注意力近似方法,以适用于图像。另一种缩放注意力的方法是将其应用于不同大小的块(Weissenborn等人,2019年),在极端情况下,仅沿着单个轴进行应用(Ho等人,2019年;Wang等人,2020a年)。许多这些专门的注意力架构在计算机视觉任务上展现出有希望的结果,但需要复杂的工程技术才能在硬件加速器上高效实现。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第6张图片

 与我们最相关的是科登尼尔等人(2020)的模型,该模型从输入图像中提取大小为2×2的补丁,并在顶部应用完全的自我关注。这个模型与ViT非常相似,但我们的工作进一步证明,大规模的预训练使普通变形金刚能够与最先进的cnn竞争(甚至比之更好)。此外,Cordonnier等人(2020)使用了2×2像素的小补丁尺寸,这使得该模型仅适用于小分辨率图像,而我们也处理中等分辨率图像。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第7张图片

 也有很多人对将卷积神经网络(CNN)与自注意的形式相结合感兴趣,例如增强图像分类(贝罗等,2019)或进一步处理CNN的输出,例如目标检测(胡等,2018;2018;卡里昂等,2020),视频处理(王等,2018;孙等,2019),图像分类(吴等,2020),无监督对象发现(洛卡特罗等,2020)或统一文本视觉任务(陈等,2020c;陆等,2019;李等,2019)。

另一个最近的相关模型是图像GPT(iGPT)(Chen et al.,2020a),该模型在降低图像分辨率和颜色空间后,将变换器应用于图像像素。该模型以无监督的方式作为生成模型进行训练,然后可以对结果表示进行微调或线性探测,以获得分类性能,在ImageNet上达到72%的最大准确率。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第8张图片

我们的工作为探索比标准的ImageNet数据集更大规模的图像识别问题增添了越来越多的论文。使用额外的数据源可以在标准基准测试中实现最先进的结果(Mahajan等人,2018年;Touvron等人,2019年;Xie等人,2020年)。此外,Sun等人(2017年)研究了卷积神经网络在数据集规模上的性能变化,而Kolesnikov等人(2020年)和Djolonga等人(2020年)从ImageNet-21k和JFT-300M等大规模数据集中进行了卷积神经网络迁移学习的实证探索。我们也专注于这两个数据集,并使用Transformer而不是之前工作中使用的基于ResNet的模型进行训练。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第9张图片

图1:模型概述。我们将一个图像分割成固定大小的补丁,线性嵌入每个补丁,添加位置嵌入,并将得到的向量序列提供给一个标准的变压器编码器。为了进行分类,我们使用在序列中添加额外可学习“分类标记”的标准方法。变压器编码器的插图是受到Vaswani等人(2017)的启发

图片解读:

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第10张图片

 红色部分:预处理

黄色部分:特征提取

绿色部分:分类

  1. 预处理:

    • 对输入图像进行划分:将输入图像划分为大小为16x16的小块。这可以通过将图像分割成固定大小的小块或通过滑动窗口的方式进行。
    • 图像块的嵌入向量化:对每个图像块进行嵌入向量化,将图像块转换为嵌入向量序列。这可以通过使用一个学习的线性投影来实现,将每个图像块映射到一个固定维度的向量空间中。
  2. 特征提取:

    • 使用Transformer编码器:将嵌入向量序列作为输入,通过多层Transformer编码器进行处理。Transformer编码器由多个自注意力机制和前馈神经网络组成,用于捕捉图像块之间的上下文关系和特征。
    • 自注意力机制:自注意力机制允许每个图像块与其他图像块进行交互,并学习它们之间的关系。它通过计算注意力权重来加权不同图像块之间的信息传递和交互。
  3. 分类:

    • 分类头部:在经过Transformer编码器后,可以添加一个分类头部(classification head)来进行最终的分类预测。这可以是一个全连接层或其他适当的分类器结构,将经过编码的特征映射到类别预测空间。
    • 训练和微调:使用标注好的训练数据对整个模型进行端到端的训练。在训练过程中,通过最小化损失函数(如交叉熵损失)来优化模型参数。在训练完成后,可以对模型进行微调,以进一步提升性能。

2.3方法

在模型设计中,我们尽可能地遵循原始的Transformer(Vaswani等人,2017年)。这种故意简单的设置的优点在于,可扩展的自然语言处理(NLP)Transformer架构及其高效的实现几乎可以直接使用。

2.3.1 VISION TRANSFORMER (VIT)

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第11张图片

图1描述了该模型的概述。标准变压器接收一个令牌嵌入的一维序列作为输入。处理二维图像,我们重塑图像x∈RH×W×C一系列扁平的2D补丁xp∈RN×(P2·C),其中(H,W)是原始图像的分辨率,C是通道的数量,(P,P)是每个图像补丁的分辨率,N=HW/P2产生的补丁,也作为变压器的有效输入序列长度。变压器在所有的层中使用恒定的潜在向量大小D,所以我们将补丁变平,并通过一个可训练的线性投影(Eq。 1).我们将这个投影的输出称为补丁嵌入。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第12张图片

与BERT的[类]标记类似,我们在嵌入的补丁序列(z 0 0 = xclass)中准备了一个可学习的嵌入,其在变压器编码器(z 0 L)输出处的状态作为图像表示y (Eq。 4).在训练前和微调过程中,一个分类头都被附加在z 0 L上。分类头由一个在训练前时间有一个隐藏层的MLP实现,在微调时由一个单一的线性层实现。

位置嵌入被添加到补丁嵌入中,以保留位置信息。我们使用标准的可学习的一维位置嵌入,因为我们没有观察到使用更先进的二维感知位置嵌入的显著性能提高(附录D.4)。所得到的嵌入向量序列作为编码器的输入。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第13张图片

变压器编码器(Vaswani et al.,2017)由多层多头自注意(MSA,见附录A)和MLP块(Eq。2, 3).在每个块之前应用Layernorm(LN),在每个块之后应用剩余连接(Wang等人,2019;Baevski & Auli,2019)。MLP包含两层GELU非线性。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第14张图片

归纳偏差:我们注意到视觉变压器比cnn具有更少的图像特异性感应偏差。在cnn中,局部性、二维邻域结构和平移等方差被嵌入到整个模型的每一层中。在ViT中,只有MLP层是局部的和平移等变的,而自注意层是全局的。二维邻域结构的使用非常谨慎:在模型的开始,通过将图像切割成补丁,并在微调时间内调整不同分辨率的图像的位置嵌入(如下所述)。除此之外,初始化时的位置嵌入不包含关于斑块的二维位置的信息,斑块之间的所有空间关系都必须从头开始学习。

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第15张图片

混合体系结构。作为原始图像补丁的替代方案,输入序列可以由CNN的特征图形成(LeCun et al.,1989)。在这种混合模型中,斑块嵌入投影E (Eq。1)应用于从CNN特征图中提取的补丁。作为一种特殊情况,斑块的空间大小可以为1x1,这意味着输入序列是通过简单地将特征图的空间维变平并投影到变压器维来获得的。分类输入嵌入和位置嵌入。

2.3.2进行微调和更高的分辨率

论文翻译——VIT——An Image Is Worth 16x16 Words: Transformers for Image Recognition at Scale_第16张图片

通常,我们会在大型数据集上对ViT进行预训练,并对(较小的)下游任务进行微调。为此,我们去掉了预先训练好的预测头,并附加了一个零初始化的D×K前馈层,其中K是下游类的数量。与训练前相比,以更高的分辨率进行微调往往有益的(Touvron等人,2019;科列斯尼科夫等人,2020年)。当输入更高分辨率的图像时,我们保持补丁大小不变,这导致更大的有效序列长度。视觉转换器可以处理任意的序列长度(直到内存限制),然而,预先训练的位置嵌入可能不再有意义。因此,我们根据预先训练好的位置嵌入在原始图像中的位置,进行二维插值。请注意,这种分辨率调整和补丁提取是将图像二维结构的感应偏差手动注入视觉变压器的唯一点。

三.实验

实验设置如下:

  1. 数据集:作者使用了ILSVRC-2012 ImageNet数据集(包含1,000个类别和1.3M张图像)、ImageNet-21k(包含21,000个类别和14M张图像)以及JFT(包含18,000个类别和303M张高分辨率图像)。作者还使用了其他一些数据集,例如CIFAR-10/100、Oxford-IIIT Pets和Oxford Flowers-102等。对于这些数据集,采用了与Kolesnikov等人的方法相同的预处理方法。

  2. 模型变体:作者基于BERT的配置,在ViT模型中使用了不同的变体。模型的配置如表格1所示,其中包括ViT-Base、ViT-Large和ViT-Huge等不同大小的模型。

  3. 训练和微调:作者使用Adam优化器进行训练,设置了一些超参数,如学习率、权重衰减等。对于微调,使用了SGD优化器。在ImageNet结果中,作者使用了更高的分辨率进行微调,并采用了Polyak & Juditsky的平均方法。

  4. 评估指标:作者报告了微调准确率和少样本准确率等评估指标。微调准确率表示在微调后的模型上的性能,而少样本准确率是通过解决最小二乘回归问题来计算的,该问题将训练图像子集的表示映射为目标向量。

四.总结

        作者的研究表明,将Transformer直接应用于图像识别是可行的。与之前在计算机视觉中使用自注意力的工作不同,除了初始的图块提取步骤外,作者没有引入图像特定的归纳偏差到架构中。相反,他们将图像解释为一个图块序列,并通过NLP中使用的标准Transformer编码器进行处理。这种简单而可扩展的策略在与大规模数据集的预训练相结合时表现出惊人的效果。因此,Vision Transformer在许多图像分类数据集上达到或超过了现有的最先进方法,同时相对于预训练的成本较低。

        尽管这些初步结果是令人鼓舞的,但仍然存在许多挑战。其中一个挑战是将ViT应用于其他计算机视觉任务,如目标检测和分割。我们的结果与Carion等人的研究结果相结合,表明了这种方法的潜力。另一个挑战是继续探索自监督的预训练方法。我们的初步实验显示了自监督预训练的改进,但自监督和大规模监督预训练之间仍存在较大差距。最后,进一步扩展ViT可能会带来更好的性能。

你可能感兴趣的:(人工智能)