PiT:重新审视Vision Transformers的空间维度

编者注:论文中使用深度卷积来实现多尺度的ViT,并在ImageNet分类上取得比ViT更优的性能(尤其是泛化能力),并得出结论,是这种空间维度逐阶段收缩、通道维度逐阶段增长的设置导致了性能和泛化能力的提升。

编者认为值得商榷的是,增加深度卷积同时也给模型增加了归纳偏置(例如局部性和平移不变性),可以作为注意力的很好补充。有没有可能是因为其它原因,例如是深度卷积的归纳偏置(局部性)导致PiT在ImageNet这样的中等规模数据集上优于ViT,而不是空间维度逐阶段收缩、通道维度逐阶段增长导致的呢?

编者认为,PiT的结论如果想要更具有说服力,可通过以下三个途径之一:

(1)将PiT中的深度卷积改成平均池化或最大池化等无参数OP;

(1)增设一个有深度卷积,但是没有空间维度收缩的PiT的实验,仅在ImageNet上实验;

(2)使用和ViT同样的大规模数据,以与ViT进行对比。

另外,编者认为,3.3节的注意力分析的结论非常有吸引力,提供了新的观点。


Rethinking Spatial Dimensions of Vision Transformers

https://readpaper.com/paper/3139587317

arXiv:2103.16302 [pdf, other]

Authors: Byeongho Heo, Sangdoo Yun, Dongyoon Han, Sanghyuk Chun, Junsuk Choe, Seong Joon Oh

摘要:视觉Transformers(ViT)作为一种替代现有卷积神经网络(CNN)的结构,将Transformers的应用范围从语言处理扩展到计算机视觉任务。由于基于Transformers的架构在计算机视觉建模方面具有创新性,因此针对有效架构的设计惯例研究较少。从CNN的成功设计原则出发,我们研究了空间维度转换的作用及其在基于Transformers的架构中的有效性。我们特别关注CNN的降维原理;随着深度的增加,传统的CNN增加通道尺寸,减少空间尺寸。我们的经验表明,这样的空间维度缩减也有利于Transformers架构,并在原始ViT模型的基础上提出了一种新的基于池化的视觉Transformers(PiT)。结果表明,PiT对ViT具有更好的模型性能和泛化性能。通过大量的实验,我们进一步证明PiT在图像分类、目标检测和鲁棒性评估等任务上优于基线。源代码和ImageNet模型可在https://github.com/naver-ai/pit  

8月17日提交,2021;V1于3月30日提交,2021;最初宣布2021年3月。

ICCV 2021 camera-ready version

1. 引言

基于自注意机制的架构在自然语言处理(NLP)领域取得了巨大成功[34]。有人试图利用计算机视觉中的自注意机制。非局部网络[37]和DETR[4]是代表性的工作,表明自注意机制在视频分类和目标检测任务中也分别有效。最近,Vision Transformer(ViT)[9]是一种由自注意层组成的Transformers架构,它被提议与ResNet[13]竞争,并表明它可以在ImageNet上实现最佳性能,而无需卷积操作[8]。因此,在计算机视觉中出现了一种基于自注意机制而非卷积运算的网络架构的新方向。

ViT与卷积神经网络(CNN)有很大不同。输入图像分为16×16块,并馈送至Transformers网络;除了第一个嵌入层外,ViT中没有卷积运算,位置交互只通过自注意层发生。虽然CNN限制了空间交互,但ViT允许图像中的所有位置通过Transformers层进行交互。虽然ViT是一种创新的架构,并已证明其强大的图像识别能力,但它遵循NLP[34]中的transformer架构,没有任何更改。CNN的一些基本设计原则在过去的十年中在计算机视觉领域被证明是有效的,但没有充分体现在ViT的设计中。因此,我们重新审视CNN架构的设计原则,并研究其应用于ViT架构时的有效性。

CNNs开始时输入是大空间尺寸和小通道维度的特征,并逐步地减小空间尺寸同时增加通道维度。通过称为空间池化的层,这种维度转换是必不可少的。现代CNN架构,包括AlexNet[21]、ResNet[13]和EfficientNet[32],都遵循这一设计原则。池化层与每层的感受野大小密切相关。一些研究[6,26,5]表明,池化层有助于提高网络的表达能力和泛化性能。但是,与CNN不同,ViT不使用池化层,而是对所有层使用相同的空间维度。

首先,我们验证了CNN上维度配置的优势。实验表明,ResNet风格的维数提高了ResNet的模型性能和泛化性能。为了扩展ViT的优势,我们提出了一种基于池化的视觉Transformers(PiT)。PiT是一种结合了新设计的池化层的Transformers架构。它支持ViT结构中的空间大小缩减,如在ResNet中一样。我们还研究了PiT与ViT相比的优势,并确认ResNet样式的维度设置也提高了ViT的性能。最后,为了分析PiT与ViT相比的效果,我们使用熵和平均距离度量分析了Transformers块的注意矩阵。该分析揭示了ViT和PiT各层的注意模式,有助于理解ViT和PiT的内在机制。

我们验证了PiT在各种任务上比ViT提高了性能。在ImageNet分类中,PiT和ViT在不同的尺度和训练环境下都优于ViT。此外,我们还比较了PiT与各种卷积结构的性能,并指出了Transformers结构优于CNN的规模(have specified the scale at which the transformer architecture outperforms the CNN)。我们进一步测量了PiT作为目标检测主干的性能。基于ViT和PiT的可变形DETR[44]在COCO 2017数据集[24]上进行了训练,结果表明,PiT作为除图像分类以外的任务的主干架构甚至优于ViT。最后,我们通过鲁棒性基准测试验证了PiT在各种环境下的性能。

2    相关工作

2.1. CNN的维度结构

尺寸转换可以在AlexNet[21]中找到,它是计算机视觉中最早的卷积网络之一。AlexNet使用三个最大池化层。在最大池化层中,特征的空间大小减少一半,通道大小通过最大池化后的卷积增加。VGGnet[30]使用5个最大池化使用5个空间分辨率。在池化层中,空间大小减少一半,通道大小增加一倍。GoogLeNet[31]还使用了池化层。ResNet[13]使用stride 2的卷积层而不是max pooling执行空间大小缩减。这是对空间归约方法的改进。stride 2的卷积层在最近的架构(EfficietNet[32],MobileNet[29,19])中也被用作池化方法。PyramidNet[11]指出,通道增加仅发生在池化层中,并提出了一种在池化层以外的层中逐渐增加通道大小的方法。ReXNet[12]报告说,网络的通道配置对网络性能有重大影响。总之,大多数卷积网络使用具有空间缩减的维数配置。

2.2. 自注意机制

Transformer架构[34]通过自注意机制显著提高了NLP任务的性能。Funnel-Transformer[7]通过池化层和skip-connection减少token,从而改进了Transformers架构。然而,由于NLP的架构与计算机视觉的基本区别,应用于池化的方法与我们的方法不同。进行了一些研究,以利用计算机视觉任务主干网络的Transformers结构。非局部网络[37]在CNN主干中添加了一些自注意层,这表明自注意机制可以用于CNN。[28](SASA)将ResNet的3×3卷积替换为局部自注意层。[36](Axial-deeplab)为每个空间轴使用注意层。[2](LambdaNet)通过减少注意机制的计算,实现整个空间图的自注意。这些方法中的大多数用自注意代替3x3卷积,或者增加一些自注意层。因此,ResNet的基本结构被继承,即它们具有作为ResNet的步幅2的卷积,导致网络具有ResNet的维度配置。

只有vision transformer使用在所有层中使用相同空间大小的结构。虽然ViT没有遵循ResNet的约定,但它在网络架构中包含了许多有价值的新组件。在ViT中,对每个空间token应用layer-norm。因此,ViT的层归一化比卷积神经网络的层归一化[1,39]更接近位置归一化[22]。尽管它与lambda网络重叠[2],但在网络的所有块中使用全局注意力并不常见。使用类token代替全局平均池化也是一种新方法,据报道,分离token可以提高蒸馏效率[33]。此外,Transformers的层配置、skip-connection位置和归一化位置也不同于ResNet。因此,我们的研究为新架构提供了方向。

3. 重新审视空间维度

为了将维度转换引入ViT,我们研究了网络架构中的空间维。首先,我们验证了ResNet架构中维度配置的好处。虽然维数转换已广泛应用于大多数卷积结构,但其有效性很少得到验证。基于这些发现,我们提出了一种基于池化的视觉Transformers(PiT),它将ResNet风格的维度应用于ViT。我们为transformer架构提出了一个新的池化层,并使用新的池化层(PiT)设计了ViT。通过PiT模型,我们验证了ResNet样式的维度是否对ViT有利。此外,我们还分析了ViT自注意块的注意矩阵,以研究PiT在Transformers机制中的作用。最后,我们介绍了对应于各种ViT规模的PiT架构。

图1

3.1. CNN的维度设置

如图1(a)所示,大多数卷积结构在增加通道维数的同时降低了空间维数。在ResNet50中,stem层将图像的空间大小减小到56×56。在几个层块之后,使用stride 2的卷积层将空间维度减少一半,并使通道维度增加一倍。在最近的架构中,使用带步长2的卷积层进行空间缩减是一种常用的方法[32、29、19、12]。我们进行了一个实验,根据卷积结构中是否存在空间归约层来分析性能差异。ResNet50是ImageNet中使用最广泛的网络之一,用于架构,经过100多个时期的训练,无需复杂的训练技术。对于具有ViT样式维度的ResNet,我们使用ViT的stem层将特征减少到14×14空间维度,同时减少stem层中的空间信息丢失。我们还删除了ResNet的空间缩减层,以保持所有层(如ViT)的初始特征尺寸。通过改变ResNet的通道大小,我们测量了几种大小的性能。

图2

首先,我们用ResNet风格或ViT风格的维度结构测量了ResNet的FLOPs与训练损失之间的关系。如图2(a)所示,ResNet(ResNet风格)显示了在相同计算成本(FLOPs)下较低的训练损失。这意味着ResNet风格的维度增加了架构的能力。接下来,我们分析了训练和验证精度之间的关系,这代表了架构的泛化性能。如图2(b)所示,ResNet(ResNetstyle)比ResNet(ViT样式)实现了更高的验证精度。因此,ResNet样式的维度配置也有助于提高泛化性能。总之,ResNet风格的维度提高了架构的模型能力和泛化性能,从而显著提高了验证精度,如图2(c)所示。

图3

3.2. 基于池化的Vision Transformer(PiT)

视觉Transformers(ViT)基于自注意执行网络操作,而不是卷积操作。在自注意机制中,所有位置之间的相似性用于空间交互。图1(b)显示了该ViT的尺寸结构。与CNN的stem层类似,ViT在第一个嵌入层通过patch分割图像,并将其嵌入到token中。基本上,该结构不包括空间缩减层,并且在网络的整个层中保持相同数量的空间token。虽然自注意操作不受空间距离的限制,但参与注意的空间区域的大小受特征空间大小的影响。因此,为了调整像ResNet这样的维度配置,ViT中还需要空间缩减层。

为了利用维度配置对ViT的优势,我们提出了一种称为基于池化的视觉Transformers(PiT)的新架构。首先,我们为ViT设计了一个池化层。我们的池化层如图4所示。由于ViT以2D矩阵而非3D张量的形式处理神经元响应,池化层应分离空间标记,并将其reshape为具有空间结构的3D张量。Reshape后,通过深度卷积来减小空间尺寸和增加通道。并且,将响应reshape为二维矩阵,用于Transformers块的计算。在ViT中,存在与空间结构不对应的部分,例如类标记或蒸馏标记[33]。对于这些部分,池化层使用额外的全连接层来调整通道大小以匹配空间token。我们的池化层支持ViT的空间缩减,并用于我们的PiT架构,如图1(c)所示。PiT包括两个池化层,形成三个空间尺度。

图4

使用PiT架构,我们进行了一项实验,以验证PiT与ViT的效果。实验设置与ResNet实验相同。图3(a)表示ViT和PiT的模型能力。在相同的计算成本下,PiT比ViT具有更低的训练损失。在ViT中使用空间归约层还可以提高架构的性能。训练准确度和验证准确度之间的比较显示出显著差异。如图3(b)所示,即使训练精度增加,ViT也不会提高验证精度。另一方面,在PiT的情况下,验证精度随着训练精度的增加而增加。泛化性能的巨大差异导致PiT和ViT之间的性能差异,如图3(c)所示。ViT论文[9]中报告了ViT即使在ImageNet中的FLOPs增加时也不能提高性能的现象。在ImageNet规模的训练数据中,ViT的泛化性能较差,PiT可以缓解这一问题。因此,我们认为空间归约层对于ViT的推广也是必要的。在ImageNet中,使用训练技巧可以提高ViT的泛化性能。实验部分介绍了训练技巧和PiT的结合。

3.3. 注意力分析

我们使用注意矩阵的测度分析[35,编者注:相应文献是Jesse Vig and Yonatan Belinkov. Analyzing the structure of attention in a transformer language model. arXiv preprint arXiv:1906.04284, 2019. 4, 5 ]Transformers网络。我们将表示为注意矩阵的分量。请注意,注意值是经过softmax之后的,也即。注意熵定义为:

    (1)

熵表示注意交互的扩散和集中程度。小熵表示集中的相互作用,大熵表示分散的相互作用。我们还测量注意力距离,

    (2)

表示特征图的第个token的相对空间位置。因此,注意距离显示了一个相比于整体特征尺寸的相对比率,这使得能够比较不同尺寸的特征。我们分析了基于Transformers的模型(ViT-S[33]和PiT-S),并自验证集所有图像上测量值,并对每层的所有头部进行平均。我们的分析仅针对空间标记,而非之前研究中的类别标记[35]。我们还跳过最后一个Transformers块的注意,因为最后一个注意的空间标记独立于网络输出。

图5

结果如图5所示。在ViT中,熵和距离随着层的加深而增加。这意味着,在ViT的浅层中,交互在相近的token间聚集,随着层的渐深,交互在大范围token中传播

。ViT的熵和距离模式类似于语言域中的Transformers模式[35]。PiT使用“空间尺寸”设置更改模式。在浅层(1-2层),较大的空间尺寸会增加熵和距离。另一方面,由于空间尺寸较小,深层(9-11层)的熵和距离减小。简言之,PiT池化层在浅层传播交互,在深层聚集交互

。与语言域的离散单词输入不同,视觉域使用需要预处理操作(如滤波、对比度和亮度校准)的图像块输入。在浅层中,PiT的传播交互比ViT的聚集交互作用更接近于预处理。此外,与语言模型相比,图像识别的输出复杂度相对较低。因此,在深层次上,集中的互动可能就足够了。视觉和语言领域之间存在显著差异,我们认为PiT的注意适合于图像识别。

3.4. 架构设计

ViT论文[9]中提出的架构针对比ImageNet更大的数据集。这些架构(ViTLarge、VitHugh)比一般的ImageNet网络具有非常大的规模,因此不容易将它们与其他网络进行比较。因此,根据先前对ImageNet上的Vision Transformer的研究[33],我们以类似于小规模ViT架构(ViT Base、ViT small、ViT Tiny)的规模设计了PiT。在DeiT文件[33]中,ViT Small和ViT Tiny被命名为DeiT-S和DeiT Ti,但为了避免因模型名称更改而造成混淆,我们对所有模型使用ViT。根据ViT的三个型号(tiny、small和base),我们设计了四个PiT型号(Tiny - Ti、eXtra Small-XS、Small-S和Base-B FLOPs)。详细的架构如表1所示。为了方便起见,我们将模型名称缩写为:Tiny-Ti、eXtra-Small-XS、Small-S、Base-B FLOPs和空间大小是基于224×224图像测量的。由于PiT使用比ViT更大的空间大小,我们将嵌入层的步幅大小减少到8,而ViT的patch大小为16。PiT使用两个池化层,通道增加通过增加多头注意的头部数量来实现。我们将PiT设计为具有与ViT相似的深度,并将通道和注意头调整为具有比ViT更小的FLOPs、参数大小和GPU延迟。我们澄清了PiT的设计不是采用大规模参数搜索,如NAS[25,3],因此可以通过网络架构搜索进一步改进PiT。

图1

4.    实验

我们通过各种实验验证了PiT的性能。首先,我们在ImageNet训练的不同训练环境中,比较了不同规模的PiT和ViT。并且,我们将ImageNet比较扩展到了Transformer以外的架构。特别是,我们重点比较了ResNet和PiT的性能,并研究了PiT是否能够击败ResNet。我们还将PiT应用于基于可变形DETR的目标检测器[44],并比较了作为目标检测主干架构的性能。为了从不同的角度分析PiT,我们在鲁棒性基准上评估了PiT的性能。

4.1. ImageNet分类

我们比较了表1中PiT模型与相应ViT模型的性能。为了明确网络的计算时间和大小,我们测量了每个网络的FLOPs、参数数量和GPU吞吐量(图像/秒)。GPU吞吐量是在NVIDIA V100单个GPU上测量的,批量大小为128。我们使用四个具有代表性的训练环境对网络进行训练。第一个是一个普通的环境,在没有复杂训练技术的情况下训练网络。由于缺乏有助于提高泛化性能的技术,香草设置的性能最低,也用于图2、3中先前实验。第二种是使用CutMix[41]数据增强进行训练。虽然只有数据增强功能发生了变化,但它显示出比普通设置更好的性能。第三个是DeiT[33]设置,它是在ImageNet-1k[8]上训练ViT的训练技术汇编。DeiT设置包括各种训练技术和参数调整,我们通过官方开源代码使用相同的训练设置。然而,在重复增强的情况下[18],我们确认它在小模型中有负面影响,并且仅用于基础模型。最后是一个DeiT中的知识蒸馏设置。在DeiT[33]的论文中,蒸馏装置被称为最佳性能装置。该网络使用额外的蒸馏token,并使用RegNetY-16GF[27]作为教师网络,使用蒸馏损失[17]进行训练。我们对所有设置使用AdamP[16]优化器,学习率、重量衰减和预热设置为等于DeiT[33]论文中的。我们为香草和CutMix设置训练了超过100个epoch的模型,为DeiT和蒸馏⚗设置训练了300个epoch的模型 设置。

结果如表2所示。与同名的PiT和ViT相比,PiT的FLOPs数更少,速度更快。然而,PiT显示出比ViT更高的性能。在香草和CutMix环境中,应用了一些训练技术,PiT的性能优于ViT。即使在DeiT和蒸馏设置的情况下,PiT也显示出与ViT相当或更好的性能。因此,PiT在性能和计算方面可以被视为比ViT更好的架构。图3中ViT的泛化性能问题也可以在本实验中观察到。与香草设置中的ViT-S和CutMix设置中的ViT-B一样,即使模型尺寸增大,ViT通常也不会显示性能的提高。另一方面,在所有训练设置中,PiT的性能随着模型大小的增加而增加。看来ViT的泛化性能问题通过池化层得到了缓解。

我们比较了PiT和卷积网络的性能。在之前的实验中,我们使用架构的相似性在相同的训练环境中进行了比较。但是,在比较各种架构时,不可能统一使用适用于所有架构的设置。因此,我们根据每个架构报告的最佳性能进行了比较。但是,它仅限于仅使用ImageNet图像训练的模型。当提出架构的论文和报告最佳性能的论文不同时,我们引用了这两篇论文。当架构不同时,FLOPs的比较往往无法反映实际吞吐量。因此,我们在单个V100 GPU上重新测量了GPU吞吐量和参数数量,并比较了性能指标的top-1精度。表3显示了比较结果。在PiT-B规模的情况下,基于Transformers的架构(ViT-B,PiT-B)优于卷积架构。即使在PiT-S规模中,PiT-S的性能也优于卷积结构(ResNet50)或吞吐量(EfficientNet-b3)。然而,在PiT Ti的情况下,卷积架构(如ResNet34[13]、MobileNetV3[19]和EfficientNet-b0[32]的性能优于ViT Ti和PiT Ti。总的来说,在ResNet50或更高的规模下,transformer架构比卷积架构表现出更好的性能,但在小规模下性能较弱。创建一个轻量级的Transformers架构,如MobileNet,是ViT研究的未来工作之一。

表3

此外,我们还对两种扩展训练方案进行了实验:长训练和大分辨率微调。表4显示了结果。如之前的研究[33]所示,长期训练计划(1000个epoch)显著改善了ViT的性能。因此,我们在长期训练方案上验证了PiT。如表4所示,PiT模型与ViT模型在长期训练计划中表现相当。虽然性能改进比蒸馏降低⚗ 尽管如此,PiTs在吞吐量方面仍优于ViT。大分辨率(384×384)微调是一种计算量小的大型ViT模型训练方法。在大分辨率设置下,PiT的性能与ViT相当,但在吞吐量方面不如ViT。这意味着PiT设计为224×224,该设计与大分辨率不兼容。然而,我们相信PiT可以通过为384×384设计新的层来超越ViT。

表4

4.2. 目标检测

我们通过可变形DETR[44]中COCO数据集[24]上的目标检测来验证PiT。我们使用不同的主干对探测器进行训练,包括ResNet50、ViT-S和PiT-S。除了图像分辨率外,我们遵循原始文件[44]的训练设置。由于原始图像分辨率对于基于Transformers的主干来说太大,我们将图像分辨率减半以用于所有主干的训练和测试。为了获得最佳性能,我们使用边界框细化和两阶段方案[44]。对于ViT-S的多尺度特征,我们使用PiT上池化层位置后的第2、第8和第12层特征。所有检测器都经过50个epoch的训练,40个epoch的学习率下降了1/10。

表5显示了2017年VAL的AP测量得分。基于PiT-S的检测器性能优于基于ViTS的检测器。结果表明,PiT的池化层不仅对ImageNet分类有效,而且对预训练的目标检测主干也是有效的。我们使用分辨率为600×400的随机噪声图像测量了单图像延迟。基于PiT的检测器的延迟低于基于ResNet50或ViT-S的检测器。虽然PiT检测器的性能无法超过ResNet50检测器,但PiT检测器的延迟更好,并且比ViT-S的性能有显著的改善。对基于PiT的探测器训练设置的额外调查将提高PiT探测器的性能。

表5

4.3. 鲁棒性基准

在本小节中,我们研究了所提出的架构在抗输入变化的鲁棒性方面的有效性。我们假设,现有的ViT设计概念(保持从输入层到最后一层的空间维度)存在两个概念限制:缺乏背景鲁棒性和对局部辨别性视觉特征的敏感性。因此,我们假设PiT,我们新的池化机制设计选择,在背景鲁棒性基准和局部辨别敏感性基准方面比ViT表现更好。

我们采用了四种不同的鲁棒性基准。Occlusion benchmark测量ImageNet验证精度,其中图像的中心112×112patch为零。这个基准测试模型是否只关注一个小的有区别的视觉特征。ImageNet-A(IN-A)是通过从web上收集ResNet50的故障案例[15]构建的数据集,其中收集的图像包含不寻常的背景或非常小的对象[23]。从这个基准中,我们可以了解模型对异常背景或对象大小变化的敏感性如何降低。然而,由于IN-A是通过收集ResNet50预测错误标签的图像(由200个ImageNet子类查询)构建的,因此该数据集可能偏向于ResNet50功能。因此,我们采用背景挑战(BGC)基准[40]来探索明确的背景鲁棒性。BGC数据集由两部分组成:前景和背景。该基准测量模型验证精度,同时保持前景,但不利地改变另一幅图像的背景。由于BGC数据集建立在ImageNet的九个子类之上,基线随机概率为11.1%。最后,我们使用快速梯度符号法(FGSM)[10]测试了对手攻击的鲁棒性。

表6显示了结果。首先,我们观察到PiT在所有鲁棒性基准测试中都比ViT表现出更好的性能,尽管它们在标准ImageNet基准测试中表现出类似的性能(80.8 vs.79.8)。它支持我们的尺寸设计使模型对背景和局部鉴别特征不那么敏感。此外,我们还发现ResNet50对遮挡样本的性能下降比PiT显著:PiT下降5%,80.8→ 74.6;ResNet50下降15%,79.0→ 67.1。这意味着,根据卷积运算的性质,ResNet50更多地关注局部鉴别区域。有趣的是,在表6中,在背景挑战数据集中,ResNet50优于ViT变体(32.7 vs.21.0)。这意味着与ResNet设计选择相比,自注意机制无意中关注更多的背景。克服视觉Transformers的这一潜在缺陷将是一个有趣的研究方向。

5.结论

在本文中,我们已经证明了在CNN中广泛使用的设计原则——通过池化或卷积以步幅方式执行的空间维度转换,在基于Transformers的架构(如ViT)中未被考虑;最终影响模型性能。我们首先使用ResNet进行了研究,发现空间维度的转换提高了计算效率和泛化能力。为了充分利用ViT的优势,我们提出了一种PiT,该PiT将一个池化层合并到ViT中,通过大量实验,PiT表明这些优势可以很好地与ViT协调。因此,在显著提高ViT架构性能的同时,我们已经证明,通过考虑空间交互比率的池化层对于基于自注意的架构是必不可少的。感谢NAVER AI实验室成员的宝贵讨论和建议。NSML[20]已用于实验。我们感谢审稿人的富有成效的反馈。

感谢NAVER AI实验室成员的宝贵讨论和建议。NSML[20]已用于实验。我们感谢审稿人的富有成效的反馈。

你可能感兴趣的:(PiT:重新审视Vision Transformers的空间维度)