数字图像本质上是复杂的,并展示高级信息,如对象、场景和模式。这些信息可以通过计算机视觉算法进行分析和解释,以提取有关图像内容的有意义的见解,例如识别物体,跟踪运动,提取特征等。由于计算机视觉在各个领域的应用,它一直是一个活跃的研究领域。然而,由于亮度、姿态、背景杂波等的变化,从图像数据中提取高级信息可能具有挑战性。
卷积神经网络(cnn)的出现给计算机视觉领域带来了革命性的变革。这些网络已成功应用于各种计算机视觉任务,尤其是图像识别、目标检测和分割。cnn之所以受欢迎,是因为它能够从原始图像中自动学习特征和模式。一般来说,局部模式,称为特征图案,系统地分布在整个图像中。卷积层中的不同过滤器被指定用于捕获不同的特征基元,而cnn中的池化层被用于降维并结合对变化的鲁棒性。cnn的这种局部处理可能会导致空间相关性的丧失,从而影响其在处理更大和更复杂模式时的性能。
最近在计算机视觉领域,在Vaswani等人于2017年首次将transformer引入文本处理应用程序之后,出现了一些向transformer的变体。2018年,Parmer等人利用transformer进行图像识别任务,并展示了出色的结果。从那时起,人们对将transformer应用于各种视觉相关应用的兴趣越来越大。2020年,Dosovitskiy等人推出了专为图像分析而设计的transformer架构Vision transformer (ViT),并显示出具有竞争力的结果。ViT模型的工作原理是将输入图像分成一定数量的小块,每个小块随后被压平并馈送到一系列transformer层。transformer层使模型能够学习斑块和它们对应的特征之间的关系,从而使其能够在图像的全局尺度上识别特征主题。与具有局部接受野的cnn不同,ViTs利用其自关注模块来建模长期关系,这使它们能够捕获图像的全局视图。vit的全局接受野帮助它们保持全局关系,从而识别分布在图像上的复杂视觉模式。在这种情况下,Maurício等人报道,与cnn相比,vit在各种应用中可能显示出有希望的结果。
除了设计和捕获视觉模式的方式不同(如下图所示),cnn和vit在归纳偏差上也存在差异。cnn严重依赖于相邻像素之间的相关性,而vit假设最小的先验知识,使得它们明显依赖于大型数据集。虽然ViT模型在对象识别、分类、语义分割和其他计算机视觉任务上取得了突出的成果,它们不是一个放之四海而皆通的解决方案。在训练数据较小的情况下,尽管vit的学习能力很大,但与cnn相比,它们可能表现出有限的性能。此外,它们巨大的接受野需要更多的计算。因此,引入了混合视觉transformer(HVT)的概念,也称为CNN-Transformer,以结合cnn和ViTs的功率。这些混合模型利用cnn的卷积层来捕获局部特征,然后将这些特征馈送到vit中,以使用自注意机制获得全局上下文。hvt在许多图像识别任务中显示出改进的性能。
最近,已经进行了不同的有趣的调查,以讨论transformer的最新架构和实施进展。这些调查文章中的大多数要么关注特定的计算机视觉应用,要么深入讨论专门为自然语言处理(NLP)应用开发的transformer模型。相比之下,这篇调查论文强调了结合cnn和transformer概念的HVTs (CNN-Transformer)的最新发展。它提供了一个分类法,并探讨了这些混合模型的各种应用。此外,本调查还提出了一般vit的分类,并旨在根据其核心架构设计对新兴方法进行彻底分类。
本文首先介绍了ViT网络的基本组成部分,然后讨论了各种最新的ViT体系结构。所报道的ViT模型根据其不同的特征大致分为六类。此外,还包括对hvt的详细讨论,强调了他们对利用卷积操作和多注意机制的优势的关注。调查报告涵盖了hvt的最新架构和在各种计算机视觉任务中的应用。此外,提出了hvt的分类法,根据这些体系结构将卷积操作与自关注机制相结合的方式对它们进行分类。这种分类法将hvt分为七大类,每一类都反映了利用卷积和多注意操作的不同方式。下表列出了常用的缩写。
本文结构
下图说明了transformer的基本架构布局。最初,输入图像被分割、平面化并转换为称为Patch embeddings的低维线性嵌入。然后将位置嵌入和类标记附加到这些嵌入中,并将其馈送到 transformer 的编码器块中,以生成类标签。除了多头注意(MSA)层之外,编码器块还包含一个前馈神经网络(FFN)、一个规范化层和一个残差连接。最后,最后一个头(MLP层或解码器块)预测最终输出。下面的小节将详细讨论每个组件。
补丁嵌入是ViT体系结构中的一个重要概念。它涉及将图像补丁转换为矢量表示,这使得ViT能够使用基于转换器的方法将图像处理为标记序列。输入图像被分割成固定大小的非重叠部分,平面化成一维向量,并使用具有 D 嵌入维数的线性层投影到高维特征空间。这种方法使ViT能够学习不同补丁之间的长期依赖关系,从而在涉及图像的任务上获得有希望的结果。
X p a t c h N ∗ D = R ( I i m a g e A ∗ B ∗ C ) , ( 1 ) X^{N*D}_{patch}=R(I^{A*B*C}_{image}),(1) XpatchN∗D=R(IimageA∗B∗C),(1)
ViT体系结构的核心组件是自关注机制,它在显式表示序列中实体之间的关系方面起着至关重要的作用。它通过根据全局上下文信息表示每个实体并捕获它们之间的交互来计算一个项目对其他项目的重要性。自注意模块将输入序列转换为三个不同的嵌入空间,即查询、键和值。将带有查询向量的键值对集合作为输入。输出向量是通过对softmax运算符后面的值进行加权和来计算的,其中权重由评分函数计算。
A t t e n t i o n ( Q , K , V ) = s o f t m a x ( Q ⋅ K T d k ) ⋅ V Attention(Q,K,V)=softmax(\frac{Q·K^T}{\sqrt{d_k}})·V Attention(Q,K,V)=softmax(dkQ⋅KT)⋅V
其中,Q、V、K^T分别为查询矩阵、值矩阵和转置键矩阵。1√dk是比例因子,dk是键矩阵的维数。
单头自注意模块的有限容量往往导致其只关注少数位置,而可能忽略其他重要位置。为了解决这个限制,使用了MSA。MSA利用自注意块的平行堆叠来提高自注意层的有效性。它通过将各种表示子空间(查询、键和值)分配给注意层来捕获序列元素之间的各种复杂交互。MSA由多个自注意块组成。每个都为查询、键和值子空间配备了可学习的权重矩阵。然后将这些块的输出连接起来,并使用可学习参数 W o W_o Wo 将其投影到输出空间。这使得MSA能够关注多个部分,并有效地捕获所有领域中的关系。注意过程的数学表示如下:
M S A ( Q , K , V ) = C o n c a t ( h e a d 1 , h e a d 2 , . . , h e a d h ) ⋅ W o h e a d i = A t t e n t i o n ( Q i , K i , V i ) , a n d i = 1 , 2 , . . . , h MSA(Q,K,V) = Concat(head_1, head_2,..,head_h)· W_o\\ head_i = Attention(Q_i,K_i,V_i), and i= 1,2,..., h MSA(Q,K,V)=Concat(head1,head2,..,headh)⋅Woheadi=Attention(Qi,Ki,Vi),andi=1,2,...,h
与卷积处理相比,自注意动态计算每个输入序列的滤波器的能力是一个显著的优势。与通常是静态的卷积过滤器不同,自关注可以根据输入数据的特定上下文进行调整。自关注对输入点数量或其排列的变化也具有鲁棒性,这使得它成为处理不规则输入的好选择。另一方面,传统的卷积过程不太适合处理具有可变对象的输入,并且需要类似网格的结构,如2D图像。自我关注是对序列数据建模的强大工具,在包括NLP在内的各种任务中都很有效。
模型采用 Transformer 专用前馈网络(FFN)从输入数据中获取更复杂的属性。它包含多个完全连接的层和一个非线性激活函数,如层之间的GELU。自关注模块之后的每个编码器块都使用FFN。FFN的隐藏层的维数通常为2048。这些ffn或MLP层是局部的,在转换上等同于全局自关注层。
F F N ( X ) = b 2 + W 2 ∗ σ ( b 1 + W 1 ∗ X ) FFN(X)=b_2+W_2*σ(b_1+W_1*X) FFN(X)=b2+W2∗σ(b1+W1∗X)
非线性激活函数GELU用σ表示。网络的权重表示为W1和W2,而b1和b2对应于层特定偏差
编码器/解码器块中的子层(MSA和FFN)利用残差链路来提高性能并加强信息流。将原始输入位置嵌入作为附加信息加入到MSA的输出向量中。然后在残差连接之后进行层归一化操作。
X o u t p u t = L a y e r N o r m ( X ⊕ O S L ) X_{output}=LayerNorm(X⊕ O_{SL}) Xoutput=LayerNorm(X⊕OSL)
其中 X 为原始输入,O_{SL}为各子层的输出,⊕表示剩余连接。
在计算机视觉任务领域,vit已经越来越受欢迎,但与cnn相比,它们仍然缺乏图像特定的归纳偏差,通常被称为先验知识。这种归纳偏差包括平移和尺度不变性等特征,这是由于不同空间位置的共享权重。在cnn中,局部性、平动等方差和二维邻域结构根植于整个模型的每一层。此外,核利用相邻像素之间的相关性,这有助于快速提取良好的特征。另一方面,在ViT中,图像被分割成线性块(令牌),通过线性层馈入编码器块,以模拟图像中的全局关系。然而,线性层在提取局部相关性方面缺乏有效性。
许多HVT设计都专注于卷积在捕获图像局部特征方面的效率,特别是在图像处理工作流程开始时进行补丁和标记。例如,卷积视觉transformer(CvT)使用卷积投影来学习图像补丁中的空间和低级信息。它还利用分层布局,逐步减少令牌数量和增加令牌宽度来模拟cnn中的空间降采样效果。类似地,卷积增强的图像Transformer(CeiT)利用卷积操作通过图像到令牌模块提取低级特征。紧凑卷积Transformer(CCT)提出了一种新的序列池化技术,它还集成了卷积池重塑块来进行标记化。当从头开始训练时,它在较小的数据集(如CIFAR10)上的准确率约为95%,这对于其他传统的vit来说通常很难实现。
在没有额外数据的情况下,CoAtNets独特的深度卷积架构和相对自关注实现了出色的ImageNet top-1精度。为了创建更强的跨补丁连接,Shuffle Transformer提供了Shuffle操作和CoAT是一种混合方法,它结合了深度卷积和交叉注意来编码各种尺度上的令牌之间的关系。另一种方法“Twins”建立在PVT的基础上,结合了可分离深度卷积和相对条件位置嵌入。最近,混合架构MaxVit引入了多轴关注的思想。他们的混合块由基于mb卷积的卷积组成,然后是块智能自注意和网格智能自注意,当重复多次时,该块创建分层表示,并能够完成图像生成和分割等任务。分块关注层和网格关注层分别能够提取局部和全局特征。卷积和Transformer模型的优势将在这些混合设计中结合起来。
近年来,在ViT架构中进行了不同的修改。这些修改可以根据它们的注意机制、位置编码、预训练策略、架构变化、可伸缩性等进行分类。ViT架构可以根据架构修改的类型大致分为五类,即(i)基于补丁的方法,(ii)基于知识转移的方法,(iii)基于移动窗口的方法,(iv)基于注意力的方法,以及(v)基于多transformer的方法。然而,随着CNN的归纳偏置引入ViTs,其性能得到了提升。在这方面,我们亦按结构设计将 混合视觉transformer 分为七类。ViT架构的分类如下图所示。
Wu等人提出了一种快速蒸馏方法以及一种新的架构,称为TinyViT。他们的主要概念是在预训练过程中将大型预训练模型的学习特征传递给小型预训练模型(下图)。除了事先在磁盘上进行编码的数据扩充外,还对教练模型的输出logit进行了简化并存储,以节省内存和计算资源。然后,学生模型使用解码器重建保存的数据增强,并通过输出logits传输知识,两个模型都独立训练。结果证明了TinyViT在大规模测试集上的有效性。
一些ViT体系结构采用了基于窗口的转换方法来增强其性能。这种方法首先由Liu et al .在他们的Swin Transformer。Swin Transformer具有与ViT相似的架构,但具有移位的窗口方案,如下图所示。它通过在每个不重叠的局部窗口内计算自关注计算来控制自关注计算,同时仍然提供跨窗口连接以提高效率。这是通过将基于移位窗口的自关注实现为两个连续的Swin Transformer块来实现的。第一个块使用常规的基于窗口的自我关注,第二个块移动这些窗口并再次应用常规的基于窗口的自我关注。改变窗口的想法是使跨窗口连接成为可能,这可以帮助网络提高其模拟全局关系的能力。
Song等人提出了一种新的用于视觉目标跟踪的ViT架构,命名为CSWinTT,该架构利用了多尺度下基于循环移动窗口的注意力。该方法将像素注意力增强为窗口注意力,并使跨窗口的多尺度注意力聚合为不同尺度的注意力。这保证了跟踪对象的完整性,并为目标对象生成最佳的精细匹配。此外,循环移位技术利用位置信息扩展了窗口样本,提高了精度和计算效率。通过将位置信息整合到注意机制中,该模型可以更好地处理物体位置随时间的变化,并且可以更有效地跟踪物体。总体而言,所提出的体系结构在使用基于视点的模型提高视觉目标跟踪的准确性和效率方面显示出良好的效果。
Sun等人在他们的ViT架构中使用了两种不同的注意力模块来完全捕捉图像中的全局关系(下图)。他们提出了一个像素级的注意力模块来学习初始层中的局部交互。后来,他们使用了一个局部注意模块来提取全局级别的信息。SeT在ImageNet和MS COCO数据集上的结果优于其他方法。
MPViT利用多尺度补丁技术和基于多路径的ViT架构来学习不同尺度下的特征表示。他们提出的多尺度补丁技术利用cnn来创建不同尺度的特征图(下图)。随后,他们利用多个Transformer编码器来处理多尺度补丁嵌入。最后,它们聚合来自每个编码器的输出以生成聚合输出。与ImageNet数据集上的现有方法相比,所提出的MPViT显示出更好的结果。
尽管取得了成功的表现,但vit面临三个主要问题:
a)无法通过考虑局部邻域的相关性来捕获低级特征;
b)由于其MSA机制,在计算和内存消耗方面代价高昂;
c)固定大小的输入令牌,嵌入。
为了克服这些问题,2021年后将出现cnn和vit的杂交热潮。hvt结合了cnn和Transformer架构的优势,创建了捕获图像中的局部模式和全局上下文的模型。由于在几个图像相关任务中取得了有希望的结果,它们在研究界获得了宝贵的关注。研究人员通过利用不同的方法合并cnn和Transformer,在该领域提出了各种架构。这些方法包括但不限于在Transformer块中添加一些CNN层,在cnn中引入了多注意机制,或者使用cnn提取局部特征和Transformer来捕获远程依赖关系。在这方面,我们基于卷积运算与ViT体系结构的集成模式定义了一些子类别。这些包括(1)早期层集成,(2)横向层集成,(3)顺序集成,(4)并行集成,(5)块集成,(6)分层集成,(7)基于注意力的集成,以及(8)通道促进集成,如下图所示。
vit可以很好地捕获图像中的远程依赖关系,但由于没有归纳偏差,训练它们需要大量数据。另一方面,cnn固有图像相关的归纳偏差,捕获图像局部存在的高相关性。因此,研究人员正专注于设计 HVTs,以融合cnn和变压器的优点。在Transformer结构中,为了找到最优的方法来融合卷积和注意力,人们做了大量的工作。cnn可以在不同的级别上使用,以将局部性纳入体系结构。各种研究表明,首先捕获局部模式,然后学习远程依赖关系,以获得更优化的图像局部和全局视角是有益的。
第一个ViT架构是由Dosovitskiy等人在2020年提出的。在他们的工作中,他们提出了将图像补丁视为标记序列并将其输入基于Transformer的网络以执行图像识别任务的想法。在他们的论文中,他们提出了一种混合版本的ViT,为hvt奠定了基础。在混合架构中,输入序列从CNN特征图中获得,而不是从原始图像补丁中获得。输入序列通过在空间上平坦化特征映射来创建,并使用1x1滤波器产生补丁。他们利用ResNet50架构获取特征映射作为ViT的输入。此外,他们还进行了大量的实验,以确定特征映射提取的最佳中间块。
Detection Transformer (DETR):Carion等人提出了一种检测Transformer(Detection Transformer, DETR),用于2020年对自然图像进行目标检测。在他们提出的端到端方法中,他们首先使用CNN来处理输入,然后将其提供给ViT架构。来自CNN主干的特征映射与固定大小的位置嵌入相结合,为ViT编码器创建输入。ViT解码器的输出随后被馈送到前馈网络以做出最终预测。与Faster R-CNN等其他革命性的检测模型相比,DETR表现出更好的性能。他们的详细想法如下图所示。
LeNet-based Vision Transformer (LeViT):Graham等人在2021年提出了混合ViT“LeViT”。在他们的模型中,他们最初使用卷积层来处理输入。该架构结合了CNN和ViT架构的MSA,从输入图像中提取局部和全局特征。LeViT架构首先利用四层CNN模型来降低图像分辨率并获得局部特征表示。然后将这些表示馈送到具有MLP和注意层的viti启发的多阶段架构中以生成输出。
Conditional Positional Encodings for Vision Transformers (CPVT):CPVT由Chu et al .于2023年提出。在他们的工作中,他们设计了一种新的条件位置嵌入方案来提高vit的性能(下图)。在这方面,他们提出了位置编码生成器(peg),它利用深度卷积使位置嵌入更加局部和平移等效。他们还根据提出的方案开发了一个ViT,利用他们的peg将更多的位置信息合并到他们的体系结构中,并取得了良好的效果。此外,他们还表明,在最终MLP层之上的全局平均池化层而不是类令牌可以提高性能。Xiao等人在他们的研究中估计,在vit的早期层使用CNN层可以提高其性能。相比之下,他们用卷积系统取代了传统的ViT补丁,并报告了更广泛和增强的性能。
在Transformer网络的末端使用CNN层或块的模型,例如代替最后一个线性层,或作为后处理层属于这一类。
Dense Prediction Transformer (DPT):Ranftl等人提出了一种用于自然图像分割的密集预测Transformer “DPT”。DPT具有基于编码器-解码器的设计,其中ViT作为编码器,CNN作为解码器。它通过骨干体系结构捕获了全局视角和远程依赖关系。然后利用CNN将学习到的全局表示解码为基于图像的嵌入。对基于vit的编码器的输出进行不同级别的解码,以进行密集预测。
Local Vision Transformer (LocalViT):Li等人在他们的研究中也将局部性纳入了ViT架构中用于图像分类。LocalViT的体系结构就像传统的ViT,其MSA模块专门用于捕获图像的全局级特征。ViT编码器中的前馈网络通过从注意力模块中获取学习编码的输入来执行最终预测。LocalVit通过使用深度卷积修改其FFN,将局部信息合并到其架构中。
这个类别描述了一些流行的混合ViT,它们通过遵循一些顺序集成,在其ViT架构中利用了CNN的优势(。
Convolution and Attention Networks (CoAtNet):Dai等人进行了广泛的研究,以找出在单个架构中合并卷积和注意机制的最优和最有效的方法,以提高其泛化和容量。在这方面,他们引入了CoAtNet,通过垂直堆叠几个卷积和Transformer块。对于卷积块,他们采用了基于深度卷积的MBConv块。他们的研究结果表明,将两个卷积块与两个变形块依次堆叠,可以显示出有效的结果。
CNNs Meet Transformers (CMT):尽管取得了成功的表现,但vit面临三个主要问题:
a)无法通过考虑局部邻域的相关性来捕获低级特征;
b)由于其MSA机制,在计算和内存消耗方面代价高昂;
c)固定大小的输入令牌,嵌入。
为了克服这些问题,2021年后将出现cnn和vit的杂交热潮。Guo等人在2021年也提出了一种混合ViT,命名为CMT (cnn Meet Transformers)。受CNN的启发, CMT也由一个初始的干块组成,然后是CNN层和CMT块的顺序堆叠。设计的CMT模块受到了ViT架构的启发,因此包含了一个轻量级的MSA模块来代替传统的MSA,并且MLP层被一个反向残差前馈网络(IRFFN)取代。此外,在CMT块中增加了一个本地感知单元(LPU),以提高网络的表示能力。其架构如下图所示。
Bottleneck Transformers (BoTNet):由于卷积层捕获的底层特征是图像中许多结构元素的主要构建块,因此Srinivas等人引入了混合ViT, BoTNet(视觉识别的瓶颈Transformer),以从CNN和ViT中受益。BoTNet 的架构只是ResNet块的顺序组合,其中注意力机制被合并在最后三个块中。ResNet块包含两个1x1卷积和一个3x3卷积。添加MSA来代替3x3卷积,以捕获除本地特征外的长期依赖关系。
这一类包括并行使用cnn和Transformer架构的HVT架构,然后将它们的预测结合在一起。
Convolution-augmented Transformer (Conformer):2021年,Peng等人进行了对自然图像进行视觉识别的研究。在这方面,他们提出了一个名为Conformer的架构。由于vit的普及,Conformer的架构也基于vit。为了提高网络的感知能力,他们将CNN的优点与多头自注意机制相结合。Conformer是一种混合ViT,包含两个独立的分支,一个CNN分支用于捕获局部感知,一个Transformer分支用于捕获全局特征。从CNN分支到Transformer分支建立后续连接,使每个分支具有本地-全局上下文感知。最后通过CNN分类器和Transformer分类器进行预测。采用交叉熵损失函数对分类器进行训练。Conformer比其他表现优异的ViT架构(如DeiT和ViT)表现出更好的性能。
MobileNet-based Transformer (Mobile-Former):Chen等人提出了一种具有CNN和Transformer两种不同路径的并发混合ViT架构。与其他混合ViTs一样,Mobile-Former使用CNN模型学习空间相关性,并使用Transformer捕获图像中的长期依赖关系,从而融合了局部相关性和全局表示。CNN架构基于MobileNet,它使用了参数数量减少的倒立残差块。两个分支之间的信息通过连接进行同步,使得CNN路径能够感知全局信息,Transformer能够感知局部信息。然后将两个分支的输出与池化层连接到一个两层分类器中进行最终预测。下图显示了它们的详细结构。
Block-wisely Self-supervised Neural Architecture Search (BossNAS):Li等人开发了一个搜索空间(HyTra)来评估混合架构,并建议每个块应该单独训练。在HyTra搜索空间的每一层,他们以并行和自由选择的形式使用了不同分辨率的CNN和transformer块。这个广泛的搜索区域包括具有逐渐变小的空间尺度的传统cnn和具有固定内容长度的纯Transformer。
那些采用分层设计的HVT架构,类似于cnn,属于这一类。这些模型中的许多都设计了一个统一的块来集成CNN和ViT,然后在整个体系结构中重复(Tu等人2022b)。
Multi-Axis Attention-based Vision Transformer (MaxViT):MaxViT是ViT架构的一个变体,由Tu等人在他们的论文“MultiAxis Attention - Based Vision Transformer”中介绍。引入了局部注意力阻塞和全局注意力扩张的多轴注意机制。与以前的体系结构相比,它被证明是一种高效且可扩展的注意力机制。引入了一种新的混合块作为基本单元,它由基于mb卷积的卷积和基于多轴注意的混合块组成。在多个阶段重复基本混合块以获得分层主干,类似于基于cnn的主干,可用于分类,目标检测,分割和生成建模。MaxViT可以看到本地和全局的整个网络,包括早期阶段。
Convolutional Vision Transformer (CvT):CvT于2021年由Wu et al引入。CvT的体系结构像cnn一样包含了多个阶段,构成了一个分层的框架。他们以两种方式在他们的架构中加入了卷积。首先,他们使用卷积令牌嵌入来提取令牌序列,不仅考虑了网络的局部性,而且逐渐缩短了序列长度。其次,他们提出了一种卷积投影,使用深度可分离卷积来取代编码器块中每个自注意块前的线性投影。CvT在图像识别方面优于其他方法。
Vision-Friendly Transformer (Visformer):Visformer于2020年作为视觉友好型Transformer推出,采用模块化设计,具有高效的性能。该体系结构对传统的ViT网络进行了一些修改。在Visformer中,用全局平均池化代替分类令牌,用批归一化代替层归一化。此外,他们利用了受ResNeXt 启发的卷积块,而不是每个阶段的自关注,以有效地捕获空间和局部特征。然而,为了对全局依赖性进行建模,他们在最后两个阶段采用了自我关注。Visformer架构中另一个值得注意的修改是在MLP块中增加了3x3个卷积。
Vision Transformer Advanced by Exploring intrinsic Inductive Bias (ViTAE):作者提出了一种名为ViTAE的新型ViT架构,它结合了两种不同的基本细胞类型(如下图所示):还原cells(RC)和正常cells(NC)。rc用于缩小输入图像并将其嵌入到丰富的多尺度上下文令牌中,而nc用于在令牌序列中同时建模本地和长期依赖关系。这两种类型的细胞的底层结构也很相似,由并行注意模块、卷积层和FFN组成。RC通过在金字塔缩减模块中使用具有不同膨胀率的几个卷积来包含令牌中的上下文信息。作者还提出了一个更优化的版本,ViTAEv2,比早期的方法表现出更好的性能。
Convolution-Transformer Network (ConTNet):为了解决计算机视觉任务中面临的挑战,提出了一种新颖的卷积-变压器网络(ConTNet)。ConTNet是通过堆叠多个cont块来实现的(如下图所示)。ConT块将标准变压器编码器(STE)视为类似于卷积层的独立组件。具体来说,特征图被分成几个大小相等的patch,每个patch被平面化成一个(超级)像素序列,然后输入到STE中。在重塑补丁嵌入之后,得到的特征映射被传递到下一个卷积层或STE模块。
本节讨论了那些HVT架构,这些架构在其注意力机制中利用cnn来结合局部性。
Evolving Attention with Residual Convolutions (EA-AA-ResNet):由于独立自注意层在捕获令牌之间的潜在依赖关系方面的泛化能力有限,Wang等人通过添加卷积模块扩展了注意机制。具体来说,他们采用了一个带有残差连接的卷积单元,通过利用从前一层继承的知识来概括每一层的注意力图,称为进化注意力(EA)。提出的EA-AA-ResNet架构通过桥接不同层的注意图和使用卷积模块学习一般的注意模式来扩展注意机制。
ResNet Transformer (ResT):一种混合架构,在其注意力机制中集成了卷积操作,使其能够有效地捕获全局和局部特征。作者在他们的体系结构中使用了一种新的高效Transformer块,用它的高效变体取代了传统的MSA块。在提出的高效多头自注意中,他们在计算注意函数之前,采用深度卷积降低输入标记映射的空间维度。
Convolution-Enhanced Image Transformer (CeiT):CeiT由Yuan等人于2021年在其论文《将卷积设计纳入视觉变形器》中提出。提出的CeiT结合了cnn和vit在提取低级特征、捕获局部性和学习远程依赖关系方面的优势。在他们的CeiT中,他们在传统的ViT架构中做了三个主要的改进。他们修改了补丁提取方案,MLP层,并在ViT架构之上添加了最后一层。对于补丁提取,他们提出了一个图像到令牌(I2T)模块,其中他们利用基于cnn的块来处理输入。他们没有使用原始输入图像,而是使用从初始卷积块中学习到的低级特征来提取补丁。I2T在其架构中包含卷积层、最大池化层和批处理归一化层,以充分利用cnn在vit中的优势。他们在ViT编码器中使用了局部增强前馈(LeFF)层来代替传统的MLP层,其中使用深度卷积来捕获更多的空间相关性。此外,设计了最后一类令牌注意(LCA)层,系统地组合了ViT不同层的输出。CeiT不仅在几个图像和场景识别数据集(包括ImageNet、CIFAR和Oxford-102)上显示出令人鼓舞的结果,而且与ViT相比,计算效率也很高。
信道增强(CB)是一种用于深度学习中提高CNN模型表示学习能力的思想。在CB中,除了原始通道之外,还使用基于迁移学习的辅助学习器生成增强通道,以从图像中捕获多样化和复杂的模式。基于cbs的cnn (CB-CNN)在各种与视觉相关的任务中表现出出色的性能。在Ali等人的一项研究中,他们提出了一种基于cb的HVT架构。在CB-HVT中,他们利用cnn和基于vit的辅助学习器来生成增强频道。基于cnn的通道捕获了图像模式的局部多样性,而基于金字塔视觉转换(PVT)的通道学习了全局的上下文信息。作者在淋巴细胞评估数据集上评估了CBHVT,在那里它显示出合理的性能。他们的架构概述如下图所示。
在本节中,我们对几种ViT和HVT架构进行了简要而全面的实证比较,这些架构在各种计算机视觉任务中表现出卓越的性能。为了深入了解它们的优缺点,我们在下表中提供了详细的概述。此外,我们还强调了在每个模型中所做的主要修改,以及根据其分类法进行的基本原理。
hvt不仅在计算机视觉领域,而且在许多其他领域都表现出优异的性能。然而,将卷积运算有效地集成到Transformer体系结构中给HVTs带来了一些挑战。这些挑战包括:
Transformer中的MSA机制和cnn中的卷积运算都依赖于密集矩阵乘法来捕获数据依赖关系。然而,HVT架构(cnn - transformer)可能面临较高的计算复杂度和内存开销。因此,当试图对密集的应用程序(如体积分析和分割)建模时,它们可能会遇到挑战。
由于hvt的计算复杂性,训练hvt需要gpu等强大的硬件资源。由于硬件限制和相关成本,这可能会限制它们在实际应用程序中的部署,特别是在边缘设备上。
HVT架构面临的一个主要挑战是有效地合并来自Transformer层和卷积层的学习特征。当Transformer层学习独立于空间位置的全局特征时,卷积层学习空间相关的局部特征。在体系结构方面,MSA和CNN层的有效统一可以潜在地提高各种视觉任务的性能。
hvt具有较高的学习能力,能够准确地处理复杂的图像数据。然而,这也意味着他们需要大量的训练数据集来有效地从数据中学习和推广。这是一个挑战,特别是在医学图像领域,获得大量的注释数据通常是困难和耗时的。获取大量标记数据的需求可能是一个重大障碍,消耗宝贵的资源和时间,并阻碍hvt在医学成像中的发展和应用。
hvt是具有数十亿个参数的大型模型,这就需要轻型架构。它们的高复杂性可能导致推理延迟和显著的能耗开销。有必要探索新的创新设计原则,以实现具有显着推理率的高效 HVTs,使其能够在实际应用、边缘设备和计算有限的系统(如卫星)中实际部署。通过将知识从高容量模型转移到更简单的模型,知识蒸馏作为一种有前途的方法出现在生成数据高效和紧凑的模型中。
hvt结合了cnn和Transformer的优势,在图像分析和计算机视觉方面取得了重大进展。然而,为了充分利用它们的潜力,探索将卷积和自注意机制集成到特定视觉应用中的合适方法是很重要的。这涉及到基于不同情境下集成方法适用性的深度分析,如早期层集成、横向层集成、顺序集成、并行集成、分层集成、基于注意的集成和基于注意的集成。
HVT的局部和全局处理能力使其在广泛的视觉应用中非常有前途,除了视觉相关的任务之外,还有潜在的好处。为了进一步提高hvt的性能,深入了解图像内容和相关操作非常重要,这有助于设计更好的混合和深度架构。在不久的将来,研究人工操作符与CNN-Transformer架构的混合和动态特征提取机制的潜在利用可能特别重要。利用卷积和自注意机制开发新的有效块也是一个有前途的研究领域。
综上所述,hvt的未来是光明的,在图像分析、计算机视觉等领域有着巨大的应用潜力。在我们看来,更好的方法是将HVT架构内的自关注层和卷积层合并在一起,用于特定的视觉任务。这种关注还应该扩展到理解图像内容和操作,开发结合卷积和自关注的有效块,在ViT和HVT架构中利用多模态和多任务处理。
由于在特定的图像相关任务中具有良好的性能,ViT在研究中得到了相当大的关注。这一成功可归功于集成到ViT体系结构中的MSA模块,它支持对图像内的全局交互进行建模。为了提高它们的性能,引入了各种架构改进。这些改进可以分为基于补丁的、基于知识蒸馏的、基于注意力的、基于多转换器的和混合方法。本文不仅研究了ViT的体系结构分类,还探讨了ViT体系结构的基本概念。
虽然vit具有令人印象深刻的学习能力,但由于缺乏可以捕获图像局部关系的归纳偏差,它们在某些应用中可能会受到有限的泛化影响。为了解决这个问题,研究人员开发了hvt,也被称为cnn -Transformer,它利用自关注和卷积机制来学习局部和全局信息。
一些研究提出了将卷积特定的感应偏置集成到Transformer中的方法,以提高Transformer的通用性和容量。集成方法包括早期层集成、横向层集成、顺序集成、并行集成、分层集成和基于渠道提升的集成。除了介绍基于集成方法的HVT体系结构的分类之外,我们还概述了它们如何在各种现实世界的计算机视觉应用中使用。尽管目前面临诸多挑战,但我们相信,HVTs具有巨大的潜力,因为它们有能力在局部和全局层面进行学习。