- 个人主页:风间琉璃
- 版权: 本文由【风间琉璃】原创、在CSDN首发、需要转载请联系博主
- 如果文章对你有
帮助
、欢迎关注
、点赞
、收藏(一键三连)
和订阅专栏
哦
MobileViT
是一种基于ViT(Vision Transformer)
架构的轻量级视觉模型,旨在适用于移动设备和嵌入式系统。ViT是一种非常成功的深度学习模型,用于图像分类和其他计算机视觉任务,但通常需要大量的计算资源和参数。MobileViT的目标是在保持高性能的同时,减少模型的大小和计算需求,以便在移动设备上运行,据作者介绍,这是第一次基于轻量级CNN网络性能的轻量级ViT工作,性能SOTA。性能优于MobileNetV3、CrossviT等网络。
MobileVitV1是苹果公司2021年发表的一篇轻量型主干网络,它是CNN
与Transfomrer
的混合架构模型
(CNN的轻量和高效+Transformer的自注意力机制和全局视野),这样的架构模型也是现在很多研究者们青睐的架构之一。
自Vision Transformer出现之后,人们发现Transfomrer也可以应用在计算机视觉领域,并且效果还是非常不错的。但是基于Transformer的网络模型存在着以下问题:
✨参数多,算力要求高
Transformer模型通常具有数十亿或数百亿个参数,这使得它们的模型文件非常大,不仅占用大量存储空间,而且在训练和部署过程中也需要更多的计算资源。
✨缺少空间归纳偏置
即纯Transformer对空间位置信息不敏感,但是,我们在进行视觉应用的时位置信息又比较重要,为了解决这个问题就引入了位置编码。
归纳 (Induction)
是自然科学中常用的两大方法之一 (归纳与演绎,Induction & Deduction),指从一些例子中寻找共性、泛化,形成一个较通用的规则的过程。偏置 (Bias)
则是指对模型的偏好,以下展示了 4 种解释:
∙ \bullet ∙通俗理解:归纳偏置可以理解为,从现实生活中观察到的现象中归纳出
一定的 规则 (heuristics)
,然后对模型做一定的约束
,从而可以起到 “模型选择
” 的作用,类似贝叶斯学习中的 “先验”。
∙ \bullet ∙西瓜书解释:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好。归纳偏好可以看作学习算法自身在一个庞大的假设空间中对假设进行选择的启发式或 “价值观”。
∙ \bullet ∙维基百科解释:如果学习器需要去预测 “其未遇到过的输入” 的结果时,则需要一些假设来帮助它做出选择。
∙ \bullet ∙广义解释:归纳偏置会促使学习算法优先考虑具有某些属性的解。
深度神经网络偏好性地认为,层次化处理信息有更好效果;卷积神经网络认为信息具有空间局部性,可用滑动卷积共享权重的方式降低参数空间;循环神经网络则将时序信息纳入考虑,强调顺序重要性;图网络则认为中心节点与邻居节点的相似性会更好地引导信息流动。通常,模型容量 (capacity) 很大但 Inductive Bias 匮乏则容易过拟合 (overfitting),如 Transformer。
CNN的空间归纳偏差内容如下:
CNN 的
归纳偏置(Inductive Bias)
是局部性 (Locality)
和空间不变性 (Spatial Invariance) / 平移等效性 (Translation Equivariance)
,即空间位置上的元素 (Grid Elements) 的联系/相关性近大远小,以及空间平移的不变性 (Kernel 权重共享
)。
⋆ \star ⋆ locality
:CNN是以滑动窗口
的形式一点一点地在图片上进行卷积
的,所以假设图片上相邻的区域会有相邻的特征,靠得越近的东西相关性越强;
⋆ \star ⋆ translation equivariance(平移等变性或平移同变性
):用公式表示为f(g(x))=g(f(x)),不论是先经过g映射,还是先经过f映射,其结果是不变的;其中f代表卷积操作,g代表平移操作。因为在卷积神经网络中,卷积核相当于是一个模板,不论图片中同样的物体移动到哪里,只要是相同的输入,经过相同的卷积核,其输出是不变的。
一旦网络(CNN)模型有了这两个归纳偏置,它就拥有很多的先验信息
,所以只需要相对较少的数据就可以学习一个相对比较好的模型。但是对于transformer来说,它没有这些先验信息,所以它对视觉的感知全部需要从这些数据中自己学习。
因此transformer结构的网络模型需要大量的数据才能得到不错的效果,如果使用少量数据进行训练,那么会掉点很明显。这是因为Transformer缺少空间归纳偏置,空间归纳偏置允许CNN在不同的视觉任务中学习较少参数的表示。
虽然Transformer缺少空间归纳偏置
,必须要大量数据来进行学习数据中的某种特性,从而导致无法很好的应用在这样的边缘设备。但是CNN也有缺点:CNN在空间上获取的信息是局部的,因此一定程度上会制约着CNN网络结构的性能,而Transformer的自注意力机制能够获取全局信息。
✨模型迁移困难
这个问题核心是引入的位置编码导致
的。 Transformer 网络需要先对原始的图像进行切片处理,一般来说训练好的 ViT 网络原始的输入图像大小 224×224,patch 大小为 16×16,那么得到的 patch个数也就固定了。由于 Transformer 网络缺少空间归纳偏置
,在计算某一个 token 时其他 token 位置顺序发生变化并不会影响到最终的实验结果,也即输出与位置信息无关。而我们知道对于图像来说,空间信息是非常重要且具有实际意义的,因此,Transformer 通过加上位置偏置
(ViT使用绝对位置偏置,Swin T引入相对位置偏置)来解决位置信息的丢失问题
。
但是,当输入图像的尺寸或者 patch 大小发生变化时,训练好的模型就会因为位置信息不准确而失效
。目前常见的处理方法是将位置偏置信息进行插值,插值到所需要的序列长度从而匹配到图像的尺寸
。这种方式需要对训练好的模型进行微调才能保证性能不出现大幅损失,每次改变输入图像的尺寸或者 patch 的尺寸均需要对位置编码进行插值和对网络进行微调,这提高了网络迁移的难度。
Swin T网络使用了相对位置偏置,理论上来说序列的长度只与窗 windows 的大小有关而与输入图像的尺寸无关。但是,windows的大小一般被设定与输入尺寸匹配,当输入尺寸变大时,window 的大小也应该相应的增大,那么所使用的相对位置偏置序列也应该增大,这也会导致上述问题。这些问题将导致 Transformer 网络迁移时比 CNN 网络迁移得更加困难和繁琐。
✨模型训练困难
根据现有的一些经验,Transformer相比CNN要更难训练。Transformer需要更多的训练数据,需要迭代更多的epoch,需要更大的正则项(L2正则),需要更多的数据增强(且对数据增强很敏感)。
针对以上问题,采用CNN与Transformer的混合架构
,CNN能够提供空间归纳偏置所以可以解决位置偏置,而且加入CNN后能够加速网络的收敛,使网络训练过程更加的稳定。
下图是MobileViT论文中绘制的Standard visual Transformer
。首先将输入的图片划分成N个Patch,然后通过线性变化
将每个Patch映射到一维向量中(Token),接着加上位置偏置信息(可学习参数)
,再通过一系列Transformer Block,最后通过一个全连接层
得到最终预测输出。
首先将C,H,W的图片进行Patch处理成N个向量,然后经过线性层进行降低向量维度,再经过位置编码,然后再经过N个Transformer块,在通过class token来进行分类。
这个Standard visual Transformer和前面文章中ViT有一点不同,这里没有class token,class token只是针对分类才加上去的,上面这个网络才是最标准的视觉ViT网络。
由于VIT忽略了空间归纳偏差
,所以它们需要更多的参数来学习视觉表征。此外,与CNN相比,VIT及其多种变体的优化性能不佳,这些模型对L2正则化很敏感,需要大量的数据增强以防止过拟合
。
上面展示是标准视觉ViT模型,下面来看下本次介绍的重点:Mobile-ViT网路结构,如下图所示:
通过上图可以看到MobileViT主要由普通卷积,MV2
(MobiletNetV2中的Inverted Residual block),MobileViT block
,全局池化以及全连接层共同组成。
其中,MobileViT块中的Convn × n表示一个标准的n × n卷积,MV2指的是MobileNetv2块,执行下采样的块用↓2标记。
MV2 块指MobileNet v2 block
,是一个Inverted Residual Block(倒残差结构)
。 在倒残差结构中,即特征图的维度是先升后降
,据相关论文中描述说,更高的维度经过激活函数后,它损失的信息就会少一些。(注意倒残差结构中基本使用的都是ReLU6激活函数,但是最后一个1x1的卷积层使用的是线性激活函数)。具体网络结构如下图所示。
MobileViT结构图中标有向下箭头
的MV2结构代表stride等于2的情况,即需要进行下采样
。
Residual Block(残差结构)
:
①1x1卷积降维
②3x3卷积
③1x1卷积升维
Inverted Residual Block(倒残差结构)
①1x1卷积升维
②3x3卷积DW
③1x1卷积降维
MV2来源于mobilenetv2,所以Mobile-ViT的核心是MobileViT block模块。MobileViT block的结构如下图所示:
MobileViT Block
旨在用更少的参数
对输入张量中的局部
和全局
信息进行建模。由上图可知MobileViT Block 整体由三部分组成分别为:Local representations
、Transformers as Convolutions (global representations)
、Fusion
。
大致流程:首先将特征图通过一个卷积核大小为nxn(代码中是3x3)的卷积层进行局部的特征建模
,然后通过一个卷积核大小为1x1的卷积层调整通道数。接着通过Unfold -> Transformer -> Fold结构
进行全局的特征建模
,然后再通过一个卷积核大小为1x1的卷积层将通道数调整回原始大小
。接着通过shortcut分支
(在V2版本中将该捷径分支取消了)与原始输入特征图进行Concat拼接
(沿通道channel方向拼接),最后再通过一个卷积核大小为nxn(代码中是3x3)的卷积层做特征融合得到输出
。
Global representations它的具体计算过程
如下图所示,
首先对特征图划分Patch(忽略了通道channels),图中的Patch大小为2x2,即每个Patch由4个Pixel组成。
在进行Self-Attention
计算的时候,每个Token(图中的每个Pixel或者说每个小颜色块)只和颜色相同的Token进行Attention,可以减少参数计算量。对于原始的Self-Attention计算每个Token是需要和所有的Token进行Self-Attention。
假设特征图的高宽和通道数分别为H, W, C,在输入到Transformer中,在Self-Attention的时候,每个图中的每个像素和其他的像素进行计算,这样计算量就是:
P 1 = W ∗ H ∗ C P_1 = W*H*C P1=W∗H∗C
在MobileViT
中的是先对输入的特征图划分成多个的patch,但是在计算Self-Attention的时候只对相同位置的像素计算
,即图中展示的颜色相同的位置,这样就可以相对的减少计算量,这个时候的计算量为:
P 2 = W ∗ H ∗ C 4 P_2 = \frac{W*H*C}{4} P2=4W∗H∗C即理论上的计算成本仅为原始的 1 4 \frac{1}{4} 41。
在本次的自注意力机制
中,只选择了位置相同的像素点进行点积操作
。这样做的原因大概就是因为和所有的像素点都进行自注意力操作会带来信息冗余,毕竟不是所有的像素含有有用的信息。对于图像数据本身就存在大量的数据冗余,一张图像的每个像素点的周围的像素值都差不多,并且分辨率越高相差越小,所以这样做并不会损失太多的信息。而且MobileViT在做全局表征之前已经做了一次局部表征(Local representations
),进行全局建模时可以忽略一些信息。
Global representations中的Unfold
和Fold
只是为了将数据给reshape
成计算Self-Attention时所需的数据格式。unfold就是将颜色相同的部分拼成一个序列输入到Transformer进行建模,最后再通过fold是调整为原始大小,如下图所示:
下面来简单的看下patch size
对模型性能的影响,patch如果划分的比较大的话是可以减少计算量的,但是划分的太大的话又会忽略更多的语义信息,影响模型的性能。
下图从左到右对语义信息的要求逐渐递增。其中配置A的patch大小为{2, 2, 2}
,配置B的patch大小为{8, 4, 2}
,这三个数字分别对应下采样倍率为8,16,32的特征图所采用的patch大小。通过对比可以发现,在图像分类和目标检测任务中(对语义细节要求不高的场景),配置A和配置B在Acc和mAP上没太大区别,但配置B要更快。但在语义分割任务中(对语义细节要求较高的场景)配置A的效果要更好。
Local representations 表示输入信息的局部表达
。在这个部分,输入MobileViT Block 的数据会经过一个 n × n n \times n n×n的卷积块和一个 1 × 1 1 \times 1 1×1的卷积块。
从上文所述的CNN的空间归纳偏差
就可以得知:经过 n × n n \times n n×n(n=3)的卷积块的输出获取到了输入模型的局部信息表达
(因为卷积块是对一个整体块进行操作,但是这个卷积核的n是远远小于数据规模的,所以是局部信息表达,而不是全局信息表达)。另外, 1 × 1 1 \times 1 1×1的卷积块是为了线性投影
,将数据投影至高维空间。例如:对于 9 × 9 9\times 9 9×9的数据,使用 3 × 3 3\times 3 3×3的卷积层,获取到的每个数据都是对 9 × 9 9\times 9 9×9 数据的局部表达。
Transformers as Convolutions (global representations)
表示输入信息的全局表示。在Transformers as Convolutions 中首先通过Unfold
对数据进行转换,转化为 Transformer 可以接受的 1D 数据
。然后将数据输入到Transformer 块
中。最后通过Fold
再将数据变换成原有的样子。
在Fusion
中,经过Transformers as Convolutions得到的信息与原始输入信息 ( A ∈ R H × W × C ) (\mathrm{A} \in \mathrm{R^{\mathrm{H \times W \times C}}}) (A∈RH×W×C)进行合并
,然后使用另一个 n × n n\times n n×n卷积层来融合
这些连接的特征。这里,得到的信息指:全局表征 X F ∈ R H × W × d \mathrm{X_F} \in \mathrm{R^{\mathrm{H \times W \times d}}} XF∈RH×W×d经过逐点卷积( 1 × 1 1\times 1 1×1卷积)得到的输出 X F u ∈ R H × W × d \mathrm{X_{Fu}} \in \mathrm{R^{\mathrm{H \times W \times d}}} XFu∈RH×W×d ,并通过Concat
操作与 X \mathrm{X} X组合。
论文中总共给出了三组模型配置,即MobileViT-S
(small)、MobileViT-XS
(extra small)、MobileViT-XXS
(extra extra small),三种配置是越来越轻量化,三者的主要区别在于特征图的通道数不同
。
下图为MobileViT的整体框架,主要看下图中的标出的Layer1~5,这里是根据源码中的配置信息划分的:
对于MobileViT-XXS,Layer1~5的详细配置信息如下:
对于MobileViT-XS,Layer1~5的详细配置信息如下:
对于MobileViT-S,Layer1~5的详细配置信息如下:
参数说明:
⋆ \star ⋆ out_channels
表示该模块输出的通道数
⋆ \star ⋆ mv2_exp
表示Inverted Residual Block
中的expansion ratio
⋆ \star ⋆ transformer_channels
表示Transformer模块输入Token的序列长度(特征图通道数)
⋆ \star ⋆ num_head
s表示多头自注意力机制中的head数
⋆ \star ⋆ ffn_dim
表示FFN中间层Token的序列长度
⋆ \star ⋆ patch_h表示每个patch的高度
⋆ \star ⋆ patch_w表示每个patch的宽度
更好的性能
: 对于给定的参数预算,MobileViT 在不同的移动视觉任务(图像分类、物体检测、语义分割)中取得了比现有的轻量级 CNN 更好的性能。
更好的泛化能力
:泛化能力是指训练和评价指标之间的差距。对于具有相似训练指标的2个模型,具有更好评价指标的模型更具有通用性,因为它可以更好地预测未知数据集。与CNN相比,即使有广泛的数据增强,其泛化能力也很差,MobileViT显示出更好的泛化能力。
更好的鲁棒性
:一个好的模型应该对超参数具有鲁棒性,因为调优这些超参数会消耗时间和资源。与大多数基于ViT的模型不同,MobileViT模型使用基本增强训练,对L2正则化不太敏感。
总之,MobileViT使用CNN
和Transformer
相融合的方案,在减少模型复杂度的同时,提高了模型的精度和鲁棒性
。
⋆ \star ⋆ 对于一个模型,如果全都使用
CNN 结构
。模型只能获取到数据的局部信息
而获取不到全局信息
⋆ \star ⋆ 对于一个模型,如果全部使用Transformer 结构
。模型可以获取到全局信息
。但是,Transformer 结构会带来较大的复杂度,存在训练时间上升,模型容易过拟合等等问题。
因此,基于上述问题。作者先使用CNN获取局部信息,然后使用 Transformer 结构获取全局信息。通过上述的理解可以发现:在MobileViT 中的Transformer 结构中,复杂度相比于 ViT 结构 中复杂度降低了很多,因为输入数据复杂度的降低。最终实验结果同时表明:MobileViT 精度更高且鲁棒性更好。
感谢阅读吾之文章,今已至此次旅程之终站 。
吾望斯文献能供尔以宝贵之信息与知识也 。
学习者之途,若藏于天际之星辰,吾等皆当努力熠熠生辉,持续前行。
然而,如若斯文献有益于尔,何不以三连为礼?点赞、留言、收藏 - 此等皆以证尔对作者之支持与鼓励也 。