MobileNet-v2详解

论文:《Inverted Residuals and Linear Bottlenecks: Mobile Networks for Classification, Detection and Segmentation》
论文链接:https://arxiv.org/abs/1801.04381
前文链接:MobileNet-v1详解

■ 概述

       MobileNet-v2的主要思想就是在v1的基础上引入了线性瓶颈 (Linear Bottleneck)和逆残差 (Inverted Residual)来提高网络的表征能力,同样也是一种轻量级的卷积神经网络。MobileNet-v1的主要思想就是深度可分离卷积,如果对这个方面不太了解的话,可以参考我的另一篇文章,链接已放在文章开头。

■ MobileNet-v1存在的问题

       结构问题:MobileNet-v1的结构非常简单,类似于VGGNet,是一个非常复古的直筒结构。这种结构的性价比其实不高,后续一系列的ResNet、DenseNet等结构已经证明通过复用图像特征,使用Concat/Elwise+等操作进行融合,能极大提升网络的性价比。
       Depthwise convolution存在的问题:Depthwise convolution确实是大大降低了计算量,Depthwise+Pointwise的结构在性能上也能接近普通卷积。但是在实际应用时我们发现Depthwsie部分的kernel比较容易训废掉,训练完之后发现Depthwise训出来的kernel有不少是空的。因为depthwise每个kernel_dim相对于普通卷积要小得多,过小的kernel_dim加上ReLU的激活影响下,使得输出神经元很容易变为0,所以就学废了。ReLU对于0的输出梯度为0,所以一旦陷入0输出,就没法恢复了。

■ Inverted Residual(逆残差)

MobileNet-v2详解_第1张图片
                                                                   原始Residual block和Inverted residual block对比

(a)Original residual block:reduce – transfer – expand (中间窄两头宽)
       Residual block先用1x1卷积降通道过ReLU,再3x3卷积过ReLU,最后再用1x1卷积过ReLU恢复通道,并和输入相加。之所以要1*1卷积降通道,是为了减少计算量,不然中间的3x3卷积计算量太大。所以Residual block是中间窄两头宽。
(b)Inverted residual block:expand – transfer – reduce (中间宽两头窄)
       在Inverted Residual block中,3x3卷积变成Depthwise了,计算量很少了,所以通道数可以多一点,效果更好,所以通过1x1卷积先提升通道数,再Depthwise3x3卷积,最后用1x1卷积降低通道数。两端的通道数都很小,所以1x1卷积升通道和降通道计算量都并不大,而中间的通道数虽然多,但是Depthwise 的卷积计算量也不大。下图即为具体实例:

MobileNet-v2详解_第2张图片

– 为什么要使用Inverted residual

       skip connection这种bottleneck的结构被证明很有效,所以想用。但是如果像以前那样先压缩channal,channal数本来就少,再压没了,所以不如先增大后减少。

■ Linear Bottleneck(线性瓶颈层)

Original bottlenecks:Elwise + with ReLU at end of a bottleneck
Linear bottlenecks:Elwise + with NO ReLU at the end of a bottleneck

       论文中对这块的描述比较晦涩难懂,其实大致意思就是:我们在设计网络结构的时候,想要减少运算量,就需要尽可能将网络维度设计的低一些,但是维度如果低的话,ReLU激活函数可能会滤除很多有用信息。而ReLU对于没有滤除的部分,即非零的部分的作用是一个线性分类器。既然在低维空间中使用ReLU做激活变换会丢失很多信息,论文针对这个问题在Bottleneck末尾使用linear bottleneck(即不使用ReLU激活,做了线性变换)来代替原本的非线性激活变换。
       实验证明,使用linear bottleneck可以防止非线性破坏太多信息。

– 为什么要使用Linear Bottleneck

       ReLU让负半轴为0。本来参数就不多,学习能力就有限,这一下再让一些参数为0了,就更学不着什么东西了,干脆在elwise+那里不要ReLU了。

■ Inverted Residual + Linear Bottleneck

       结构如下图所示。在MobileNet-v2的网络设计中,除了继续使用Depthwise Conv(Bottleneck中间的卷积层)结构之外,还使用了Expansion layer和 Projection layer。Expansion layer是使用1x1卷积将低维空间映射到高维空间(扩大通道数),这里Expansion有一个超参数是维度扩展几倍,可以根据实际情况来做调整的,默认值是6,也就是扩展6倍。Projection layer也是使用1x1卷积,他的目的是希望把高维特征映射到低维空间去(减小通道数)。需要注意的是residual connection是在输入和输出的部分进行连接。另外,前面已经说过,因为从高维向低维转换,使用ReLU激活函数可能会造成信息丢失或破坏,所以在Projection convolution这一部分,我们不再使用ReLU激活函数而是使用线性激活函数。
MobileNet-v2详解_第3张图片

■ MobileNet-v2整体网络结构

       MobileNetV2的模型如下图所示,其中t为Bottleneck内部升维的倍数,c为通道数,n为该bottleneck重复的次数,s为sride。
MobileNet-v2详解_第4张图片
       其中,当stride=1时,才会使用elementwise 的sum将输入和输出特征连接(如下图左侧);stride=2时,无short cut连接输入和输出特征(下图右侧)。
MobileNet-v2详解_第5张图片
● 需要注意的是:
       1)当n>1时(即该瓶颈层重复的次数>1),只在第一个瓶颈层stride为对应的s,其他重复的瓶颈层stride均为1;
       2)只在stride=1时,输出特征尺寸和输入特征尺寸一致,才会使用elementwise sum将输出与输入相加;
       3)当n>1时,只在第一个瓶颈层升维,其他时候channel不变。(针对整个瓶颈层的维度)

       (例如,对于该图中56x56x24的那层,共有3个该瓶颈层,只在第一个瓶颈层使用stride=2,后两个瓶颈层stride=1;第一个瓶颈层由于输入和输出尺寸不一致,因而无short cut连接,后两个由于stride=1,输入输出特征尺寸一致,会使用short cut将输入和输出特征进行elementwise的sum;另外,只在第一个瓶颈层最后的1x1conv对特征进行升维,后两个瓶颈层输出维度不变(不要和瓶颈层内部的升维弄混了)。该层输入特征为56x56x24,第一个瓶颈层输出为28x28x32(特征尺寸降低,特征维度增加,无short cut),第二个、第三个瓶颈层输入和输出均为28x28x32(此时c=32,s=1,有short cut)。)
       另外表中还有一个k。mobileNet-v1中提出了宽度缩放因子,其作用是在整体上对网络的每一层维度(特征数量)进行瘦身。在MobileNetV2中,当k<1时,最后的1*1conv不进行宽度缩放,否则进行宽度缩放。

你可能感兴趣的:(卷积,网络,深度学习,人工智能,计算机视觉)