MobileNetV2:Inverted Residuals and Linear Bottlenecks

发表时间:[Submitted on 13 Jan 2018 (v1, last revised 21 Mar 2019 (this version, v4)]

发表期刊/会议:Computer Vision and Pattern Recognition



关键词:MobileNetV1延伸 逆向残差 线性瓶颈

0 摘要

①本文提出了一种新的移动端架构MobileNet V2,在当前移动端模型中最优;


③本文还演示了如何通过简化形式的DeepLabv3(称之为mobile DeepLabv3)构建移动端的语义分割模型;(不重要)

MobileNetV2 架构基于反向残差结构(inverted residual structure)全文重点


1 简介




(说人话:一般方法是先降维后升维,本文先升维,后降维。为什么呢?section 3中具体解释为什么);

2 相关工作


3 Preliminaries, discussion and intuition

3.1 深度可分离卷积

详情见MobileNet V1;


3.2 线性瓶颈

对于输入CNN的数据,我们把CNN中所有激活层形成的输出叫做"感兴趣的流形"(manifold of interest);人们一直认为神经网络中"感兴趣的流形"可以嵌入到低维子空间中。

这一信息可以通过降维来捕获和利用,比如MobileNet V1中,已经成功利用这一点,通过宽度乘数参数α在计算精度和效率之间取得平衡。




MobileNetV2:Inverted Residuals and Linear Bottlenecks_第1张图片


  • 维度越低,比如 n = 2,3时,损失信息非常多(2和3已经没有螺旋的样子了);

  • 维度越高,损失信息越少,n = 15,30最接近输入;


  • 过渡降维会导致信息丢失,接着用ReLU函数也会导致小于0的部分信息丢失,但是强大的CNN又离不开非线性激活函数(比如ReLU),线性激活CNN只能识别一维空间;
  • 所以要先保留冗余的维度进行ReLU,防止信息丢失,也同时能发挥ReLU非线性激活函数的作用;
  • 所以要先升维,再降维。(回答section1提出的问题 为了避免信息丢失)


  • 1:如果"感兴趣的流形"在ReLU变换后保持非零体积,则它对应于线性变换(说人话:如果"manifold of interest"都为正,则经过ReLU相当于做了一个线性变换,没有信息丢失);
  • 2:ReLU能够保存关于"感兴趣的流形"的完整信息,仅当输入流形位于输入空间的低维子空间中时(当维度足够多时,ReLU能够保留"manifold of interest"的完整信息);

以上两个见解为我们提供了优化现有神经架构的经验提示:假设"感兴趣的流形"是低维的,我们可以通过在卷积块中插入线性瓶颈层(linear bottleneck)来捕捉这一点。实验证据表明,使用线性层至关重要,因为它可以防止非线性破坏太多信息。

为了减少信息丢失,本文提出了linear bottleneck,就是在bottlenck(1 × 1卷积)的最后输出不接非线性激活层,只做linear操作;

MobileNetV2:Inverted Residuals and Linear Bottlenecks_第2张图片


2(b):深度可分离卷积(=Depthwise convolution+Pointwise Convolution=薄片片+方块块);

2(c ):【linear bottleneck】(高维后)relu6-dw-relu6-pw降维-升维-;

2(d):和图2(c )等效,(线性激活后)pw升维-relu6-dw-relu6-pw降维-线性激活;

3.3 反向残差(逆向残差)

3.3.1 图解



MobileNetV2:Inverted Residuals and Linear Bottlenecks_第3张图片
MobileNetV2:Inverted Residuals and Linear Bottlenecks_第4张图片

扩展因子: t t t

stride: s s s

①输入: h × w × k h×w×k h×w×k----pw升维到 h × w × t k h×w×{tk} h×w×tk
②经过dw,维度不变h,w根据s变化为 h s × w s × ( t k ) \frac{h}{s}×\frac{w}{s}×(tk) sh×sw×(tk)
③线性激活到 h s × w s × k ′ \frac{h}{s}×\frac{w}{s}×k' sh×sw×k

3.3.2 反向残差代码

class InvertedResidual(nn.Module):
    def __init__(self, in_channel, out_channel, stride, expand_ratio):
        super(InvertedResidual, self).__init__()
        # expand_ratio: 扩展因子t
        # in_channel:k
        # 输出通道数: tk
        hidden_channel = in_channel * expand_ratio
        self.use_shortcut = stride == 1 and in_channel == out_channel

        # 将所有层保存为一个list
        layers = []
        if expand_ratio != 1:
            # 1x1 pw 接ReLU激活(非线性)
            layers.append(ConvBNReLU(in_channel, hidden_channel, kernel_size=1))
            # 3x3 dw
            ConvBNReLU(hidden_channel, hidden_channel, stride=stride, groups=hidden_channel),
            # 1x1 pw 与一个层不同 这层后接线性激活
            nn.Conv2d(hidden_channel, out_channel, kernel_size=1, bias=False),

        self.conv = nn.Sequential(*layers)

    def forward(self, x):
        if self.use_shortcut:
            return x + self.conv(x)
            return self.conv(x)
class ConvBNReLU(nn.Sequential):
    def __init__(self, in_channel, out_channel, kernel_size=3, stride=1, groups=1):#groups=1普通卷积
        padding = (kernel_size - 1) // 2
        super(ConvBNReLU, self).__init__(
            nn.Conv2d(in_channel, out_channel, kernel_size, stride, padding, groups=groups, bias=False),

4 模型架构

4.1 模型架构概述

表2描述了MobileNet V2的完整架构;

MobileNetV2:Inverted Residuals and Linear Bottlenecks_第5张图片
表2:MobileNet V2实现架构。t:扩展因子;c:通道数;n:该层重复次数;s:步幅;卷积核大小均为3 * 3;

本文使用ReLU6作为非线性激活函数,训练过程使用dropout和batch normalization;


MobileNet v2同样使用MobileNet V1中的两个超参数,宽度系数α和分辨率系数ρ;

4.2 架构代码

class MobileNetV2(nn.Module):
    def __init__(self, num_classes=1000, alpha=1.0, round_nearest=8):#alpha超参数
        super(MobileNetV2, self).__init__()
        block = InvertedResidual
        # _make_divisible 函数确保为 8 的整数倍
        # 为什么?
        # 为了快,8,16,24...这些 size 符合处理器单元的对齐位宽(硬件角度)
        input_channel = _make_divisible(32 * alpha, round_nearest)
        last_channel = _make_divisible(1280 * alpha, round_nearest)

        # 定义7个bottleneck的一些参数
        # 对照原文表2
        inverted_residual_setting = [
            # t, c, n, s
            [1, 16, 1, 1],
            [6, 24, 2, 2],
            [6, 32, 3, 2],
            [6, 64, 4, 2],
            [6, 96, 3, 1],
            [6, 160, 3, 2],
            [6, 320, 1, 1],

        # 保存层
        features = []
        # conv1 layer
        features.append(ConvBNReLU(3, input_channel, stride=2))

        # 逆向残差块
        for t, c, n, s in inverted_residual_setting:
            output_channel = _make_divisible(c * alpha, round_nearest)
            for i in range(n):
                stride = s if i == 0 else 1
                features.append(block(input_channel, output_channel, stride, expand_ratio=t))
                input_channel = output_channel
        # building last several layers
        features.append(ConvBNReLU(input_channel, last_channel, 1))
        # combine feature layers
        self.features = nn.Sequential(*features)

        # building classifier
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.classifier = nn.Sequential(
            nn.Linear(last_channel, num_classes)

        # weight initialization
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                nn.init.kaiming_normal_(m.weight, mode='fan_out')
                if m.bias is not None:
            elif isinstance(m, nn.BatchNorm2d):
            elif isinstance(m, nn.Linear):
                nn.init.normal_(m.weight, 0, 0.01)

    def forward(self, x):
        x = self.features(x)
        x = self.avgpool(x)
        x = torch.flatten(x, 1)
        x = self.classifier(x)
        return x
5 实验

MobileNetV2:Inverted Residuals and Linear Bottlenecks_第6张图片

5.1 消融实验

5.1.1 逆向残差

MobileNetV2:Inverted Residuals and Linear Bottlenecks_第7张图片


5.1.2 线性瓶颈

MobileNetV2:Inverted Residuals and Linear Bottlenecks_第8张图片

