InceptionV2-V3论文精读及代码

Inception V2-V3算法

 

InceptionV2-V3论文精读及代码_第1张图片

前景介绍

算法网络模型结构,相较V1去掉了底层的辅助分类器(因为作者发现辅助分离器对网络的加速和增强精度并没有作用),变成了一个更宽、更深、表达能力更好的网络模型

InceptionV2-V3论文精读及代码_第2张图片

V1种的Inception模块,V1的整体结构由九个这种模块堆叠而成,每个模块负责将5x5、1x1、3x3卷积和3x3最大池化叠加在一起输出(长宽相同,厚度不同),因为堆叠越来越厚,计算量激增。

InceptionV2-V3论文精读及代码_第3张图片

引入1x1卷积降维对比,堆叠的层数减少

注:1x1卷积的作用参考V1论文笔记

InceptionV2-V3论文精读及代码_第4张图片

V2-V3改进

V2模型结构

InceptionV2-V3论文精读及代码_第5张图片

V2-V3的论文中提到了三种改进模式,

ModuleA

        将5x5卷积核使用两个3x3代替

ModuleB

        将7x7卷积核沿着深度方向展开,使用1x7和7x1不对称的矩阵代替

ModuleC

        将3x3卷积核沿着长度方向展开,使用3x1和1x3卷积核进行展开

InceptionV2-V3论文精读及代码_第6张图片

ModuleA

两个3x3卷积可以替代5x5卷积,感受野都是5x5,这样可以大大的减少参数量

InceptionV2-V3论文精读及代码_第7张图片

ModuleB

将对称卷积核编程不对称卷积(卷积分解)

InceptionV2-V3论文精读及代码_第8张图片

ModuleC

用来提升宽度和深度,增加模型的表示能力

第四模块

下采样模块,减少计算量、实现维度扩充

怎样减少参数量

InceptionV2-V3论文精读及代码_第9张图片

卷积、池化先后顺序对模型计算量的影响

常规情况下,池化是对网络进行压缩,此步骤丢失特征信息,卷积过程提取特征,此步骤计算量太大

先卷积再池化:计算量大

将feature map 缩小变厚:

        先池化再升维:丢失信息太多,违背原则

        先升维再池化:计算量增加三倍

池化和卷积并行:在扩充通道(卷积)的同时下采样又保证计算效率

InceptionV2-V3论文精读及代码_第10张图片

Label Smooth

再次之前是使用logit分数输入softmax函数得到概率值,如图以三分类为例,求得结果使用独热编码表示为(1,0,0),交叉熵为0.3

标签用one-hot独热编码的缺点:

        1)最小化交叉熵函数等效于最大化正确分类的对数似然函数(如果想要正确类别的交叉熵变小,就要一直增大正确类别的得值到正无穷)

        2)正确类别对应的分数logit会一味增大直到正无穷

        3)导致后果A、过拟合,模型死记硬背无法泛化 B、鼓励模型过于自信,不计一切增大某一类的logit

修改为Label Smooth之后,新加入系数用来控制正确分类一直增大,该系数由人为指定,其中K为分类个数,下图例子的K值为4.相当于对one-hot独热编码进行弱化,降低“自信度”,正确分类的logit会有一个最大值,不会一味增大

InceptionV2-V3论文精读及代码_第11张图片

各种变形网络结构

InceptionV2-V3论文精读及代码_第12张图片

其中V3就是上图中表现最好的模型

论文正文

Abstract

卷积神经网络在图像分类领域大放异彩,越来越深成为提升精度的一种方式,但是这种情况有很多限制,例如需要强大算力、需要足量数据集等。但是大多情况下要求低参数量低运算量(边缘计算)。本文主要使用了分解卷积正则化(辅助分类器),主要采用乘-加运算进行优化,提升效率和精度。对模型进行4个模型的集成和多尺度裁剪之后(V3),top5错误率从5.6%降到了3.5%,top1错误率从21.3降到了17.3%

top1 error-rate 错误率:就是使用预测结果和正确结果进行对比,如果相同则表示预测正确!

top5 error-rate 错误率:就是使用预测结果的Top-5(分类结果标签的前五个)与正确结果进行对比,如果五个之中有一个正确那么就认为分类器预测结果正确。

一、Introduction

从AlexNet开始卷积网络成为图像分类研究领域的重头戏,AlexNet也应用在了各个领域,例如物体检测、全卷积神经网络、人体姿态估计、视频分类、目标最终、超分辨率(人眼观察不到的细节、高分辨修复)。因此可以看到卷积网络/图像分类网络可以应用在各种领域。

这些应用的研究极大的推动了更高兴卷积神经网络的研究,VGGNet和GoogLeNet开始卷积神经网络开始向更宽、更深的方向发展,以此获得更好的识别效果。另外需要注意的一点,一个较好的分类模型可以迁移到各种领域应用,而这些迁移的可用性以及计算机视觉的各种问题都是靠CNN提取图像特征解决的。另外需要考虑的一个点,目标检测任务中是否可以使用CNN做提取候选框(既对小分辨率物品的识别)

虽然VGGNet的效果很好,模型简单,但是臃肿、消耗算力多。另一方面GoogLeNet是为了计算效率而生,可以大大减少内存使用和成本预算,例如GoogLeNet只有500万个参数,该参数量只有AlexNet6000万参数的十二分之一,VGGNet的参数量比AlexNet参数还要多三倍,GoogLeNet的有点显而易见。

六号文献是微软亚洲研究院发布何凯明发布的PRelu论文,是首次超过了人类的模型,这也证明inception模块是可行的,可将其用在算力和内存受限的移动设备上。二号和十五号文献中提到减少内存读写可以加速卷积运算,因为内存的读写功率消耗是乘法和加法的好几倍,所以减少参数量是提升运算效率的必要条件。十号文献中提到加速运算的一些技巧,例如im2col、傅里叶变化等方法,这些技巧也都使用在Inception模块中。

从另一方面说,Inception模块不是万能的,如果大量堆叠Inception模块会导致计算量爆炸,而且二十号文献(googLeNet)中并没有清楚的解释Inception模块为什么可以提升准确率,其中有大量的因素主导(优化器、学习率、损失函数、模型结构等),这就导致我们无法将其应用在其他场景,将卷积核个数加倍会造成4倍的参数量和计算量。本文中还会提到一些优化模型设计的方法,这些原则和方法不仅可以用在inception中,其他网络也同样适用,这里只进行inception的修改介绍。Inception模块具有较高的灵活性,是因为其中使用了丰富的降维和并行模块,这些模块可以很好的适配上面所说的模型优化方法。

二、General Design Principles(通用设计原则)

下面介绍几种通用设计原则,经过大量的实验和原理证明,现在暂时是一些假设,后面还要依靠在各个领域的应用效果证明。可以不遵守这些规则,但是实验表明修改设计中违背这些规则的部分可以优化网络

原则1

Avoid representational bottleneck,especially early in the network

(避免过度降维或收缩特征bottleneck,特别是网络浅层)

前馈神经网络是从输入层到分类层再到回归层是一个有向无环图,清楚的标识了数据流的方向。在每一层应该尽量避免过分的特征降维和压缩,feature map的长宽大小应随网络加深缓缓减少。降维会造成各通道间的相关信息丢失,仅反映了致密的嵌入信息 。如下图例子

InceptionV2-V3论文精读及代码_第13张图片

原则2

Higher dimensional representations are easier to process locally within a network.

(特征越多,收敛越快。相互独立的特征越多,输入信息分解的越彻底)

主要是体现了Hebbin原理(fire together,wire together),如果我要识别的是猫,那么我得到的越多关于猫的相互独立特征,分类效果就越好

InceptionV2-V3论文精读及代码_第14张图片

原则3

Spatial aggregation can be done over lower dimensional embeddings without much or any loss in representational power.

(3x3和5x5大卷积核卷积之前可用1x1卷积降维。信息不会损失)

Spatial aggregation 是指3x3和5x5这种大尺度卷积核,这种可以聚合空间信息有大感受野。

因为邻近单元(相邻感受野的卷积结果)的强相关性在降维过程中信息损失很少,所以在使用Spatial aggregation 大卷积之前先用1x1进行扫描(跨通道的信息交流,降维或者升维度)是有必要的,且可以保留临近单元的强相关性,还可以加速学习。

原则4

Balance the width and depth of the network

(均衡网络的宽度和深度,二者同时提升即可提高性能也提高计算效率)

提升网络的宽度和深度需要in paralle(并行/成比例/同时)提升,不能只提升一方面。均衡宽度和深度,平衡计算机资源分配。

三、Factorizing Convolutions with Large Filter Size(分解大卷积核)

GoogLeNet的成功原因是使用了大量的1x1卷积降维,相邻感受野的卷积结果是高度相关的,在传入大卷积核聚合感受野之前可以先降维

还可以探索其他卷积分解方法提升计算效率,Inception网络是一个全卷机,权重个数越多,乘法计算量越大,降维也可减少参数量、加速训练、节约内存,使用更多卷积组。

Factorization into smaller convolutions(将5x5分解为两个3x3卷积)

InceptionV2-V3论文精读及代码_第15张图片

大尺度卷积在计算上是不均衡的,例如相同卷积核和feature map尺寸情况下5x5比3x3卷积的计算量高2.78倍(具体计算见CS231N笔记)

原结构:

InceptionV2-V3论文精读及代码_第16张图片

改进结构:

InceptionV2-V3论文精读及代码_第17张图片

5x5卷积相对3x3卷积具有更大的空间信息(further away in the earlier layers),可以提取到更大感受野之间的相关性,因此降维之后的信息丢失更严重。

能否在感受也不变的同时减少参数量?

我们通过查看5x5卷积的计算图可以查看到,输出的5x5卷积就相当于一个小型的全连接层,分解为两个3x3卷积替代可以看到第二个3x3卷积就相当于一个全连接层。计算量比较:

InceptionV2-V3论文精读及代码_第18张图片

新的问题:

1.分解卷积是否会影响网络的表达能力?

2.是否需保留第一层的非线性激活函数?

        下图表示费线性激活函数对模型精度有提高,主要因为增加非线性,可学习空间也增强了,使用batch-normalize效果会更明显。1x1卷积降维后接Relu有类似效果

InceptionV2-V3论文精读及代码_第19张图片

Spatial Factorization into Asymmetric Convolutions

将3x3卷积分解为1x3和3x1的不对称卷积(空间可分离卷积)或nxn卷积分解为nx1和1xn

InceptionV2-V3论文精读及代码_第20张图片

原结构:

InceptionV2-V3论文精读及代码_第21张图片

改进结构:

InceptionV2-V3论文精读及代码_第22张图片

同5x5分解为3x3卷积的方法,3x3卷积还可以分解为2个2x2卷积,仅能减少11%参数量,分解为1x3和3x1可以减少33%参数量,感受野和3x3感受野相同。计算如下:

InceptionV2-V3论文精读及代码_第23张图片

其中n的值越大,节省的运算量越大

非对称卷积分解在靠前的层效果不好,feature map尺寸在12~20之间是表现最好的

四、Utility of Auxiliary Classifiers(辅助分类器)

在GoogLeNet网络引入辅助分类器的初衷

1)辅助分类器注入梯度,改变梯度消失

2)正则化

3)让浅层可以学习到区分性特征

其中十一号文献也提到了辅助分类器可以提供更稳定的学习和更快的收敛,但是论文中也自己否定了该结论,对照实验发现有无辅助分类器并没有太大区别,在训练结束时,带有辅助分类器的模型精度会相对高一点,因此辅助分类器并不能帮助模型更快的收敛。InceptionV1中有两个辅助分类器,去掉浅层的辅助分类器并没有什么影响

如果辅助分类器加了BN或dropout层主分类器性能更好,辅助分类器起到了正则化的作用

本文中的辅助分类器模块,其中还有Batch-Normalization和softmax层未写明

InceptionV2-V3论文精读及代码_第24张图片

五、Efficient Grid Size Reduction(高效下采样技巧)

池化前应先升维保留更多信息,也符合原则1

一般有两种方法采取下采样

InceptionV2-V3论文精读及代码_第25张图片

传统方法一 先池化再卷积,计算量大

InceptionV2-V3论文精读及代码_第26张图片

方法二 使用步长为2的卷积核下采样,计算量小,但是步长为2的卷积核会丢失很多相关信息,违背定律1,会导致表示瓶颈

InceptionV2-V3论文精读及代码_第27张图片

使用Inception的并行模块很好的解决了上面两种方法的缺点

InceptionV2-V3论文精读及代码_第28张图片

从操作角度看

左边两个操作时进行卷积运算,右边直接进行池化,对数据进行三路处理,最后在叠加。可以在不丢失信息的情况下,减少参数量。

从grid size角度看

两路并行执行,卷积和池化共同进行,最后得到相同大小尺寸feature map 再将二者相互叠加输出。

扩展滤波器组

在临近输出层,用在最后分类层之前,用该模块扩展特征维度生成高维稀疏特征

InceptionV2-V3论文精读及代码_第29张图片

六、Inception-v2

大概汇总之前的改进,提出了Inception-v2,整个模型的结构如下表

主干网络卷积层、池化层,然后接了3个figure5 inception模块(5x5卷积分解为两个3x3卷积),5个figure6 inception模块(分解为不对称卷积)、2个figure 7 inception模块(扩展滤波器组)在加池化、线性分类器和softmax层

InceptionV2-V3论文精读及代码_第30张图片

该模型的计算量是GoogLeNet的2.5倍,但仍旧比VGG高效

七、Model Regularization via Label Smoothing(平滑标签)

建议阅读Hinton的论文 when does label smoothing help论文链接:https://proceedings.neurips.cc/paper/2019/file/f1748d6b0fd9d439f71450117eba2725-Paper.pdf

其核心是交叉熵损失函数(极大似然估计)

使用独热one-hot编码标签的计算方法:

正确答案是(1,0,0),只有正确分类为1,其他分类均为0.

从下面计算公式中可以看到,正确预测的值越大,交叉熵的值就越小。

InceptionV2-V3论文精读及代码_第31张图片

因此带来的问题就是:

1)最小化交叉熵函数等效于最大化正确分类的对数似然函数(如果想要正确类别的交叉熵变小,就要一直增大正确类别的得值到正无穷)

2)正确类别对应的分数logit会一味增大直到正无穷

3)导致后果A、过拟合,模型死记硬背无法泛化 B、鼓励模型过于自信,不计一切增大某一类的logit

Label Smooth计算公式:

其中u是先验分布,后面让预测分布和先验分布尽可能相似,噪音就可以相互抵消,学习到正确的信息

InceptionV2-V3论文精读及代码_第32张图片

修改为Label Smooth之后,新加入系数用来控制正确分类一直增大,该系数由人为指定,其中K为分类个数,下图例子的K值为4.相当于对one-hot独热编码进行弱化,降低“自信度”,正确分类的logit会有一个最大值(上界),不会一味增大。

注:更明显的比方,我在每个答案都引入一个错误,数据、类别个数积累的多了这些错误就会相互抵消掉,从而凸显正确的那个。(子豪兄:海浪退去就可以看到谁在裸泳)也可以想象成对动物分类时,如果正确分类是猫,对其的描述应该是他为什么是猫,为什么不是老虎,而不是描述为这就是猫

标签平滑处理有很多方式,可以参看帖子:神经网络中的label smooth为什么没有火? - 知乎

效果:

如果使用u(k)=1/1000,人为设定系数为0.1,那么将其用在2012年分类竞赛中,可以让top1和top5的识别精度提高0.2%(或者说top1和top5错误率降低0.2%)

InceptionV2-V3论文精读及代码_第33张图片

八、Training Methodology

基于Tensorflow 深度学习框架,进行分布式机器学习,batch size32,100次迭代,使用衰减为0.9的动量做梯度下降,效果最好的RMSProp衰减为0.9.初始学习率使用0.045,每两次迭代就指数级减少0.94.阈值为2.0的梯度剪裁被发现有助于稳定训练。模型评估使用的是running average(移动平均平滑)

九、Performance on Lower Resolution Input(小图上的性能)

低分辨率图像上的性能,例如在两阶段目标识别中,提取候选框在对候选框分类和回归,小图中的分辨率低,本文模型在这样的图像中识别效果怎么样?

一个公共的认知大分辨率图像的模型性能好,主要有两个渠道:

1)提升第一层感受野分辨率

        如果直接放大输入图像,不修改(加深)模型,就相当于用简单模型解决复杂问题,这会导致计算机去分析模糊的提示,“幻想”出更细微的细节,这就需要更大的计算量

2)提高模型容量

如果在保持计算量不变的情况下,提升输入图像分辨率有多大帮助呢?

        减少计算量的方法,减少前两层的步长,或者直接去掉第一个池化层之后的池化层。进行三组对照实验:

                1.299x299输入大小,步长为2,第一层池化之后的池化层全部保留

                2.151x151输入大小,步长为1,第一层池化之后的池化层全部保留

                3.79x79输入大小,步长为1,第一层池化之后的池化层去掉

        上面是三个实验的计算成本几乎相同,虽然第三个去掉了很多大部分池化层,但是池化层对应的计算成本很低,可以忽略不计。三个实验都训练到收敛,在2012Image竞赛上进行评估,结果如下:

InceptionV2-V3论文精读及代码_第34张图片

        从上面可以看出,整体测试结果都差不多,虽然低分辨率需要更长的时间进行训练。因为如果只根据输入的分辨率变小而减少网络的大小,那么网络的性能会变得很差。

        因此可以为R-CNN目标检测任务使用专用的高成本低分辨率网络

十、Experimental Results and Comparisons

InceptionV2-V3论文精读及代码_第35张图片

上图在单裁剪实验下Network结构不断改进优化,top1 error也在不断优化,最下面Inception-V2+BN-auxiliary表现最好,它是组合了上面全部结构再加BN辅助分类器得到的最优结构,本文称之为“Inception-V3

InceptionV2-V3论文精读及代码_第36张图片

上图是使用单模型多裁剪进行的实验结果,原文的top1和top5写反了,修正一下。

InceptionV2-V3论文精读及代码_第37张图片

其中crop evaluated在GoogLeNet中有介绍,每张图像缩放为短边长度256、288、320、352四个尺度,每个尺度裁出左中右(或上中下)三张小图,每张下图取四个角和中央的五张224x24的patch以及小图缩放至224x224共六个patch,同时取其镜像。即4x3x6x2=144

十一、Conclusions

本文介绍的Inception-V2模型相对于之前的VGG模型大大减少了计算量,精度也有提升,同时本文表现最好的模型Inception-V3在2012Image竞赛中可以达到21.2%top-1和5.6% top-5,效果比BN-Inception高2.5倍,参数量上比PRelu(六号文献),相较之下有六倍的计算效率提高,参数量只有五分之一

该模型可以使用在低分辨率检测小物体,我们还用讨论了分解卷积的效果,同时通过BN-辅助分类器和Lable smoth实现正则化处理。

参考文献

Inception-V3代码

import warnings
from collections import namedtuple
from typing import Callable, Any, Optional, Tuple, List
​
import torch
import torch.nn.functional as F
from torch import nn, Tensor
​
from .._internally_replaced_utils import load_state_dict_from_url
from ..utils import _log_api_usage_once
​
​
__all__ = ["Inception3", "inception_v3", "InceptionOutputs", "_InceptionOutputs"]
​
​
model_urls = {
    # Inception v3 ported from TensorFlow
    "inception_v3_google": "https://download.pytorch.org/models/inception_v3_google-0cc3c7bd.pth",
}
​
InceptionOutputs = namedtuple("InceptionOutputs", ["logits", "aux_logits"])
InceptionOutputs.__annotations__ = {"logits": Tensor, "aux_logits": Optional[Tensor]}
​
# Script annotations failed with _GoogleNetOutputs = namedtuple ...
# _InceptionOutputs set here for backwards compat
_InceptionOutputs = InceptionOutputs
​
​
class Inception3(nn.Module):
    def __init__(
        self,
        num_classes: int = 1000,
        aux_logits: bool = True,
        transform_input: bool = False,
        inception_blocks: Optional[List[Callable[..., nn.Module]]] = None,
        init_weights: Optional[bool] = None,
        dropout: float = 0.5,
    ) -> None:
        super().__init__()
        _log_api_usage_once(self)
        if inception_blocks is None:
            inception_blocks = [BasicConv2d, InceptionA, InceptionB, InceptionC, InceptionD, InceptionE, InceptionAux]
        if init_weights is None:
            warnings.warn(
                "The default weight initialization of inception_v3 will be changed in future releases of "
                "torchvision. If you wish to keep the old behavior (which leads to long initialization times"
                " due to scipy/scipy#11299), please set init_weights=True.",
                FutureWarning,
            )
            init_weights = True
        if len(inception_blocks) != 7:
            raise ValueError(f"lenght of inception_blocks should be 7 instead of {len(inception_blocks)}")
        conv_block = inception_blocks[0]
        inception_a = inception_blocks[1]
        inception_b = inception_blocks[2]
        inception_c = inception_blocks[3]
        inception_d = inception_blocks[4]
        inception_e = inception_blocks[5]
        inception_aux = inception_blocks[6]
​
        self.aux_logits = aux_logits
        self.transform_input = transform_input
        self.Conv2d_1a_3x3 = conv_block(3, 32, kernel_size=3, stride=2)
        self.Conv2d_2a_3x3 = conv_block(32, 32, kernel_size=3)
        self.Conv2d_2b_3x3 = conv_block(32, 64, kernel_size=3, padding=1)
        self.maxpool1 = nn.MaxPool2d(kernel_size=3, stride=2)
        self.Conv2d_3b_1x1 = conv_block(64, 80, kernel_size=1)
        self.Conv2d_4a_3x3 = conv_block(80, 192, kernel_size=3)
        self.maxpool2 = nn.MaxPool2d(kernel_size=3, stride=2)
        self.Mixed_5b = inception_a(192, pool_features=32)
        self.Mixed_5c = inception_a(256, pool_features=64)
        self.Mixed_5d = inception_a(288, pool_features=64)
        self.Mixed_6a = inception_b(288)
        self.Mixed_6b = inception_c(768, channels_7x7=128)
        self.Mixed_6c = inception_c(768, channels_7x7=160)
        self.Mixed_6d = inception_c(768, channels_7x7=160)
        self.Mixed_6e = inception_c(768, channels_7x7=192)
        self.AuxLogits: Optional[nn.Module] = None
        if aux_logits:
            self.AuxLogits = inception_aux(768, num_classes)
        self.Mixed_7a = inception_d(768)
        self.Mixed_7b = inception_e(1280)
        self.Mixed_7c = inception_e(2048)
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))
        self.dropout = nn.Dropout(p=dropout)
        self.fc = nn.Linear(2048, num_classes)
        if init_weights:
            for m in self.modules():
                if isinstance(m, nn.Conv2d) or isinstance(m, nn.Linear):
                    stddev = float(m.stddev) if hasattr(m, "stddev") else 0.1  # type: ignore
                    torch.nn.init.trunc_normal_(m.weight, mean=0.0, std=stddev, a=-2, b=2)
                elif isinstance(m, nn.BatchNorm2d):
                    nn.init.constant_(m.weight, 1)
                    nn.init.constant_(m.bias, 0)
​
    def _transform_input(self, x: Tensor) -> Tensor:
        if self.transform_input:
            x_ch0 = torch.unsqueeze(x[:, 0], 1) * (0.229 / 0.5) + (0.485 - 0.5) / 0.5
            x_ch1 = torch.unsqueeze(x[:, 1], 1) * (0.224 / 0.5) + (0.456 - 0.5) / 0.5
            x_ch2 = torch.unsqueeze(x[:, 2], 1) * (0.225 / 0.5) + (0.406 - 0.5) / 0.5
            x = torch.cat((x_ch0, x_ch1, x_ch2), 1)
        return x
​
    def _forward(self, x: Tensor) -> Tuple[Tensor, Optional[Tensor]]:
        # N x 3 x 299 x 299
        x = self.Conv2d_1a_3x3(x)
        # N x 32 x 149 x 149
        x = self.Conv2d_2a_3x3(x)
        # N x 32 x 147 x 147
        x = self.Conv2d_2b_3x3(x)
        # N x 64 x 147 x 147
        x = self.maxpool1(x)
        # N x 64 x 73 x 73
        x = self.Conv2d_3b_1x1(x)
        # N x 80 x 73 x 73
        x = self.Conv2d_4a_3x3(x)
        # N x 192 x 71 x 71
        x = self.maxpool2(x)
        # N x 192 x 35 x 35
        x = self.Mixed_5b(x)
        # N x 256 x 35 x 35
        x = self.Mixed_5c(x)
        # N x 288 x 35 x 35
        x = self.Mixed_5d(x)
        # N x 288 x 35 x 35
        x = self.Mixed_6a(x)
        # N x 768 x 17 x 17
        x = self.Mixed_6b(x)
        # N x 768 x 17 x 17
        x = self.Mixed_6c(x)
        # N x 768 x 17 x 17
        x = self.Mixed_6d(x)
        # N x 768 x 17 x 17
        x = self.Mixed_6e(x)
        # N x 768 x 17 x 17
        aux: Optional[Tensor] = None
        if self.AuxLogits is not None:
            if self.training:
                aux = self.AuxLogits(x)
        # N x 768 x 17 x 17
        x = self.Mixed_7a(x)
        # N x 1280 x 8 x 8
        x = self.Mixed_7b(x)
        # N x 2048 x 8 x 8
        x = self.Mixed_7c(x)
        # N x 2048 x 8 x 8
        # Adaptive average pooling
        x = self.avgpool(x)
        # N x 2048 x 1 x 1
        x = self.dropout(x)
        # N x 2048 x 1 x 1
        x = torch.flatten(x, 1)
        # N x 2048
        x = self.fc(x)
        # N x 1000 (num_classes)
        return x, aux
​
    @torch.jit.unused
    def eager_outputs(self, x: Tensor, aux: Optional[Tensor]) -> InceptionOutputs:
        if self.training and self.aux_logits:
            return InceptionOutputs(x, aux)
        else:
            return x  # type: ignore[return-value]
​
    def forward(self, x: Tensor) -> InceptionOutputs:
        x = self._transform_input(x)
        x, aux = self._forward(x)
        aux_defined = self.training and self.aux_logits
        if torch.jit.is_scripting():
            if not aux_defined:
                warnings.warn("Scripted Inception3 always returns Inception3 Tuple")
            return InceptionOutputs(x, aux)
        else:
            return self.eager_outputs(x, aux)
​
​
class InceptionA(nn.Module):
    def __init__(
        self, in_channels: int, pool_features: int, conv_block: Optional[Callable[..., nn.Module]] = None
    ) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.branch1x1 = conv_block(in_channels, 64, kernel_size=1)
​
        self.branch5x5_1 = conv_block(in_channels, 48, kernel_size=1)
        self.branch5x5_2 = conv_block(48, 64, kernel_size=5, padding=2)
​
        self.branch3x3dbl_1 = conv_block(in_channels, 64, kernel_size=1)
        self.branch3x3dbl_2 = conv_block(64, 96, kernel_size=3, padding=1)
        self.branch3x3dbl_3 = conv_block(96, 96, kernel_size=3, padding=1)
​
        self.branch_pool = conv_block(in_channels, pool_features, kernel_size=1)
​
    def _forward(self, x: Tensor) -> List[Tensor]:
        branch1x1 = self.branch1x1(x)
​
        branch5x5 = self.branch5x5_1(x)
        branch5x5 = self.branch5x5_2(branch5x5)
​
        branch3x3dbl = self.branch3x3dbl_1(x)
        branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl)
        branch3x3dbl = self.branch3x3dbl_3(branch3x3dbl)
​
        branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
        branch_pool = self.branch_pool(branch_pool)
​
        outputs = [branch1x1, branch5x5, branch3x3dbl, branch_pool]
        return outputs
​
    def forward(self, x: Tensor) -> Tensor:
        outputs = self._forward(x)
        return torch.cat(outputs, 1)
​
​
class InceptionB(nn.Module):
    def __init__(self, in_channels: int, conv_block: Optional[Callable[..., nn.Module]] = None) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.branch3x3 = conv_block(in_channels, 384, kernel_size=3, stride=2)
​
        self.branch3x3dbl_1 = conv_block(in_channels, 64, kernel_size=1)
        self.branch3x3dbl_2 = conv_block(64, 96, kernel_size=3, padding=1)
        self.branch3x3dbl_3 = conv_block(96, 96, kernel_size=3, stride=2)
​
    def _forward(self, x: Tensor) -> List[Tensor]:
        branch3x3 = self.branch3x3(x)
​
        branch3x3dbl = self.branch3x3dbl_1(x)
        branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl)
        branch3x3dbl = self.branch3x3dbl_3(branch3x3dbl)
​
        branch_pool = F.max_pool2d(x, kernel_size=3, stride=2)
​
        outputs = [branch3x3, branch3x3dbl, branch_pool]
        return outputs
​
    def forward(self, x: Tensor) -> Tensor:
        outputs = self._forward(x)
        return torch.cat(outputs, 1)
​
​
class InceptionC(nn.Module):
    def __init__(
        self, in_channels: int, channels_7x7: int, conv_block: Optional[Callable[..., nn.Module]] = None
    ) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.branch1x1 = conv_block(in_channels, 192, kernel_size=1)
​
        c7 = channels_7x7
        self.branch7x7_1 = conv_block(in_channels, c7, kernel_size=1)
        self.branch7x7_2 = conv_block(c7, c7, kernel_size=(1, 7), padding=(0, 3))
        self.branch7x7_3 = conv_block(c7, 192, kernel_size=(7, 1), padding=(3, 0))
​
        self.branch7x7dbl_1 = conv_block(in_channels, c7, kernel_size=1)
        self.branch7x7dbl_2 = conv_block(c7, c7, kernel_size=(7, 1), padding=(3, 0))
        self.branch7x7dbl_3 = conv_block(c7, c7, kernel_size=(1, 7), padding=(0, 3))
        self.branch7x7dbl_4 = conv_block(c7, c7, kernel_size=(7, 1), padding=(3, 0))
        self.branch7x7dbl_5 = conv_block(c7, 192, kernel_size=(1, 7), padding=(0, 3))
​
        self.branch_pool = conv_block(in_channels, 192, kernel_size=1)
​
    def _forward(self, x: Tensor) -> List[Tensor]:
        branch1x1 = self.branch1x1(x)
​
        branch7x7 = self.branch7x7_1(x)
        branch7x7 = self.branch7x7_2(branch7x7)
        branch7x7 = self.branch7x7_3(branch7x7)
​
        branch7x7dbl = self.branch7x7dbl_1(x)
        branch7x7dbl = self.branch7x7dbl_2(branch7x7dbl)
        branch7x7dbl = self.branch7x7dbl_3(branch7x7dbl)
        branch7x7dbl = self.branch7x7dbl_4(branch7x7dbl)
        branch7x7dbl = self.branch7x7dbl_5(branch7x7dbl)
​
        branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
        branch_pool = self.branch_pool(branch_pool)
​
        outputs = [branch1x1, branch7x7, branch7x7dbl, branch_pool]
        return outputs
​
    def forward(self, x: Tensor) -> Tensor:
        outputs = self._forward(x)
        return torch.cat(outputs, 1)
​
​
class InceptionD(nn.Module):
    def __init__(self, in_channels: int, conv_block: Optional[Callable[..., nn.Module]] = None) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.branch3x3_1 = conv_block(in_channels, 192, kernel_size=1)
        self.branch3x3_2 = conv_block(192, 320, kernel_size=3, stride=2)
​
        self.branch7x7x3_1 = conv_block(in_channels, 192, kernel_size=1)
        self.branch7x7x3_2 = conv_block(192, 192, kernel_size=(1, 7), padding=(0, 3))
        self.branch7x7x3_3 = conv_block(192, 192, kernel_size=(7, 1), padding=(3, 0))
        self.branch7x7x3_4 = conv_block(192, 192, kernel_size=3, stride=2)
​
    def _forward(self, x: Tensor) -> List[Tensor]:
        branch3x3 = self.branch3x3_1(x)
        branch3x3 = self.branch3x3_2(branch3x3)
​
        branch7x7x3 = self.branch7x7x3_1(x)
        branch7x7x3 = self.branch7x7x3_2(branch7x7x3)
        branch7x7x3 = self.branch7x7x3_3(branch7x7x3)
        branch7x7x3 = self.branch7x7x3_4(branch7x7x3)
​
        branch_pool = F.max_pool2d(x, kernel_size=3, stride=2)
        outputs = [branch3x3, branch7x7x3, branch_pool]
        return outputs
​
    def forward(self, x: Tensor) -> Tensor:
        outputs = self._forward(x)
        return torch.cat(outputs, 1)
​
​
class InceptionE(nn.Module):
    def __init__(self, in_channels: int, conv_block: Optional[Callable[..., nn.Module]] = None) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.branch1x1 = conv_block(in_channels, 320, kernel_size=1)
​
        self.branch3x3_1 = conv_block(in_channels, 384, kernel_size=1)
        self.branch3x3_2a = conv_block(384, 384, kernel_size=(1, 3), padding=(0, 1))
        self.branch3x3_2b = conv_block(384, 384, kernel_size=(3, 1), padding=(1, 0))
​
        self.branch3x3dbl_1 = conv_block(in_channels, 448, kernel_size=1)
        self.branch3x3dbl_2 = conv_block(448, 384, kernel_size=3, padding=1)
        self.branch3x3dbl_3a = conv_block(384, 384, kernel_size=(1, 3), padding=(0, 1))
        self.branch3x3dbl_3b = conv_block(384, 384, kernel_size=(3, 1), padding=(1, 0))
​
        self.branch_pool = conv_block(in_channels, 192, kernel_size=1)
​
    def _forward(self, x: Tensor) -> List[Tensor]:
        branch1x1 = self.branch1x1(x)
​
        branch3x3 = self.branch3x3_1(x)
        branch3x3 = [
            self.branch3x3_2a(branch3x3),
            self.branch3x3_2b(branch3x3),
        ]
        branch3x3 = torch.cat(branch3x3, 1)
​
        branch3x3dbl = self.branch3x3dbl_1(x)
        branch3x3dbl = self.branch3x3dbl_2(branch3x3dbl)
        branch3x3dbl = [
            self.branch3x3dbl_3a(branch3x3dbl),
            self.branch3x3dbl_3b(branch3x3dbl),
        ]
        branch3x3dbl = torch.cat(branch3x3dbl, 1)
​
        branch_pool = F.avg_pool2d(x, kernel_size=3, stride=1, padding=1)
        branch_pool = self.branch_pool(branch_pool)
​
        outputs = [branch1x1, branch3x3, branch3x3dbl, branch_pool]
        return outputs
​
    def forward(self, x: Tensor) -> Tensor:
        outputs = self._forward(x)
        return torch.cat(outputs, 1)
​
​
class InceptionAux(nn.Module):
    def __init__(
        self, in_channels: int, num_classes: int, conv_block: Optional[Callable[..., nn.Module]] = None
    ) -> None:
        super().__init__()
        if conv_block is None:
            conv_block = BasicConv2d
        self.conv0 = conv_block(in_channels, 128, kernel_size=1)
        self.conv1 = conv_block(128, 768, kernel_size=5)
        self.conv1.stddev = 0.01  # type: ignore[assignment]
        self.fc = nn.Linear(768, num_classes)
        self.fc.stddev = 0.001  # type: ignore[assignment]
​
    def forward(self, x: Tensor) -> Tensor:
        # N x 768 x 17 x 17
        x = F.avg_pool2d(x, kernel_size=5, stride=3)
        # N x 768 x 5 x 5
        x = self.conv0(x)
        # N x 128 x 5 x 5
        x = self.conv1(x)
        # N x 768 x 1 x 1
        # Adaptive average pooling
        x = F.adaptive_avg_pool2d(x, (1, 1))
        # N x 768 x 1 x 1
        x = torch.flatten(x, 1)
        # N x 768
        x = self.fc(x)
        # N x 1000
        return x
​
​
class BasicConv2d(nn.Module):
    def __init__(self, in_channels: int, out_channels: int, **kwargs: Any) -> None:
        super().__init__()
        self.conv = nn.Conv2d(in_channels, out_channels, bias=False, **kwargs)
        self.bn = nn.BatchNorm2d(out_channels, eps=0.001)
​
    def forward(self, x: Tensor) -> Tensor:
        x = self.conv(x)
        x = self.bn(x)
        return F.relu(x, inplace=True)
​
​
def inception_v3(pretrained: bool = False, progress: bool = True, **kwargs: Any) -> Inception3:
    r"""Inception v3 model architecture from
    `"Rethinking the Inception Architecture for Computer Vision" `_.
    The required minimum input size of the model is 75x75.
​
    .. note::
        **Important**: In contrast to the other models the inception_v3 expects tensors with a size of
        N x 3 x 299 x 299, so ensure your images are sized accordingly.
​
    Args:
        pretrained (bool): If True, returns a model pre-trained on ImageNet
        progress (bool): If True, displays a progress bar of the download to stderr
        aux_logits (bool): If True, add an auxiliary branch that can improve training.
            Default: *True*
        transform_input (bool): If True, preprocesses the input according to the method with which it
            was trained on ImageNet. Default: True if ``pretrained=True``, else False.
    """
    if pretrained:
        if "transform_input" not in kwargs:
            kwargs["transform_input"] = True
        if "aux_logits" in kwargs:
            original_aux_logits = kwargs["aux_logits"]
            kwargs["aux_logits"] = True
        else:
            original_aux_logits = True
        kwargs["init_weights"] = False  # we are loading weights from a pretrained model
        model = Inception3(**kwargs)
        state_dict = load_state_dict_from_url(model_urls["inception_v3_google"], progress=progress)
        model.load_state_dict(state_dict)
        if not original_aux_logits:
            model.aux_logits = False
            model.AuxLogits = None
        return model
​
    return Inception3(**kwargs)

你可能感兴趣的:(深度学习框架,深度学习,经典论文阅读,深度学习,机器学习,计算机视觉)