Inception V3 论文学习记录

原文:Rethinking the Inception Architecture for Computer Vision

论文同时提出来 Inception V2 和 Inception V3,它聚焦在提升模型准确率的前提下,还追求了计算效率和能耗等移动设备上的性能。目标在于充分利用计算效率

通用设计原则

1. 避免过度降维或收缩特征,特别是在网络浅层

降维会造成各通道间的相关性信息丢失,仅反映了稠密的信息

2. 特征越多,收敛越快

相互独立的特征越多,输入的信息分解的越彻底。

3. 3x3 和 5x5 大卷积核卷积之前可用 1x1 卷积降维,信息不会丢失

邻近单元的强相关性在降维过程中信息损失很少。

4. 均衡网络的宽度和深度

两者同时均衡提升,既可提升性能,也可提升计算效率。

大卷积核分解

Inception 模块中运用到了大量的 1x1 卷积,通过先降维再升维的操作,邻近单元的相关性在降维过程中信息损失很少(相邻感受野的卷积结果是高度相关的),在传入大卷积核聚合感受野之前,可以先降维。这样可以有效的减少权重数量,从而减少计算量,最终能做到加速训练,节约内存,从而使用更多的卷积组。
下面是通过两个 3x3 卷积替代 5x5卷积:


这么做大大减少了参数数量,感受野都是5x5,5x5 比 3x3 卷积的计算量高 2.78 倍,第二个3x3 卷积相当于一个全连接网络

应用此方式,将 Inception v1 改写为如下网络:


5x5卷积改为两个3x3卷积

卷积核分解为非对称卷积

将 3x3 卷积分解为 3x1 卷积和 1x3 卷积示意图如下:


Figure 5. 3x3 卷积分解为 3x1 卷积和 1x3 卷积

感受野并未变化。第二层的卷积核相当于一个全连接网络。3x3 其实仍能分解为2个2x2的卷积,但是参数量减少并不多(11%),而通过非对称的卷积分解,能够减少参数量达到 33%。

引入非对称卷积分解:


Figure 6. 非对称分解
Figure 7. 扩展滤波器组

辅助分类器的使用

GoogleNet 有两个辅助分类器,一个在浅层,一个在深层。本论文中指出这两个辅助分类器并不能加快收敛,去掉后并没有影响。

高效下采样技巧

下采样前应该先升维保留更多信息。


Inception 和 网格角度图

在扩充通道的同时进行了下采样,有保证了计算的效率。

Inception V2

逐层如下:


网络体系结构大纲

Figure 5:5x5卷积分解为2个3x3卷积
Figure 6:分解为不对称卷积
Figure 7:扩展滤波器组(在宽度方向进行不对称分解),多使用在末层(在 Grid S ize 较小时使用),用该模块扩展特征维度,生成高维稀疏特征。

Label Smooth

Label 使用 one-hot 编码,通过最小化交叉熵损失函数,等效于最大化正确类别的对数似然估计:

正确类别对应的logit分数会一味增大,直到正无穷,这会导致模型过拟合,鼓励模型过与自信不计一切增大某一类的 logit 分数。

Label Smooth 除了正确答案,会拿出一部分概率平分在其他类别。这样也会减弱过拟合。


one hot to Label smooth

你可能感兴趣的:(Inception V3 论文学习记录)