Rethinking the Inception Architecture for Computer Vision

论文阅读记录 *Rethinking the Inception Architecture for Computer Vision*

  • 网络设计的普遍原则
  • 网络卷积核的设置
  • 有效的网格尺寸缩减
  • 通过labelsmoothing的模型正则化

网络设计的普遍原则

  1. 避免表示瓶颈——一些网络结构不可缺失:纠正结构(conv(3*3)+conv(1*1)+激活层)、高纬度的网络只是提供了信息的粗糙文本;
  2. 高维特征可以更好表示局部特征,更多的激活模块可以更好的进行多分类操作;
  3. 空间信息聚合时可以通过维度削减提高网络速度,并且由于空间文本的关联性,不会对结果产生明显的影响;
  4. 网络的深度与宽度应当权衡考量。

网络卷积核的设置

  1. 分解大的卷积核
    Rethinking the Inception Architecture for Computer Vision_第1张图片
    将5*5的分解为两个3*3的卷积核,其中参数因子可以这么表示5*5/(2*3*3)减少了计算了。同时,感受野也是一致的,而且加深了网络,所以效果会好。
    这个效果是可见的就目前的网络大多使用3*3的卷积核。
  2. 将卷积核分解为对称卷积
    Rethinking the Inception Architecture for Computer Vision_第2张图片
    这个使用的较少,下次看到这方面的网络结构注意。
  3. 辅助分类器的作用
    辅助分类器的作用相当于batch-norm及layer-dropout,对结果影响也较大。

有效的网格尺寸缩减

Rethinking the Inception Architecture for Computer Vision_第3张图片
对于网络层的左边的计算参数为(dk/2)2,右边的参数数量为2(dk)2
这边不理解为什么没有计算第二层的参数,虽然也是左边的参数少,希望看到的大佬告知一下。
Rethinking the Inception Architecture for Computer Vision_第4张图片
作者提倡左边的网格缩减策略。

通过labelsmoothing的模型正则化

这是文章中的一个关键。
文章中提到模型高置信度带来的影响:1. 过拟合;2. 扩大了smooth中最大分数与将要变大的目标之间测差异性(不理解)。
文章中采用:
q’=(1-a)*b+a*u(t)去代替了正样本设置是为1,负样本为0的做法
a是自己设置的值,u(t)是一个固定的概率密度函数。作者称之为LSR.并修改了最后的loss函数:
Rethinking the Inception Architecture for Computer Vision_第5张图片

你可能感兴趣的:(神经网络,深度学习)