论文笔记:SqueezeNet

1.相同准确率下,参数更少的模型有三个好处:
     1)高效的分布式训练
     2)替换模型更容易
     3)FPGA部署遍更便利
2.本文三个策略:
     1)用1*1的核来替换3*3的核,可以减少9倍参数
     2)减少输入到3*3核的输入channel数量,因为参数由N* C*W*H决定
     3)延后下采样,使得卷基层有较大的activtion maps。关于这一点文章提到K.He有篇文章说 较大的特征图会带来较高的准确率。有时间了要拜读一下

3.Fire Module
     1)组成:squeeze + expand
          其中 squeeze是由 s1个1*1的卷积核组成的,送入expand 部分,对应策略1
          expand由e1个1*1的卷积核以及 e3各3*3的卷积核组成的
     2)一般令 s1 < e1 + e3, 这样可以限制输入到3*3核的channel。对应策略2
     3)stride为2的max-pooling只位于conv1,fire4,fire8,conv10。对应策略3
     4)其他细节:
               zero-padding在3*3核的输出,使其与1*1的输出大小一致
               如NIN一样没有FC
               caffe中用两个conv layer,然后concat来实现
论文笔记:SqueezeNet_第1张图片 论文笔记:SqueezeNet_第2张图片 论文笔记:SqueezeNet_第3张图片


4.结论:
     参数较alexNet减少50倍,top1 imagenet准确率反而略有提升(57.2 -> 57.5),top5没有降低(80.3) 

你可能感兴趣的:(DL)