Network in Network论文笔记

Network in Network

Introduction

传统卷积:广义线性模型(Generalized Liner Model,GLM),提取的浅层特征。只有数据线性可分时可以达到好的效果。
NIN:利用非线性模块(micro network,本文采用多层感知机——mlpconv)代替GLM。

Network in Network论文笔记_第1张图片
GLM提取局部的线性特征,mlpconv包含多层感知机和全连接层。两者都是滑动窗形式提取局部特征。NIN由mlpconv这样的micro network堆叠而成,所以称为Network in Network。
在NIN的最后,直接将feature map后接global average pooling(全局平均池化)+softmax作为网络的最后输出。
(文中这里解释了传统的FC层类似于黑盒子所以很难解释信息如何在back propagation过程中传递?。而全局平均池化加强了feature map和类别信息之间的联系)传统的FC层容易过拟合,需要进行drop out正则化,而全局平均池化也充当了正则化的作用,解决了过拟合问题。

模型结构

MLP Conv

多层感知机(MLP)
1.利用back propagation进行训练,可以与传统的卷积层进行比较。
2.本身是一个深度网络,并且可以实现特征重复利用。
mlpconv公式如下:

Network in Network论文笔记_第2张图片
上述公式可以理解为cross channel pooling,实现不同channel之间的信息传递。作用相当于一个1*1卷积核。
Network in Network论文笔记_第3张图片

全局平均池化

传统卷积网络:Conv+FC+softmax。Conv看做特征提取,后续作为分类。
Global average pooling:对每个类别提取一个feature map,然后计算每个feature map的平均值。将结果送入softmax进行分类。加强了类别信息和feature map的内在联系,这样feature map就可以被当做类别的置信度。
另外,全局平均池化对于输入数据的空间变换结果更具有鲁棒性。

过拟合问题:传统的FC+softmax带来过拟合问题需要drop out来进行处理。而Global average pooling不含参数,所以不会带来过拟合的问题。

实验

你可能感兴趣的:(深度学习,神经网络)