NIN网络-Network In Network

图像分类系列:

0、BP前反馈神经网络原理详解

1、Lenet详解

2、Alexnet详解

3、VGG网络结构

4、NIN网络结构

5、Googlenet inception v1 结构详解、inception v2 和 inception v3

 

参考 https://www.cnblogs.com/makefile/p/nin.html,第一个卷积核是11x11x3x96,因此在一个patch块上卷积的输出是1x1x96的feature map(一个96维的向量).在其后又接了一个MLP层,输出仍然是96.因此这个MLP层就等价于一个1 x 1 的卷积层,这样工程上任然按照之前的方式实现,不需要额外工作.

MLPCONV

NIN结构的mlp conv结构是将多层感知机(MLP)和卷积(CONV)结合在一起,即在传统的卷积层之间加上了MLP层,一个卷积核对原图的同一片相同大小区域卷积得到一个数,96个卷积核同样的操作得到96个数,即96个通道上同一个位置的一个元素,然后将这96个元素做一下全连接,又得到96个元素。相当于在对每一个patch的不同卷积核结果做了一个MLP。

一个卷积核与原图同样尺寸区域进行卷积(相乘相加)得到一个元素,该区域即为一个patch,不同通道上得到的元素融合即得到输出图像的一个元素。即输出图像的每一个元素 为 卷积核与上一层每一个通道上对应的patch先卷积再相加得到。

mlp conv另一种理解方式:在原来每一层输出后加一个 与通道数量相同1 x 1 的卷积层。见上图MLPCONV与CNN对比。作用:

  1. 其实相当于在通道之间做了特征融合。
  2. 每一层卷积之后加一个激活函数,比原结构多了一层激活函数,增加了结构的非线性表达能力。

Global Average Pooling

整个featuremap平均池化结果作为softmax 输入,相较于Alexnet全连接的优点:

  1. 减少参数量(1000x1000+1000x6x6),从而减轻过拟合
  2. 求和平均综合了整个featuremap的所有信息
  3. 不限输入图片的大小

你可能感兴趣的:(CNN,卷积网络)