计算机视觉的神经网络结构

AlexNet,VGG,GoogleNet,ResNet,DensNet

在上图中卷积层的输入图像是3通道的(图中第1列)。对应的,卷积核也是3通道的。在进行卷积操作时,分别用每个通道的卷积核对对应通道的图像进行卷积,然后将同一个位置处的各个通道值累加,得到一个单通道图像。在上图中,有4个卷积核,每个卷积核产生一个单通道的输出图像,4个卷积核共产生4个通道的输出图像。

计算机视觉的神经网络结构_第1张图片

 

池化层

通过卷积操作,我们完成了对输入向图像的降维和特征抽取,但特征图像的维数还是很高。维数高不仅计算耗时,而且容易导致过拟合。为此引入了下采样技术,也称为pooling即池化操作。

池化的做法是对图像的某一个区域用一个值代替,如最大值或平均值。如果采用最大值,叫做max池化;如果采用均值,叫做均值池化。除了降低图像尺寸之外,下采样带来的另外一个好处是平移、旋转不变性,因为输出值由图像的一片区域计算得到,对于平移和旋转并不敏感。

1*1卷积核作用:控制通道数目、降低计算量。https://www.quora.com/What-is-a-1X1-convolution

 

 

http://www.sohu.com/a/229847029_297710

http://www.sohu.com/a/229728388_297710

 

https://www.sohu.com/a/231713369_178408

http://www.sohu.com/a/163807797_465975

https://www.sohu.com/a/207603425_355135

你可能感兴趣的:(计算机视觉的神经网络结构)