池化层的作用和种类

今天被问到一个问题,回答的不是很全面,现在特意进行一次总结学习:

池化的原理或者是过程pooling是在不同的通道上分开执行的(就是池化操作不改变通道数),且不需要参数控制。然后根据窗口大小进行相应的操作。 一般有max poolingaverage pooling等。

1.池化层主要的作用

(1)首要作用,下采样(downsampling)

(2)降维、去除冗余信息、对特征进行压缩、简化网络复杂度、减小计算量、减小内存消耗等等。各种说辞吧,总的理解就是减少参数量。

(3)实现非线性(这个可以想一下,relu函数,是不是有点类似的感觉?)。

(4)可以扩大感知野。

(5)可以实现不变性,其中不变形性包括,平移不变性、旋转不变性和尺度不变性。

参考链接
[1] https://zhuanlan.zhihu.com/p/27642620
[2] https://www.zhihu.com/question/36686900
[3] https://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/61920796

2.池化主要有哪几种:

(1)一般池化(General Pooling):

其中最常见的池化操作有平均池化、最大池化:

平均池化average pooling):计算图像区域的平均值作为该区域池化后的值。

最大池化max pooling):选图像区域的最大值作为该区域池化后的值。

(2)重叠池化(OverlappingPooling):

重叠池化就是,相邻池化窗口之间有重叠区域,此时一般sizeX > stride

(3)空金字塔池化(Spatial Pyramid Pooling)

空间金字塔池化的思想源自 Spatial Pyramid Model,它将一个pooling变成了多个scale的pooling。用不同大小池化窗口作用于上层的卷积特征。也就是说 spatital pyramid pooling layer就是把前一卷积层的feature maps的每一个图片上进行了3个卷积操作,并把结果输出给全连接层。其中每一个pool操作可以看成是一个空间金字塔的一层。(具体的细节可以看下面的参考链接,讲的比较详细)

这样做的好处是,空间金字塔池化可以把任意尺度的图像的卷积特征转化成相同维度,这不仅可以让CNN处理任意尺度的图像,还能避免cropping和warping操作,导致一些信息的丢失,具有非常重要的意义。

参考链接
[1] https://blog.csdn.net/juronghui/article/details/78648806
[2] https://blog.csdn.net/yzf0011/article/details/75212513
[3] https://blog.csdn.net/u011534057/article/details/51219959

声明: 总结学习,参考链接均已给出。有问题或不当之处,可以批评指正哦,谢谢。

你可能感兴趣的:(机器学习,PyTorch)