SppNet中的spatial pyramid pooling

本篇主要简述SPP中的spatial pyramid pooling,力求简单明了。

论文地址:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual  Recognitio

spp提出的初衷是为了解决CNN对输入图片尺寸的限制。由于全连接层的存在,与之相连的最后一个卷积层的输出特征需要固定尺寸,从而要求输入图片尺寸也要固定。spp-net之前的做法是将图片裁剪或变形(crop/warp),如下图所示

SppNet中的spatial pyramid pooling_第1张图片
图1 cropping or warping

crop/warp的一个问题是导致图片的信息缺失或变形,影响识别精度。对此,文章中在最后一层卷积特征图的基础上又进一步进行处理,提出了spatial pyramid pooling,如图2所示:

SppNet中的spatial pyramid pooling_第2张图片
图2 crop/warp vs spp

空间金字塔池化(spatial pyramid pooling)的网络结构如下图:

SppNet中的spatial pyramid pooling_第3张图片
图3 spp structure

简而言之,即是将任意尺寸的feature map用三个尺度的金字塔层分别池化,将池化后的结果拼接得到固定长度的特征向量(图中的256为filter的个数),送入全连接层进行后续操作。

后来的Fast RCNN网络即借鉴了spp的思想。其中的ROI Pooling可理解为单尺度的SPP层。

你可能感兴趣的:(SppNet中的spatial pyramid pooling)