空间金字塔池化Spatial pyramid pooling net,用于语义分割

这篇文章属于小笔记类型,了解空间金字塔的作用就好。

金字塔池化层有如下的三个优点,第一:他可以解决输入图片大小不一造成的缺陷。第二:由于把一个feature map从不同的角度进行特征提取,再聚合。第三:同时也在object recongtion增加了精度。其实,是因为在卷积层的后面对每一张图片都进行了多方面的特征提取,他就可以提高任务的精度。

空间金字塔池化Spatial pyramid pooling net,用于语义分割_第1张图片
SPP


我们可以看到这里的spatital pyramid pooling layer就是把前一卷积层的feature maps的每一个图片上进行了3个卷积操作。最右边的就是原图像,中间的是把图像分成大小是4的特征图,最右边的就是把图像分成大小是16的特征图。那么每一个feature map就会变成16+4+1=21个feature maps。我们即将从这21个块中,每个块提取出一个特征,这样刚好就是我们要提取的21维特征向量。这就解决了特征图大小不一的状况了。

首先通过选择性搜索(selective search),对待检测的图片进行搜索出2000个候选窗口

进行特征提取

这一步是和R-CNN最大的区别,用卷积神经网络进行特征提取,但是SPP-Net用的是金字塔池化提取特征。

这一步骤的具体操作如下:

SSP-Net输入是:整张待检测的图片,进入CNN中,进行一次特征提取,得到feature maps,然后在feature maps中找到各个候选框的区域,再对各个候选框采用金字塔空间池化,提取出固定长度的特征向量。

R-CNN输入:是每个候选框,然后在进入CNN,所以对于2000个候选框,都要进入一次CNN。

FCN是把全连接层去掉了,只剩下卷积层,这样,不管你输入多大的图片都无所谓啦~~

你可能感兴趣的:(空间金字塔池化Spatial pyramid pooling net,用于语义分割)