目标检测——SPP-Net

SPPnet:Spatial Pyramid Pooling in Deep Convolution Networks for Visual Recognition(空间金字塔池化)

一、前言

1、R-CNN这个深度卷积神经网络需要输入固定尺寸的图像,经过Selective Search之后选出的2000个候选框的尺寸必定不同,在传入网络之前,就需要对图像进行截取或者拉伸,这样很大可能改变了图像原来的尺寸,极大影响了检测结果。
2、R-CNN中2000个候选框,需要进行2000次的CNN操作,重复的卷积工作,造成资源消耗,以及时间浪费。
目标检测——SPP-Net_第1张图片

二、创新

针对以上的两个问题,何恺明等人提出一种新的池化方法,即空间金字塔池化

两大创新:(1)整张图像只需要进一次CNN;(2)任意尺寸的图像均可以,不需要进行进行拉伸截取等操作,经过SPP可以产生固定大小的输出。

使用一个空间金字塔池化层替换原来网络中的最后一个池化层(即最后一个卷积层之后的pool5)

目标检测——SPP-Net_第2张图片

三、SPP-Net流程

讲解SPP-Net的整体的流程:
1.将整张图片输入CNN,进行一次特征提取,得到feature map;
2.在feature map中找到每个候选框对应的特征区域,即存在2000个特征区域;
3.针对各个特征区域,执行金字塔池空间池化层,提取出固定尺度长度的特征向量,接入全连接层

详细讲解一下金字塔池化层的操作:
(例如需要输出21个神经元给全连接层)
下图中黑色图片即是我们的特征图,下一步将图片进行不同尺寸的划分,下图中进行三种size的划分得到44、22、1*1,针对划分之后的图,针对每个框取最大值,得到16+4+1=21个值,作为全连接层的21个神经元。
目标检测——SPP-Net_第3张图片

你可能感兴趣的:(目标检测,目标检测,人工智能,深度学习)