目标检测发展之SPP-Net

(2015) SPP-Net

Spatial Pramid Pooling 空间金字塔池化
SPP-Net对2014年提出的RCNN做出了改进。

1、算法流程
  • 通过选择搜索(selective search),对待检测图片搜索出2000个候选框。(同RCNN)
  • 改进:改变RCNN对2000多个框出来的图分别都输入CNN中的做法。
    将整张图直接输入CNN,一次性完成特征提取,得到Feature Map。然后在Feature Map中找到各个候选框区域,对每个区域用空间金字塔池化提取出固定长度的特征向量。(通过池化可以保留局部信息)
  • 将2000多个特征向量,用SVM识别。(同RCNN)
    目标检测发展之SPP-Net_第1张图片
2、技术难点(如何映射?)

如何能够将原图中的候选框(proposal)映射到特征图上。
因为映射完之后,要对候选区域进行金字塔池化。
解决:
论文中给出一个公式:
原图坐标点(x,y)→(x’,y’)特征图上的坐标点

目标检测发展之SPP-Net_第2张图片
映射左上角和右下角的两个点,使得(x’,y’)在原始图上感受野的中心点与(x,y)尽可能接近。
left :在这里插入图片描述
right:
在这里插入图片描述
S是卷积网络中所有层里的strides乘积。
[X/S]+1,左上角向右下偏移
[X/S]-1,右下角向左上偏移

3、检测算法
  • 用ss(选择搜索)生成2k个候选框,缩放图像min(w,h)=s之后提取特征。
  • 每个候选框使用一个4层的空间金字塔池化特征,SPP-Net网络用的是ZF-5的SPPNet形式。
  • 将12800d的特征输入全连接层,然后全连接层输出后展开为特征向量,输入SVM中分类
    推广应用
    这个算法可以应用到多尺度特征的提取:
  • 将图片resize到五个尺度:480,576,688,864,1200,和原尺寸,一共6个。
  • 选择大小最接近224×224尺度下的feature map,提取对应的候选框区域里的特征(也就是ROI Feature,ROI=region of interest,感兴趣的区域。指我们框选出的区域)
    这样做可以提高系统的准确率
    目标检测发展之SPP-Net_第3张图片
    总结
    SPP-Net 算法解决了
    1、重复卷积计算
    2、固定输出尺度。

你可能感兴趣的:(目标检测)