Two-Stage目标检测方法改进历史

Two-Stage目标检测方法改进历史

滑动窗口

用不同大小不同形状的窗口,使用不同的滑动距离,从左到右从上到下获得预选图像块。将预选图像块变形的到固定大小的图像块。将这些图像块送入卷积神经网络得到4096个特征值。然后通过SVM判别类别,通过线性回归得到目标框的坐标。

Selective Search

为了提高检测器的速度,一个很显而易见的方法就是减少图像块的数量。我们使用region proposal方法去得到ROIs,而不是简单直接的使用所有的滑动窗口。在SS方法中,我们将图像的每一个像素当成一个组。然后,计算每个组之间的“语义距离?”,通过不断合并得到一些语义块。在合并的时候,通过优先合并两个小的组而不是一个大组和一个小组来避免单个大组不断吞并小组。在合并组的同时得到ROIs。

R-CNN

R-CNN使用region proposal方法得到大约2000个ROIs。将这些ROIs变形的到固定大小的图像逐个送入卷积神经网络。然后通过全连接层去辨别分类,通过另一个全连接层去改善ROI的坐标来得到边界框。

因为使用了更少且更高质量的ROIs,R-CNN比滑动窗口运行的更快且准确率更高。

Fast R-CNN

R-CNN慢在了训练和检测。2000个proposals,每一个都经过CNN处理,相当于重复特征提取过程2000次。与其从每一个ROI上提取特征,我们不如先从整个图像上提取一次特征得到feature map。我们仍然使用额外的像SS这样的region proposal方法。这一次得到的ROI是后来作用于feature map上的,而不是之前的图像。使用ROI pooling得到固定大小的feature map块,同样送入全连接层得到类别和边界框。

提取一次特征比提取两千次特征明显有巨大的速度提升。Fast R-CNN使用多任务损失函数进行端到端的训练,这提升了准确度。

Faster R-CNN

Fast R-CNN使用额外的region proposal方法获得ROI。然而这些方法的运行速度很慢。不同于Fast R-CNN,Faster R-CNN使用内部的region proposal network (RPN)从feature map上获得ROI。通过使用速度很快的RPN而不是region proposal方法,Faster R-CNN再一次提升了速度。

RPN

RPN通过滑动多个3x3的卷积核经过一系列卷积来得到256个值,通过两个全连接层来判断这个格子是否含有目标,和边界框的坐标修正值。

原文链接:

https://medium.com/@jonathan_hui/what-do-we-learn-from-region-based-object-detectors-faster-r-cnn-r-fcn-fpn-7e354377a7c9

你可能感兴趣的:(目标检测)