目标检测算法—— R-CNN, Fast R-CNN, Faster R-CNN

文章目录

    • R-CNN
      • 概述
    • Fast R-CNN
      • 概述
    • Faster R-CNN
      • 概述
        • RPN的工作原理

R-CNN

目标检测算法—— R-CNN, Fast R-CNN, Faster R-CNN_第1张图片

概述

首先模型输入为一张图片,然后在图片上提出了约2000个待检测区域,然后这2000个待检测区域***一个一个地***(串联方式)通过卷积神经网络提取特征,然后这些被提取的特征通过一个支持向量机(SVM)进行分类,得到物体的类别,并通过一个bounding box regression调整目标包围框的大小。

  1. 第一步提取2000个待检测区域的时候,是通过一个2012年提出的方法,叫做selective search。简单来说就是通过一些传统图像处理方法将图像分成若干块,然后通过一个SVM将属于同一目标的若干块拿出来。selective search的核心是一个SVM。
  2. 第二步进行特征提取的时候,Ross直接借助了当时深度学习的最新成果AlexNet (2012)。那么,该网络是如何训练的呢?是直接在ImageNet上面训练的,也就是说,使用图像分类数据集训练了一个仅仅用于提取特征的网络。
  3. 第三步进行对目标分类的时候,使用了一个支持向量机(SVM),在训练这个支持向量机的时候,结合目标的标签(类别)与包围框的大小进行训练,因此,该支持向量机也是被单独训练的。
    特点:
  1. 使用了卷积神经网络进行特征提取。
  2. 使用bounding box regression进行目标包围框的修正。
    缺点:
  3. 耗时的selective search,对一帧图像,需要花费2s。
  4. 耗时的串行式CNN前向传播,对于每一个RoI,都需要经过一个AlexNet提特征,为所有的RoI提特征大约花费47s。
  5. 三个模块是分别训练的,并且在训练的时候,对于存储空间的消耗很大。

Fast R-CNN

目标检测算法—— R-CNN, Fast R-CNN, Faster R-CNN_第2张图片

概述

首先还是采用selective search提取2000个候选框,然后,使用一个神经网络对全图进行特征提取。接着,使用一个RoI Pooling Layer在全图特征上摘取每一个RoI对应的特征,再通过全连接层(FC Layer)进行分类与包围框的修正。
特点:

  1. 取代R-CNN的串行特征提取方式,直接采用一个神经网络对全图提取特征(这也是为什么需要RoI Pooling的原因)。
  2. 除了selective search,其他部分都可以合在一起训练。
    缺点:
  3. 耗时的selective search还是依旧存在。

Faster R-CNN

目标检测算法—— R-CNN, Fast R-CNN, Faster R-CNN_第3张图片

概述

首先使用共享的卷积层唯全图提取特征,然后将得到的feature map送入RPN,RON生成待检测框(指定RoI的位置)并对RoI的包围框进行第一次修正。之后就是Fast R-CNN的架构了,RoI Pooling Layer根据RPN的输出,在feature map上选取每一个RoI对应的特征,并将维度置为定值。最后,使用全连接层(FC Layer)对框进行分类,并且对目标的包围框进行第二次修正。Faster R-CNN真正实现了端到端的训练
根据Faster R-CNN的架构(Faster R-CNN的ZF model的train.prototxt)的结构图,如下所示:
目标检测算法—— R-CNN, Fast R-CNN, Faster R-CNN_第4张图片
如上图所示,Faster R-CNN的结构主要分为三大部分:

  1. 第一部分是共享的卷积层-backbone;
  2. 第二部分是候选区域生成网络-RPN;
  3. 第三部分是对候选区域进行分类的网络-classifier。
    其中,RPN与classifier部分均对目标框有修正。classifier部分是原原本本继承的Fast R-CNN结构。我们下面来简单看看Faster R-CNN的各个模块。

RPN的工作原理

你可能感兴趣的:(目标检测算法理论,目标检测)