Faster RCNN网络简介

介绍

Faster RCNN网络是目标检测领域里程碑式的一个网络。这个网络的提出,真正将深度学习方法端到端的应用到目标检测领域。大幅提升了目标检测的检测速度和检测准确程度。论文的RPN、Anchor等思想对后续的论文和研究工作也有不小的影响。下面,我们一起来看一下Faster RCNN到底是如何具体进行目标检测的。

总体网络结构

Faster RCNN网络简介_第1张图片
如图所示,我们先总体介绍一下数据流是如何传输的。之后再分开每一部分进行重点介绍。

对于一张输入的彩色图片,首先经过CNN层进行特征提取。在Faster R-CNN的原始论文中,他们使用的是预训练好的VGG16网络用于特征提取。VGG网络去掉全连接层,只保留卷积的部分。这个对应的就是图中的conv layer

卷积层提取完特征之后,对于特征图的数据,分成两部分,分别进入RPN网络(候选区域选择网络),和ROI pooling网络。对于RPN而言,这个网络所做的工作是挑选出图片中可能的候选区域,区分前景和背景。这些信息用来辅助最终的目标检测的决策。ROI Pooling所要做的是收集输入的feature maps和proposals,综合这些信息后提取proposal feature maps,送入后续全连接层判定目标类别。

classifer用于做出最后判断。包括图像类别和位置。

下图可以更清晰的展示整个Faster R-CNN的网络结构。
Faster RCNN网络简介_第2张图片
下面具体对各个部分进行详细解释。conv layer没什么可解释的,直接从RPN开始。


RPN网络

介绍RPN网络之前,有必要先来谈谈目标检测问题存在的难点。这也是RPN网络提出的创新解决方案的关键所在。

做目标检测,可能存在最大的问题就是尺度变换多样。 比如说对人脸的目标检测而言,一张图片中,人脸有大有小。如何将这些大小不一的图片全部识别出来,并不算太容易。在过去,常常采用的方式是滑移窗口和图像金字塔的形式。通过滑移窗口扫描图像,以及图像金字塔的尺度变化来解决这个多尺度检测问题。然而这种方法无论是速度还是检测效果都不算好。RPN网络通过引入全卷积神经网络(FCN fully convolutional network)实现了一种端到端的候选区域提取。

对于输入图像,首先经过VGG的卷积网络进行特征提取,提取效果如图所示:
Faster RCNN网络简介_第3张图片
经过VGG网络之后,输入图像长度和宽度变窄,但是特征维度变多。

Anchor

对于目标检测而言,我们需要获取获取目标所在的位置(通常用矩形框来表示),我们这里使用 Δ x _ c e

你可能感兴趣的:(计算机视觉,Faster,RCNN)