Faster RCNN论文的概括理解

 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

论文地址:http://arxiv.org/abs/1506.01497

虽然fast RCNN对每张图片只提取一次特征,但是SS选择候选框的过程依然很耗时,faster我觉得最难理解的就是其提出来的RPN,很多博客上都说faster=RPN+fast,我觉得也是这样的。所以重点说一下我理解的RPN。

RPN是用来生成SS算法产生的候选区域的,所以RPN的输入就是一张图片,输出就是很多候选框Faster RCNN论文的概括理解_第1张图片

这其中又涉及到一个叫anchor box的框,最后一层卷积层上的每一个点对应着原图上的一个感受野,每一个感受野(在原图中的某一区域)产生9个不同的尺寸、不同位置的框框,对于所有不同的输入到RPN里面的图片所对应的anchor都是相同的,RPN的输出就是针对每一个anchor输出一个6维向量,其中的2个表示这个anchor是否有目标,剩下的4维表示的这个anchor进过什么样的移动与GT更加相近。对每一个anchor标志其期望的输出,使loss最小,达到训练RPN的目的。对RPN提取出来的候选框进行NMS,得到最终的候选框。

  最后将RPN生成的候选去送入到后面的分类与回归网络。

Faster RCNN论文的概括理解_第2张图片

PRN生成的候选框,要得到候选框的特征也必须使用CNN,其中RPN的CNN与分类回归的CNN是相同的。

具体细节请看原文

你可能感兴趣的:(论文理解)