浅谈Faster R-CNN 之 RPN

Fster R-CNN 框架分析

1.整体框架

Faster R-CNN算法由两个网络组成:RPN+Fast R-CNN。RPN(region proposal network)候选框提取网络,可提取出可能包含目标的候选区域,叫做感兴趣区域ROI(regions of interest)。Fast R-CNN对RoIs进行分类,并细化目标区域边框。

2.RPN工作原理

浅谈Faster R-CNN 之 RPN_第1张图片

上图显示了RPN运作的整个过程,在最后一个卷积层中得到特征图上通过一个小窗口进行滑动扫描,这个小窗口每次滑动时与特征图上n*n的窗口全连接;然后映射到一个低维向量,如256维;最后将这个低维向量送到两个全连接层,即边框分类层(box-classification layer,cls)和边框回归层(box-regression layer,reg)。对于每个位置,cls从256维特征中输出属于前景和背景的概率;reg从256维特征中输出4个平移缩放参数。

RPN为每个滑动位置考虑k个可能的参考框(anchors),对于一个W*H的特征图,就会产生W*H*k个候选区域。RPN的anchor具有平移不变的特性,其原理是以窗口为中心进行多尺度、多anchor点位于面积为n*n的滑动窗口的宽高比的采样,采用基准面大小为16*16,宽高比分别为2;1,1:1,1:2,窗口尺度为[8,16,32]的中心点进行采样,这样每个滑动窗口就产生了9个anchor。那么k就等于9,就会产生2k=18个scores,也就是上面的边框分类层,4k=36个coordinates即边框回归层。


参考文献:

 Wu Xiaofeng,Zhang Jiangxin, and Xu Xinchen,Hand Gesture Recognition Algorithm Based on Faster R-CNN, Journal of Computer-Aided Design & Computer Graphics,Vol.30 No.3,Mar. 2018




你可能感兴趣的:(深度学习)