Fast RCNN论文的概括理解

论文题目:Fast R-CNN

论文地址:https://arxiv.org/abs/1504.08083

理解fast之前需要线理解SPP,SPP的论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 

地址http://arxiv.org/abs/1406.4729

SPP的中文意思是空间金字塔池化,一般的池化层的输出与输入是相关的,比如200*200、100*100的特征图进过2*2的池化后的尺寸分别是100*100,50*50。

SPP的作用是不管输入的尺寸是多少,输出都是固定的。

Fast RCNN论文的概括理解_第1张图片 

 

最右边的白框是不管输入的特征图的尺寸是多大,每个特征图只输出一个值;中间的绿色的2*2的意思是不管输入的特征图的尺寸是多大,将每个特征图分成2*2个矩阵,每个矩阵里面取一个值;最左边的蓝色的4*4的意思是不管输入的特征图的尺寸是多大,将每个特征图分成4*4个矩阵,每个矩阵里面取一个值;

所以不管特征图的尺寸是多大,每一个特征图经过SPP以后都只产生1+4+16维的特征。

因为RCNN对SS提取出来的2000多个候选框都需要进过CNN来4096维提取特征,对于一张图片提取出来的2000多个4096维数据包含大量的计算冗余。fast每张图片只提取一次特征,SS选出来的候选框的特征可以通过其在原图中的位置映射到最后的特征层,但是SS选出来的候选框大小不一,在特征层对应的

特征的尺寸肯定也会大小不一,为了让所有的候选框产生相同的输出特征,在最后加上一个SPP层,这样不管候选框的尺寸是多少,最终产生的特征的尺寸都是一样大的。但是fast里面不是叫SPP,而是叫ROI,其实差不多。提取出来的特征在进行分类与bbox的修正,fast里面的分类不是采用SVM,而是采用的softmax。

 

Fast RCNN论文的概括理解_第2张图片

具体细节请看原文。

你可能感兴趣的:(Fast RCNN论文的概括理解)