【论文阅读】Fast R-CNN

论文简介:

Fast R-CNN 是作者针对R-CNN的若干缺点进行改进提出的一种目标检测方法,该方法对R-CNN预测阶段的各个分散步骤以及训练阶段的各个分散步骤进行改进、融合,得到比R-CNN更快的目标检测速度以及更统一、更接近端到端的训练模式。

一、Fast R-CNN 简介

Fast R-CNN算法大致分为四个步骤,1、首先将待测试的图像整张输入CNN特征提取网络,得到一个conv feature map,2、proposals提取,使用与R-CNN相同使用Selective Search提取候选框,3、使用RoI Pooling方法将proposal对应的conv feature map中的区域pooling到统一尺寸,4、pooling到统一尺寸的特征向量后接全连接层,再分别接两个输出路径分类器(proposal所属目标类别)+回归器(proposal框位置修正)。

【论文阅读】Fast R-CNN_第1张图片

二、Fast R-CNN inference

在给定一幅含有待检测目标的图像时,在R-CNN实际进行推理、进行目标检测的步骤包含,首先使用selective search方法对输入图像进行候选区域提取,进行proposals提取,大概提取2000个候选区域,矩形区域,长宽比任意形状。将待检测图像整张输入CNN特征提取网络,针对每一个单独的proposal,得到网络模型的两路输出,1、分类器输出当前的proposal的21个类别概率值,2、当前proposal的对于20个类别分别的位置框偏移修正量(背景框无ground-truth标注框,无位置修正量)。则一幅图像获得2000x(21+20*4)个输出元素值。接下进行与R-CNN逐类别的非极大值抑制相似思路进行处理。

使用非极大值抑制方法检测出输入图像中的cat,有几个,分别在哪。首先提取出cat类信心分数大于某个阈值的proposals,假设取出200个(这两百个极有可能含有cat),对200个信心分数进行排序,然后取出最大的信心分数所对应的proposals,然后对剩下的199个proposals,计算其每一个与最大信心分数的proposals之间的IoU,剔除掉199个proposals中IoU大于某个阈值的proposals,假设剔除掉9个proposals,然后继续对剩下的190个proposals进行信心分数排序,再取最大信心分数的proposals,再继续剔除proposals等,经过若干轮剔除,往往200个proposals只会留下两三个proposals,此时也即为从图中检测到的cat的个数。此时使用最后的三个proposals的位置框坐标和其所对应的20*4个输出值中对应cat类的位置偏移修正值,获得最终的检测出cat的位置框坐标信息。20个类别逐个类别进行处理,获得针对当前测试图像检测出的目标的信息。

【论文阅读】Fast R-CNN_第2张图片

三、Fast R-CNN training

Fast R-CNN 只需要训练一个CNN网络模型,需要注意的点主要有:

RoI Pooling 层的处理为,针对Selective Search提取出的原图中的不同尺寸的proposals,包含位置、宽高信息,根据原图尺寸与conv feature map宽高尺寸之间的映射关系,假设conv feature map宽高尺寸是原图的1/16,则对Selective Search提取出的proposals的坐标乘以1/16得到其所对应的在conv feature map中的矩形特征区域的位置信息。将矩形特征区域按照网络后接的统一尺寸的feature map的信息,假设为7x7,则将矩形特征区域划分为7x7的网格,每一个网格中的区域进行max pooling得到输出值,从而对于不同尺寸的proposals得到相同尺寸的归一化特征层,供后面的全连接层使用。

网络训练时一个mini batch含有两张已标注目标的训练图像,每张图像采样64个proposals,总共128个proposals,与ground-truth标注框的IoU>0.5的为正样本,为相应的20类的正样本及类别标签,与ground-truth标注框的IoU在0.1到0.5之间的proposals为负样本,为背景类,每个proposal含有其网络的输入,proposal的位置坐标(还有共享的整张图像的输入),网络输出所对应的标签值为,该proposal所属的21类的别标签,以及其所属的那个类的位置框修正偏移值标签(该proposal与其所属的标注框的ground-truth位置之间的差的信息),其余19*4个位置偏移标签忽略,其不参与此次Loss计算,不参与训练网络模型参数。注意,此mini batch中25%是正样本,75%为负样本,此mini batch中每一个proposal及其标签就相当于传统监督学习中的一个训练样本对。而不是这里的2张图像相当于传统监督学习中的2个训练样本。

下图为Fast R-CNN的综合损失函数。

【论文阅读】Fast R-CNN_第3张图片

 

你可能感兴趣的:(论文阅读)