Fully Convolutional Region Proposal Networks for Multispectral Person Detection(CVPRWorkshop 2017)解读

Fully Convolutional Region Proposal Networks for Multispectral Person Detection

一、Overview
 本文的思路主要来源于Faster R-CNN。已有研究表明,仅使用RPN结构检测的结果和Faster R-CNN的效果相差不大,因此本文的方法主要分为两个阶段:首先通过RPN结构对RGB信息和T信息融合后的结果进行检测,获取初步的行人候选框坐标;之后将上一步的检测结果、RGB图像以及T图像一起送到一个由ROI Pooling和BDT组成的模型中进一步提高检测结果精度。实验表明,在KAIST测试集中本文的方法错误率为29.83%,比当前最好的方法提升了18%左右。
二、Motivations
 行人检测主要应用于自动驾驶和监控领域,当前存在的问题主要包括:人的姿态变化、缺乏足够的光照、行人间的遮挡、背景复杂以及行人尺寸不同(距摄像头的距离远近不同,较远位置的行人包含像素很少即分辨率很低)。想要解决这些问题,就需要检测器有更强的分辨能力,因此通过使用热红外图像作为辅助以补足可见光图像中缺少的信息是一种有效的方法。
三、Models(两阶段
1.用于融合RGB图像和T图像信息并生成行人候选框的RPN结构
 由于《Multispectral Deep Neural Networks for Pedestrian Detection》中已经对融合位置的效果进行了实验,发现Halfway Fusion效果最好,因此本文在此基础上对五种Halfway Fusion方法进行深入比较,如图1所示,其中红色部分为卷积块,黄色部分为RPN结构。
 使用的CNN模型同样是VGG16,conv1/2/3/4/5分别代表VGG16中的五个卷积块以及接下来的MaxPooling层,如conv1包含conv1_1,relu1_1,conv1_2,relu1_2以及pool1。实验结果发现图1中(c)即在第三个卷积块的输出位置融合效果最佳,因此第二阶段也使用这种融合方法。

Fully Convolutional Region Proposal Networks for Multispectral Person Detection(CVPRWorkshop 2017)解读_第1张图片

图1 不同位置的Halfway Fusion结构

2.使用BDT提高检测精度

Fully Convolutional Region Proposal Networks for Multispectral Person Detection(CVPRWorkshop 2017)解读_第2张图片

图2 使用BDT细化检测结果模型

 模型结构如图2所示,其中ROIS就代表第一阶段使用RPN筛选出的候选框的相应坐标(也就是ROI)。通过使用三个ROI Pooling层分别结合RGB分支得到的feature map、T分支得到的feature map、RGB信息与T信息融合并经过洞卷积得到的feature map以及一阶段RPN得到的ROIS,最后将输出级联输入到BDT(决策树)中得到更为准确的检测结果。
四、Experiments
1.两个RPN的预训练与多模态信息融合位置实验

表1 丢失率对比

在这里插入图片描述
 实验结果表明,RGB部分的RPN用Caltech训练集和KAIST训练集中RGB部分进行fine-tune;T部分的RPN用CVC-09数据集和KAIST训练集中T部分进行fine-tune;融合位置在conv3之后效果最好(图1中的c)。
2.在KAIST数据集上与现有方法对比

Fully Convolutional Region Proposal Networks for Multispectral Person Detection(CVPRWorkshop 2017)解读_第3张图片

图3 FPPI-Miss rate曲线

 一般取FPPI=0.1时的Miss Rate为结果,本文模型得到的结果为29.83%。

注:
Miss Rate:

Miss Rate=测试集是正例但判别为负例的数目/GT数目

FPPI:
 在每张图像上运行分类器,检测目标并得到位置p。然后检查每张图像内的检测结果是否“击中”标定的目标:
a. 若图像内无目标,而分类器给出了n个目标的检测结果,那么False Positive 次数+n;
b. 若图像内有目标,则判断位置p是否“击中”GT位置,判断标准为IoU阈值,若判断为未击中,则False Positive 次数+1。

FPPI=(number of False Positive)/(number of images)

 行人检测中取曲线中FPPI=0.1时的Miss Rate为最终的检测结果。

你可能感兴趣的:(Fully Convolutional Region Proposal Networks for Multispectral Person Detection(CVPRWorkshop 2017)解读)