Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection

一、Overview
 本文设计了一个多光谱行人检测模型,与融合RGB信息和T信息的思路不同的是,本文没有选择在一个模型中融合两种模态的信息,而是先在训练过程中通过一个无监督学习的方法从对应的RGB图像中重建T图像。该模型主要包括两个阶段:首先利用一个CNN学习模态间的非线性映射关系,对RGB数据和T数据间的关系进行建模;之后将学习到的特征表示转移到第二个深度神经网络中,第二个深度神经网络只接收RGB图像以及RGB图像上的候选框作为输入,最后输出检测结果。实验结果表明,本文提出的模型在KAIST数据集(RGB-T行人检测数据集)上得到了当时最好的效果,同时在Caltech数据集(RGB行人检测数据集)上也得到了很好的效果。
二、Motivations
 在行人检测任务中,如图1所示,只使用RGB数据或T数据中的一种进行检测时很难分辨Hard positive samples(很难被识别的正样本,即是行人但是由于模糊等情况容易被误判为背景的情况)和Hard negative samples(很难被识别的负样本,即是背景但是由于模糊等情况容易被误判为行人的情况)。通过将RGB数据与T数据相结合,就可以更容易地分辨出行人和背景,有效地解决上述问题。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第1张图片

图1 单模态行人检测存在的问题

三、Contributions
1.提出了一种学习和转移跨模态特征表示的行人检测新方法。该方法的优点主要有:在测试阶段不需要使用多光谱数据,只需要使用RGB数据,这在部署机器人和监视系统时是至关重要的,因为只需要传统的可见光摄像机即可,从而大大降低了成本;整个模型在训练时不需要使用T数据的标注信息,这大大减少了人为标记繁重的工作。
2.据我们所知,这是第一项专门针对卷积神经网络在不利的光照条件下进行行人检测问题研究的工作。
3.实验结果表明,本文提出的模型在KAIST数据集和Caltech数据集中都取得了非常好的效果。

四、Models
1.RRN结构(Region Reconstruction Network)
 RRN结构是本文提出的模型的第一阶段,该结构只用于训练阶段,通过一个CNN学习模态间的非线性映射关系,对RGB数据和T数据间的关系进行建模,模型结构如图2所示。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第2张图片

图2 RRN结构
 RRN由前端网络和后端网络组成,其输入是RGB图像以及一些行人候选框(使用ACF得到这些候选框)。其中前端网络使用在ImageNet上预训练的VGG-16模型,去除了最后一个Maxpooling层和所有的全连接层。后端网络使用Fast R-CNN中提出的ROI Pooling,通过前端网络得到的feature map和输入的候选框信息将每个候选框处理为统一尺寸7×7×512,由于KAIST数据集中行人所占像素一般为50×50,因此这里将每个7×7×512的候选框特征通过一个反卷积层上采样为50×50×64,这样有利于框出完整的行人,最后加入一个ReLU层。  在训练过程中,使用相对应的T图像位置信息作为监督,计算L2 loss,使得RRN网络可以学习重构RGB数据和T数据间的关系。这就是文中所说的无监督学习过程,其实也是有监督的,使用的监督信息是T图像的对应位置也就是RGB图像和T图像对之间的对应关系,只不过该过程中没有用到任何的标注信息,所以可以算是一种很弱的有监督学习方法。 2.MSDN结构(Multi-Scale Detection Network)  MSDN结构如图3所示,分为Sub-Net A和Sub-Net B两部分,且输入为RGB图像以及一些行人候选框(通过ACF提取),整个过程不需要T图像参与。其中Sub-Net A利用在ImageNet上预训练好的VGG-16,同样是去除了最后一个Maxpooling层和所有的全连接层,将Conv4-3和Conv5-3得到的feature map和行人候选框信息分别输入到两个ROI Pooling层中并将得到的结果级联。而Sub-Net B与Sub-Net A结构完全相同,只不过初始化的参数使用的不再是ImageNet预训练得到的,而是使用RRN训练得到的前向网络部分的参数。最后将Sub-Net A和Sub-Net B的结果级联,得到维度为7×7×1024的向量,经过两个全连接层后进行分类与目标框的回归,对于检测结果仍使用非极大值抑制(NMS)删除效果不好的框。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第3张图片

图3 MSDN结构

五、Experiments
 在实验过程中,RRN部分用KAIST数据集训练,MSDN的性能在Caltech测试集和KAIST的RGB测试集上进行了评估。
实验过程中,训练RRN和MSDN都使用ACF提取行人候选框,测试阶段MSDN也使用ACF提取行人候选框
1.KAIST数据集中不同变体对比实验

表1 KAIST数据集上不同变体检测丢失率对比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第4张图片
 实验结果如表1所示,其中CMT-CNN-SA表示MSDN结构中只使用Sub-Net A;CMT-CNN-SA-SB(Random)表示Sub-Net B参数初始化方法为随机;CMT-CNN-SA-SB(ImageNet)表示Sub-Net B参数初始化方法为使用ImageNet预训练得到的参数;CMT-CNN为本文提出的方法,即使用RRN得到的参数初始化Sub-Net B。可以看到本文的策略比其他三种方法的错误率都要低,因为使用RRN得到的参数有效地重构了RGB信息与T信息之间的关系。
2.KAIST数据集中与现有方法对比

表2 Caltech数据集上不同变体检测错误率对比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第5张图片
 其中CMT-CNN-SA-SB(RGB-KAIST)表示Sub-Net B初始参数使用在ImageNet预训练并在KAIST的RGB部分进一步训练的结果。实验结果表明使用KAIST数据集中的RGB部分再训练也可以提升一定性能,但是都不如本文的模型,因为其他方法都没有利用T信息。
4.Caltech数据集中与现有方法对比
 实验结果曲线如图5所示,在RGB行人检测数据集Caltech中本文提出的模型也取得了很好的效果。

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第6张图片

图5 Caltech数据集中与现有方法FPPI-Miss Rate曲线对比

5.与现有方法的推理速度对比

表3 推理速度对比

Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读_第7张图片
 本文的模型不仅取得了更低的错误率,在测试时的推理速度也很快,处理一帧图片只需要0.59秒。

你可能感兴趣的:(Learning Cross-Modal Deep Representations for Robust Pedestrian Detection(CVPR2017)论文解读)