2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection

Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection
当前的问题及概述
真实的多光谱数据存在位置偏移问题,即彩色热像对没有严格对齐,使得一个物体在不同的模式中有不同的位置。
在本文中,提出了一种新的对齐区域CNN (AR-CNN)来处理端到端的弱对齐数据。
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第1张图片
a是目前数据集弱对齐图示,b为本文的框架思路,c为本文的实验结果。
模型及loss
2.1.KAIST-Paired Annotation
为了解决位置偏移问题,首先手动标注每种模态上的color-hot pairs bounding box,通过配对标注,可以得到原始KAIST数据集的移位距离统计信息。如下图a中,超过一半的边界框存在位置移动问题,移动距离大多在0到10像素之间。同理,图b为CVC-14数据集。
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第2张图片
2.2 Aligned Region CNN (AR-CNN)网络框架
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第3张图片
输入一组彩色地形图和热地形图的pair图像,sense意为被感知的RGB图像,reference意为被参考的IR图像,经过特征提取后,通过numerous proposals和RoI Jitter后输入给区域特征对齐(RFA)模块,对齐后,分别对彩色地形图和热地形图的区域特征进行合并,然后进行置信感知融合(confidence-aware fusion method)。
2.3 Region Feature Alignment
本文提出区域特征对齐(RFA)模块来预测两个模态之间的位移。如下图:
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第4张图片
RFA模块的连接方案。RF表示区域特征,而⊕表示通道级联。将交叉模态区域的特征输入到两个全连通的层中,以预测该区域在两种模态之间的移动变化,可以看到,两个模态的bounding boxes pairs 在与ground-truth的计算出的移动距离如下:
在这里插入图片描述
X,y为bounding box的中心坐标,w,h为bounding box的宽度和高度,s,r分别代表sense和reference,实际与ground truth作差,得到的结果是x和y坐标的shift target。再通过smooth L1 loss计算预测的shift target ti和ground-truth ti*的欧氏距离进行辅助学习:
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第5张图片
RFA模块的总object function:
在这里插入图片描述
2.4RoI Jitter Strategy
为了改善频移模式的鲁棒性,我们提出了一种新的RoI抖动策略来增强频移模式。
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第6张图片
红色方框表示ground-truth,GTR和GTS分别代表参考模态和感知模态。蓝方框代表roi,即对两种模态的共享建议框。RoIj1、RoIj2和RoIj3是jitter之后的三个可行的建议实例。因此,将随机扰动引入到感知RoI中,并对RFA的目标进行相应的移位,丰富了训练过程中位置移位的规律。抖动的目标是由正态分布产生的:
在这里插入图片描述
2.5Confidence-Aware Fusion
框架最后加入了Confidence-Aware Fusion 模块,由于光照、遮挡等原因,对不同模态的特征进行固定赋值的方法是不合适的,因为我们希望检测器更多地关注可信赖模态。所以加入的该模块,该部分通过two-stream网络,将两个模态的特征分别提取并计算了两个置信权值:Wr = |p1 r−p0 r|, Ws = |p1 s−p0 s|,其中p1和p0分别表示行人和背景的概率,r和f分别表示参考和感知模态。然后,我们使用乘法在输入特征映射上执行特征重新加权。
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第7张图片
演示了Confidence-Aware Fusion方法。有三种典型的情况:(a)在白天,颜色和热特征是一致和互补的。(b)在光照不足的情况下,行人的色彩形态难以分辨,因此我们更重视热形态。©由于位置偏移,行人只存在于热模态中,所以我们抑制了颜色特征。
实验

数据集:KAIST and CVC-14

KAIST:95,328张彩色和热成像对,103,128个dense 注释和1182个person ID
CVC-14:训练和测试集分别包含7,085和1,433帧,CVC-14数据集有更严重的位置偏移问题。

KAIST数据集测试结果(miss rate):
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第8张图片

消融实验:
2019 ICCV之多光谱行人检测:Weakly Aligned Cross-Modal Learning for Multispectral Pedestrian Detection_第9张图片

你可能感兴趣的:(多光谱行人检测,多模态)