RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记

论文地址
项目地址
代码地址

行人重识别中的跨模态问题

摘要

在这项工作中,我们解决RGB-IR交叉模态Re-ID问题,并提出了一个新的多模态Re-ID数据集SYSU-MM01,包括来自6个摄像头的491个identities 的RGB和IR图像,共给出287628个RGB图像和15792个红外图像。为了探讨RGB-IR REID问题,我们评估了现有的跨域模型,包括三种常用的神经网络结构(一流、两流和非对称FC层),并分析了它们之间的关系。我们进一步提出了深度零填充的方法来训练一个单流网络,使其能够自动改进网络中特定于域的节点,从而实现跨模态匹配。我们的实验表明使用深度零填充的模型进行RGB-IR交叉模态匹配是非常有挑战性的,但仍然可行,可以获得最佳的性能。
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第1张图片

1、论文贡献

本文的贡献在于:
(1)首次提出了支持RGB-IR交叉模态Re-ID的标准基准SUSU-MM01数据集,并进行了广泛的实验,评估了跨平台RGB-IR RE-ID的基线深度学习结构。
(2)分析了三种不同的网络结构(一流结构、两流结构和非对称FC层结构),并对它们对RGB-IR 的RE-ID的有效性进行了深入的分析。
(3)提出了在一个流网络中自动改进特定域结构的深度零填充,并对RGB-IR的RE-ID任务进行了优化。实验表明,该方法不仅优于标准的单流网络,而且优于具有明显跨域学习和额外计算开销的双流网络。
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第2张图片
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第3张图片

2、SYSU-MM01 数据集

2.1数据集的描述

SYSU-MM01包含6个摄像头拍摄的图像,包括2个红外摄像头和4个RGB摄像头。与RGB相机不同,红外相机在黑暗环境中工作。Kinect v1在两个明亮的室内房间(1号房间和2号房间)捕捉到相机1和2的RGB图像。对于每个人,至少有400个具有不同姿势和视角的连续RGB帧。3号和6号摄像机的红外图像在黑暗中由红外摄像机拍摄。红外图像只有一个通道,不同于三通道的RGB图像。摄像机3放置在黑暗环境中的2号房间,摄像机6放置在带有背景杂波的室外通道中。摄像机4和5是放置在两个室外场景中的RGB监控摄像机,分别为“门”和“花园”。
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第4张图片
通过观察数据集的样本,我们可以清楚地看到红外摄像机(3号和6号摄像机)的图像在颜色和曝光度方面都与RGB图像不同。具体来说,尽管2号和3号相机处于相同的场景中,但它们的图像会发生剧烈的颜色偏移和曝光差异。例如,第一个人的黄色衣服不同于她在RGB相机下的黑色裤子,但在红外相机下,这种颜色差异几乎被消除(图2中的第1、2、3列)。此外,红外图像只有一个通道,可能会丢失一些纹理细节。不同距离拍摄的红外图像的曝光也是一个问题。所有这些都给RGB-IR交叉模态Re-ID问题带来了困难。

2.2、评估协议

sysu-mm01数据集中有491个有效identities 。我们使用296个identities 进行训练,99个identities 进行验证,96个identities 进行测试。在训练期间,所有摄像机中的296名训练identities 的所有图像都可以应用。
在测试阶段,来自RGB相机的样本用于gallery,来自红外相机的样本用于query。我们设计了两种模式:全搜索模式和室内搜索模式。对于所有搜索模式,RGB相机1、2、4和5用于gallery,红外相机3和6用于query。对于室内搜索模式,RGB相机1和2(不包括室外摄像机4和5)用于gallery,IR摄像机3和6用于query,这是较不具挑战性的。
对于这两种模式,我们采用 single-shot 和multi-shot settings。对于RGB相机下的每个identity ,我们随机选择identity 的1/10个图像,以形成用于single-shot/multi-shot setting的galler。对于query组则使用所有图像。给出了一个query图像,通过计算query图像与gallery图像的相似性进行匹配。请注意,匹配是在不同位置的摄像头之间进行的。相机2和相机3位于同一位置,因此相机3的query图像跳过相机2的画廊图像。在计算相似性之后,我们可以根据相似性的降序得到一个rank listing。
为了表示性能,我们使用累积匹配特性(CMC)和平均精度(MAP)。请注意,对于 multi-shot setting下的CMC,只取同一个人所有gallery图像中的最大相似性来计算rank。我们用随机分割的gallery和query集重复上述评估10次,最后计算平均性能。

3、Network Structure Comparison on Cross Modality Modelling

针对RGB-IR跨模态Re-ID的任务,我们研究了深度学习网络结构,特别研究了三种常用的视觉识别和跨模态学习网络结构。我们进一步利用深度零填充的思想进行模型训练,并对其对跨模态匹配任务的影响进行了深入的探讨。
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第5张图片

3.1、Common Deep Model Network Structures

近年来,大量的深层模型被提出用于视觉匹配和交叉模态建模,并在许多任务中取得了令人满意的效果。最常用的结构主要可分为3种类型。
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第6张图片
RGB-Infrared Cross-Modality Person Re-Identification论文阅读笔记_第7张图片

你可能感兴趣的:(行人重识别)