2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification

RGB-Infrared Cross-Modality Person Re-Identification
本文是第一个提出RGB-Infrared跨模态的ReID框架。
目前的问题:
Re-ID是视频监控中的一个重要问题,其目的是在摄像机视点上匹配行人的即时信息,目前,大多应用于RGB图像中,但例如在黑暗环境中,这样是远远不够的,在许多视觉系统中,红外(Infrared (IR))成像是必不可少的。为此,需要将RGB图像与红外图像进行匹配,而红外图像是异构的,具有非常不同的视觉特征。对于person Re-ID来说,这是一个非常具有挑战性的跨模态问题,目前还没有研究过。在下图可以看出,RGB图像和IR图像还是有很大的差异的。
研究现状:目前已有的跨模态行人重识别大致有如下四个方向:低分辨、近红外、素描和文本,本文主要记录近红外的部分,而选用近红外进行研究,主要是因为相比其他方式,近红外图像传感器,采集样本分辨高,帧率快,成本低
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第1张图片
RGB图像和IR图像有三个本质性区别:
第一,RGB图像有三个包含可见光颜色信息的通道,而IR图像有一个包含非可见光信息的通道,因此,它们可以被视为异构数据。
第二,从成像原理上看,RGB和IR图像的波长范围不同。
第三,由于视角变化、姿态变化和曝光问题导致基于rgb-based的ReID存在较大的类内差异,也给RGB-IR的交叉模态ReID带来了一定的困难:
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第2张图片
本文工作:
首先,本文提出一个RGB-Infrared数据集:SYSU-MM01,包括来自6个摄像机的491个身份的RGB和IR图像,总共给出了287,628张RGB图像和15,792张IR图像。数据集在http:// isee.sysu.edu.cn/project/RGBIRReID.htm.
同时,本文为了探讨RGB-IR 在ReID问题,评估了现有的流行跨域模型,包括三种常用的神经网络结构(单流、双流和非对称FC层),并分析了它们之间的关系。并在此基础上,进一步提出了一种深度补零的方法来训练单流网络,使之能够自动演化出特定领域的节点来进行跨模态匹配。

成果:
1.SYSU-MM01数据集
下表为不同数据集的比较,下图中,相机1-3为室内场景,相机4-6为室外场景,每两列为同一个人。
在本数据中,有491个人物ID,296个用于训练,99个用于验证,96个用于测试。
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第3张图片
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第4张图片
2.跨模态建模的网络结构比较
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第5张图片
共评估了4种网络结构,其中backbone选用ResNet,绿色代表共享参数,蓝色和红色表示特定参数。
2.1.One-stream为最普通的网络结构,input为所有图像。
2.2.Two-stream为最常见的跨模态网络结构,两个input分别对应两个不同域中的数据,在较浅的层中,网络的参数对于每个域都是特定的。在更深层,使用共享参数。与One-stream结构相比,Two-stream结构实现了两方面的功能:领域适应和鉴别特征学习。
2.3.非对称FC层结构(Asymmetric FC Layer Structure):该结构在特征层次上实现了对不同领域的特征提取的一致性和对不同领域的适应性。此顺序的特征提取和域自适应。
2.4.Deep Zero-Padding
即 Mix = RGB && zero padding 或者 IR && zero padding
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第6张图片
同时,作者将当前存在多种构造的单双流网络进行分析后,对其输入补了一个全零层,实现了单双流网络的合并,其中,虚线对应的节点参数为0,不同的节点对应不同的模态数据会选择性"失活",并且存在始终激活的节点,如绿色节点所示,学习两种模态的共有特征。结构如下图,简单明了,通过一个类似"开关"的数据输入结构解决了不同模态的数据输入问题,但是并未将信息全部利用。
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第7张图片

可以从下图看出,使用深度补零学习的左侧特定于域的通道要比使用单通道输入学习的通道多得多。
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第8张图片
实验:
可以看出,本文提出的Deep Zero-Padding性能最好:
2017 ICCV之ReID:RGB-Infrared Cross-Modality Person Re-Identification_第9张图片

你可能感兴趣的:(多模态,ReID,计算机视觉,人工智能,深度学习)