论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A

论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第1张图片
论文地址

项目主页


摘要

夜间行人重识别在视频监控、安防等领域有着重要的应用,但是该问题却没有被很好的解决。这主要是因为夜间红外行人图像和日间彩色行人图像之间存在巨大的模态差异,这种差异使得跨模态图像匹配变得更加困难。为了解决夜间行人重识别的问题,本文创新性的提出了像素对齐(Pixel Alignment)的思路来缓解模态差异问题,并提出联合判别(Joint Discriminator)的策略来保持对齐过程中的身份一致性。该方法在目前最具挑战性的夜间行人数据集上,显著高于其他最好方法10%以上。


背景

行人重识别。行人重识别(Person Re-Identificaton)在视频监控、安防、智慧城市等领域有着举足轻重的作用。它具有类内差异差大(同一个人表观特征可以非常不同),类间差异小(不同的人表观特征可以非常相似)等难点。这主要是由于摄像头拍摄角度,光照差异,行人姿态变化以及遮挡等因素造成的。

夜 间 行 人 重 识 别 \color{red}{夜间行人重识别} 。目前很多行人重识别的算法被提了出来[1,2],但是这些算法主要研究基于彩色(RGB)图像的日间行人重识别。夜间场景同样是监控、安防等领域的重点领域(注:这里的夜间场景不仅包括单纯夜间行人重识别,更包括跨日夜行人重识别,即如何在给定行人白天/晚上图片的情况下,匹配他晚上/白天的图片)。虽然很多监控控摄像机可以自动从可见光模式(visible mode)转化成红外模式(infrared mode),并分别采集到彩色(RGB)图像和红外(Infrared)图像,但是目前很多优秀的行人重识别算法并不支持这种彩色-红外图像之间的匹配。这主要是由于彩色(RGB)和红外(Infrared)图像之间存在巨大的模态差异(modality gap)。如图1所示,RGB图像有3个通道,包含着彩色信息。而红外图像只有1个通道,包含着不可见光信息。

夜间行人重识别未被很好解决。为了能够更好的讲行人重识别算法应用在夜间场景,一些相应的目前的彩色-红外跨模态行人重识别算法(RGB-IR Person Re-Identification)被提了出来,来解决这种不同性质图片之间的模态差异。目前,这些方法的主要策略是特征对齐(feature alignment),即通过一些网络结构、损失函数设计,把两种不同的数据映射到一个特征空间,来减少他们的模态差异(modality gap)。但是从实际效果来看,由于两种数据的差异巨大,单一使用这种方法无法较好的解决夜间行人重识别问题。如下表所示,即便是目前最优异的算法,它的rank-1性能在夜间场景下只能达到27.9%,而在相应的日间场景下,可以轻松到达90%。
论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第2张图片


方法

论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第3张图片

1.像素对齐模块:从像素级别缓解模态差异。一个解决思路是通过一个像素对齐模块(Pixel Alignment Module)把RGB图像合成虚拟的infrared图像,然后再匹配虚拟的infrared图像和真实的infrared图像。这样,原本存在于RGB和infrared图像之间的模态差异就可以被虚拟的infrared图像缓解。
论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第4张图片

2.联合判别模块:考虑身份一致性,保证模态对齐不会引入新噪声。尽管如此,我们仍然面临一个棘手的困难,那就是行人重识别是一个Zero-Shot问题,即测试标签和训练标签是不重合的。因此,在训练过程中,像素对齐和特征对齐模块均无法通过简单的拟合训练集合的标签,来确保推理过程的身份一致性。比如,在特征空间,行人A的彩色数据可能会被对齐到行人B红外数据。这种情况下,虽然模态差异减少了,但是身份信息却丢失了,最终无法进行正确的行人重识别。为了解决上述问题,我们进一步提出了一个联合判别模块(Joint Discriminator Module)。
论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第5张图片
(a)是IR和RGB图片直接匹配,两个模态间差异比较大
(b)是先将IR和RGB的图片进行像素对齐,然后特征对齐,有两个判别器,这样会有个缺点,在像素对齐的时候行人A的RGB图像对齐到行人B的IR图像
(c)于是进行改进,只有一个判别器图像-特征对进行判别,同一个ID为真,这样就会使行人A的RGB图像映射到行人A的IR图像


实验

论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第6张图片
在这里插入图片描述论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第7张图片
论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第8张图片
下 面 这 个 可 视 化 图 , 不 同 颜 色 代 表 不 同 模 态 , 不 同 形 状 代 表 不 同 i d , 然 后 不 是 很 明 白 ( a ) t r a i n i n g d a t a 的 时 候 为 什 么 不 同 模 态 的 相 同 i d 是 聚 在 一 起 的 , ( b ) 的 话 不 同 模 态 分 开 , ( c ) 的 话 就 是 F i g u r e 2 ( b ) 的 情 况 , 会 使 不 同 i d 聚 集 , ( d ) 的 话 就 是 聚 集 的 比 较 好 , 不 同 模 态 的 形 态 i d 聚 在 一 起 \color{red}{下面这个可视化图,不同颜色代表不同模态,不同形状代表不同id,然后不是很明白(a)training data的时候为什么不同模态的相同id是聚在一起的,(b)的话不同模态分开,(c)的话就是Figure 2(b)的情况,会使不同id聚集,(d)的话就是聚集的比较好,不同模态的形态id聚在一起} id(a)trainingdataid(b)cFigure2b使iddid

论文笔记004:[ICCV2019]RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature A_第9张图片

我的思考

这篇方法拟解决夜间行人重识别中的跨模态问题,创新性的提出了像素对齐(Pixel Alignment)的思路来缓解模态差异问题,并提出联合判别(Joint Discriminator)的策略来保持对齐过程中的身份一致性。这个应用场景比较广泛,可以输入夜间的IR,查找白天加晚上的图片;也可以输入白天的RGB,查找白天加晚上的图片。缺点嘛,暂时还没有想到,以后想到再更。
对于我的课题的促进,开始思考应用场景,然后模态内差异比较大是否也可以这样做?RGB的低照度和正常光对像素对齐和特征对齐做一个低照度到正常光的转换。

你可能感兴趣的:(论文阅读,计算机视觉,人工智能,Person-Reid)