行人重识别(Re-ID)是视频监控中的一个重要问题,目的是在不同的摄像机视角下匹配行人图像。目前,大多数工作集中在基于RGB的重新识别上。然而,在某些应用中,RGB图像并不适合,例如在黑暗环境中或在夜间。红外线(IR)成像在许多视觉系统中变得很有必要。为此,需要将RGB图像与红外图像相匹配,这些图像是异质的,具有非常不同的视觉特征。对于人的重新识别来说,这是一个非常具有挑战性的跨模式问题,到目前为止还没有被研究过。在这项工作中,我们解决了RGB-IR跨模态重新识别问题,并提供了一个新的多模态重新识别数据集,名为SYSU-MM01,包括来自6个相机的491个身份的RGB和IR图像,总共有287,628张RGB图像和15,792张IR图像。为了探索RGB-IR Re-ID问题,我们评估了现有流行的跨域模型,包括三种常用的神经网络结构(单流、双流和不对称FC层),并分析了它们之间的关系。我们进一步提出了用于训练单流网络的深度零填充,以实现网络中跨模态匹配的特定领域节点的自动进化。我们的实验表明,RGB-IR跨模态匹配是非常具有挑战性的,但使用所提出的具有深度零填充的模型仍然是可行的,并给出了最佳性能。
行人重识别(Re-ID)是视频监控中的一个重要领域。大量针对Re-ID问题的模型已经被提出,包括特征学习[29, 48, 23]、距离度量学习[55, 15, 22, 28, 23, 24, 49, 57, 21, 44, 56]和端到端学习[20, 1, 47, 46]。大多数Re-ID方法都是基于RGB-RGB匹配,这是最常见的单模态Re-ID问题。
然而,当照明不足或无法使用时,RGB-RGB Re-ID在监控中可能会受到限制。例如,RGB图像在夜间变得毫无信息(图1)。在这种情况下,应该采用不依赖可见光的成像设备。红外线(IR)摄像机通常用于视频监控系统。虽然Kinect等RGB-D相机捕捉的深度图像也是独立于可见光的,但它们很少被部署,因为它们比较昂贵,只在室内使用,而且有距离限制。由于大多数监控摄像机能够在黑暗中自动从RGB模式切换到IR模式,因此有必要研究24小时监控系统中的RGB-IR跨模式匹配。
图1. 分别在白天和夜晚的两个室外场景中拍摄的RGB图像和红外(IR)图像的例子。每两列中的图像都是同一个人的。由接收不同波长的光的设备拍摄,同一个人的RGB图像和红外图像看起来非常不同。
在这项工作中,我们介绍了RGB-IR跨模态重识别问题。尽管RGB-IR Re-ID在现实世界的应用中很常见,也很重要,但据我们所知,它很少被探索,仍然是一个开放的问题。由于两种模式之间的巨大差异,RGB-IR再识别是一个非常具有挑战性的问题。首先,RGB和IR图像在本质上是不同的。见图1,第一行的RGB图像有三个通道,包含可见光的颜色信息,而第二行的IR图像有一个通道,包含不可见光的信息。因此,它们可以被看作是异质性数据。其次,从成像原理方面来看,RGB和IR图像的波长范围是不同的。在现有的Re-ID工作中,颜色信息是识别人员的最重要的外观线索。然而,在RGB-IR Re-ID问题上,这一线索很难被使用。如图1所示,即使是人类也很难通过颜色信息来识别人物。这导致了同一类别中严重的数据错位。此外,在基于RGB的Re-ID中引起巨大的类内差异的视角变化、姿势和曝光问题也给RGB-IR跨模态Re-ID带来困难,导致问题更具挑战性。虽然存在一些使用红外图像的Re-ID方法,如Jungling等人[13]。他们只考虑了IR-IR视频匹配的Re-ID,但没有考虑RGB-IR的跨模态Re-ID问题。
我们首先通过对流行的跨模态方法进行广泛的评估来确定RGB-IR Re-ID的挑战。为此,我们收集了一个新的数据集,称为SYSU多模态再识别(SYSUMM01)数据集。与现有常用的Re-ID数据集的比较见表1。它包含287,628张RGB图像和15,792张红外图像,这些图像由6台摄像机拍摄,涉及491人。就我们所知,这个新的RGB-IR Re-ID数据集首次为研究跨模式的RGB-IR Re-ID提供了一个有意义的基准。
对于跨模态匹配任务,由于领域的转变,特定领域的建模对于提取共享特征进行匹配是非常重要的。考虑到使用神经网络进行跨模态匹配,我们研究并分析了不同神经网络结构之间的关系,包括双流结构和非对称FC层结构,其中存在特定领域的建模,但需要手动设计。另外,我们提出了一种深度零填充方法,用于训练倾向于自动演化特定领域结构的单流网络。大量的实验表明了深度零填充的有效性,其性能优于手工制作的特征和深度模型的比较。
本文的贡献在于:
(1) 我们首次提供了一个标准的基准SYSU-MM01,用于支持RGB-IR跨模态Re-ID的研究。我们进行了广泛的实验,以评估流行的基线深度学习架构用于跨模态RGB-IR Re-ID。
(2) 我们分析了三种不同的网络结构(单流结构、双流结构和非对称FC层结构),并对它们在RGB-IR Re-ID中的有效性提出了见解。
(3) 我们提出了在为RGB-IR Re-ID任务优化的单流网络中自动演化特定领域结构的深度零填充法。我们的实验表明,这种用于RGB-IR跨模态Re-ID的方法不仅优于标准的单流网络,也优于具有明确跨域学习和额外计算成本的双流网络。
SYSU-MM01包含由6台摄像机拍摄的图像,包括2台红外摄像机和4台RGB摄像机。与RGB相机不同的是,红外相机是在黑暗环境下工作的。
我们在表2中显示了细节,并在图2中显示了每个摄像机视图的一些样本。摄像头1和摄像头2的RGB图像是由Kinect V1在两个明亮的室内房间(房间1和房间2)拍摄的。对于每个人来说,至少有400个不同姿势和视角的连续RGB帧。摄像机3和摄像机6的红外图像是由红外摄像机在黑暗中拍摄的。红外图像只有一个通道,它们与3通道的RGB图像不同。摄像机3被放置在黑暗环境中的2号房间,而摄像机6被放置在有背景杂物的室外通道。摄像机4和5是放置在两个室外场景中的RGB监控摄像机,名为大门和花园。
图2. SYSU-MM01数据集中的RGB图像和红外(IR)图像的例子。左边的相机1-3是室内场景,右边的相机4-6是室外场景。每两列都是同一个人。
观察数据集的样本,我们可以清楚地看到,红外相机(相机3和6)的图像在颜色和曝光方面都与RGB图像不同。具体来说,虽然相机2和3处于同一场景,但它们的图像遭受了戏剧性的颜色转变和曝光差异。例如,在RGB相机下,第一个人的黄色衣服和她的黑色裤子是截然不同的,但在红外相机下,这种颜色的区别几乎被消除了(图2中第1,2列,第2,3行)。
此外,红外图像只有一个通道,可能会失去一些纹理细节。在不同距离拍摄的红外图像的曝光也是一个问题。这些都给RGB-IR跨模式重新识别问题带来了困难。
在SYSU-MM01数据集中有491个有效的ID。我们有一个固定的分割,使用296个身份进行训练,99个身份进行验证,96个身份进行测试。在训练阶段,训练集中296个身份在所有相机中的所有图像都可以被应用。
在测试阶段,来自RGB相机的样本用于gallery集,来自IR相机的样本用于probe集。
我们设计了两种模式,全搜索模式和室内搜索模式。在全搜索模式下,RGB相机1、2、4和5用于gallery集,红外相机3和6用于probe集。对于室内搜索模式,RGB相机1和2(不包括室外相机4和5)用于gallery集,红外相机3和6用于probe集。
对于这两种模式,我们采用单次拍摄(single-shot)和多次拍摄(multi-shot)的设置。对于RGB相机下的每一个身份,我们随机选择该身份的一/十张图像组成单张/多张设置的gallery集。对于probe集,所有的图像都被使用。给定一个probe图像,通过计算probe图像和gallery图像之间的相似性来进行匹配。请注意,匹配是在不同位置的相机之间进行的(位置如表2所示)。摄像机2和摄像机3在同一地点,所以摄像机3的probe图像跳过了摄像机2的gallery图像。计算完相似度后,我们可以根据相似度的降序得到一个排名表。
为了表示性能,我们使用累积匹配特性(CMC)[32]和平均精度(mAP)。请注意,对于多镜头设置下的CMC,只取同一人的所有gallery图像中的最大相似度来计算排名列表。我们用随机分割的gallery集和probe集重复上述评估10次,最后计算出平均性能。
我们对RGB-IR跨模态Re-ID的任务进行了研究。特别是,我们研究了三种常用于视觉识别和跨模态学习的网络结构。我们进一步利用深度零填充的理念进行模型训练,并深入了解其对跨模态匹配任务的影响。
在过去的几年里,大量的深度模型被提出用于视觉匹配和跨模态建模,并在许多任务中取得了令人满意的表现。最常用的结构主要可以分为3种类型。我们要讨论的所有结构都在图3中显示。
**单流结构。**单流结构是视觉任务中最常用的。如图3中的第一个网络所示,有单一的输入,所有的参数在整个网络中都是共享的。代表性的网络包括AlexNet[16]、VGG[38]、GoogleNet[40]、ResNet[9]等,它们在分类、检测、跟踪和许多其他任务中表现良好。在Re-ID领域,JSTL-DGD[47],最先进的网络之一,也采用了单流结构。一般来说,在这些任务中,网络的输入是RGB图像,这些图像属于同一模式。因此,共享网络中的所有参数对于这些任务是合适的。
**双流结构。**双流结构通常用于跨模态匹配任务。如图3中的第二个网络所示,有两个输入,对应于两个不同领域的数据。在较浅的层中,网络的参数是针对每个领域的。在较深的层中,使用共享参数。Lin等人提出的用于包括Re-ID任务在内的跨域视觉匹配的广义相似性网络[26]是这种类型的代表结构之一。类似于双流结构的两个输入的网络在Re-ID任务中也是有利的,例如Ahmed的网[1]、SIR-CIR网[42]、门控连体网[41]等。请注意,除了Lin的结构[26],它们中的大多数都喜欢在特定领域的层中共享参数。这与我们对双流结构的定义不完全相同。原因可能是,虽然图像来自不同的相机,但它们都是同一模式的RGB图像。与单流结构相比,双流结构实现了两点,即领域适应和鉴别性特征学习。我们假设特定领域的网络可以提取不同领域的共享特征,然后共享网络可以提取用于匹配的鉴别性特征。
**非对称FC层结构。**非对称FC层模型也被用于多域任务,例如MDNet[33]用于多域跟踪,CVDCA[2]用于Re-ID和IDR[10]用于VIS-NIR人脸识别等。如图3中第三个网络所示,除了最后一个FC层外,该结构几乎共享所有参数。这种设计假设不同领域的特征提取可以是相同的,而领域适应是在特征层实现的。这种特征提取和域适应的顺序与双流结构不同。
图3. 我们评估中的四种网络结构。卷积块的结构取决于基础网络(在我们的评估中是ResNet[9])。conv块和FC层的颜色表示参数是否被共享。红色和蓝色表示特定参数,绿色表示共享参数。
上面讨论的三种结构似乎是不同的,我们发现有趣的是,当以下假设成立时,所有的结构在前向传播过程中都可以用单流结构表示。
假设1. 网络中的某处存在一个域选择子网络,它可以自动选择相应域的样本作为输入,并且该域选择子网络是固定的。
在假设1的前提下,我们首先给出一个简单的例子,说明单流网络如何在前向传播中表现为双流网络。如图4所示,左边是一个简化的双流网络:两个全连接网络,每个都有一个特定的层(蓝色和红色)和一个共享层(绿色)。右边是一个单流网络,在前向传播中可以有条件地等同于双流网络,其中有一个领域选择子网络用于选择下面的特定领域结构。我们首先定义一些符号来说明。让 x d 1 ∈ R d x_{d1}∈R_d xd1∈Rd和 x d 2 ∈ R d x_{d2}∈R_d xd2∈Rd分别表示域1和域2的输入。我们把域指标 y i n d y_{ind} yind定义为一个有两个元素的向量,其值为 [ 1 , 0 ] T [1, 0]^T [1,0]T或 [ 0 , 1 ] T [0, 1]^T [0,1]T,分别表示域1或域2。让 f s e l ( x , y i n d ) f_{sel}(x, y_{ind}) fsel(x,yind)表示域选择子网络,实现以下功能。
上式表明,如果领域选择子网络是固定的,那么在前向传播中,双流网络可以用单流网络表示。
图4. 解释单流网络如何代表假设1中的双流网络,在前向传播中带有域指标和域选择子网络。
我们希望的上述假设是不太可行的。现在,我们放弃这个假设,分析单流网络的特定领域属性。对于跨模式的匹配任务,由于领域的转移,特定领域的建模对于提取共享成分进行匹配非常重要。一般来说,在神经网络中,例如双流和不对称FC层结构,这是由特定领域的结构来模拟的。因此,我们打算分析单流网络中的特定领域建模。我们的分析是基于以下宽松的假设。
假设2。如图5所示,对于处理两个领域输入的单流网络,我们将每层的输出节点分为三种类型,即领域1特定的节点、领域2特定的节点和共享节点。
这种分类取决于节点的响应是否是特定领域的。让 x d 1 ( l ) x^{(l)}_{d1} xd1(l)和 x d 2 ( l ) x^{(l)}_{d2} xd2(l)分别表示域1和域2的 l + 1 l+1 l+1层的输入。例如, x d 1 ( 0 ) x^{(0)}_{d1} xd1(0)和 x d 2 ( 0 ) x^{(0)}_{d2} xd2(0)是整个网络的输入。让 η i ( l ) η^{(l)}_{i} ηi(l)表示第l层的第i个节点, f o u t ( x ( 0 ) , i , l ) f_{out}(x^{(0)},i,l) fout(x(0),i,l)表示网络输入为 x ( 0 ) x^{(0)} x(0)时 η i ( l ) η^{(l)}_{i} ηi(l)的输出,我们有:
其中 σ ( ⋅ ) σ(·) σ(⋅)是激活函数, w j , i l − 1 w_{j,i}^{l-1} wj,il−1和 b i l − 1 b_{i}^{l-1} bil−1是第l - 1层的权重和偏置参数。节点 η i ( l ) η^{(l)}_{i} ηi(l)的类型定义为
对于域1特定的节点,我们在 f o u t ( x d 2 ( 0 ) , i , l ) ≡ 0 f_{out}(x^{(0)}_{d2},i,l) ≡0 fout(xd2(0),i,l)≡0(恒等于0)中使用身份符号,这意味着对于域2的任何输入,节点 η i ( l ) η^{(l)}_{i} ηi(l)的输出总是零。
在假设2下,我们定义一些符号进行分析。让 L L L表示损失函数。让 o i l + 1 o^{l+1}_i oil+1表示第 i i i个节点在第 l + 1 l+1 l+1层激活函数前的输出, x ( l ) x(l) x(l)表示第 l + 1 l+1 l+1层的输入, w i l w^{l}_i wil和 b i l b^{l}_i bil表示权重和偏置参数,即 o i ( l + 1 ) = ( w ( l ) i ) T x ( l ) + b i ( l ) o^{(l+1)}_i=(w^(l)_i)^Tx^{(l)}+b^{(l)}_i oi(l+1)=(w(l)i)Tx(l)+bi(l)。使用上述定义的分类,在不丧失一般性的情况下, x ( l ) x(l) x(l)可以被分解为三个部分 x ( l ) = [ x ( l ) , 1 s p e ; x ( l ) , 2 s p e ; x ( l ) , s ] x^{(l)}=[x^{(l),1spe};x^{(l),2spe};x^{(l),s}] x(l)=[x(l),1spe;x(l),2spe;x(l),s],其中三个部分分别表示特定领域1、特定领域2和共享节点。我们也可以把 w i l w^{l}_i wil表示为 w i ( l ) = [ w ( l ) , 1 s p e ; w ( l ) , 2 s p e ; w ( l ) , s ] w^{(l)}_i=[w^{(l),1spe};w^{(l),2spe};w^{(l),s}] wi(l)=[w(l),1spe;w(l),2spe;w(l),s]。
对于领域1的网络输入 x d 1 ( 0 ) x^{(0)}_{d1} xd1(0),根据分类定义, x ( l ) , 2 s p e = 0 x^{(l),2spe}=0 x(l),2spe=0,因为对于每个领域2特定节点的输出, f o u t ( x d 1 ( 0 ) , i , l ) ≡ 0 f_{out}(x^{(0)}_{d1},i,l) ≡0 fout(xd1(0),i,l)≡0。 在前向传播过程中,第l+1层的输出是
对于域2的网络输入 x d 2 ( 0 ) x^{(0)}_{d2} xd2(0),类似的,我们有:
在反向传播过程中,对于域1的网络输入 x d 1 ( 0 ) x^{(0)}_{d1} xd1(0)
图5. 深度零填充方法的解释。在每一层中,蓝色节点表示领域1的特定节点,红色节点表示领域2的特定节点,绿色节点表示共享节点,虚线节点表示零值。
从上面的分析中,我们有两个结论:
(1)在前向传播中,如图5所示,权重参数 w ( l ) , 1 s p e w^{(l),1spe} w(l),1spe(蓝色连接)和 w ( l ) , 2 s p e w^{(l),2spe} w(l),2spe(红色连接)只对相应域的输入有影响,这与双流网络中的特定域参数相似。而对于 w ( l ) , s w^{(l),s} w(l),s(绿色连接),它对两个领域都有影响,这与双流网络中的共享参数类似。因此,网络可以通过特定领域的节点隐含地控制特定领域的结构,并通过共享节点控制共享的结构。
(2) 在反向传播中,如果一个节点是domain2-specific,输入在domain1,其对应的权重参数将不会被更新,因为梯度为零。这意味着其他领域的训练样本不会影响隐含的领域特定结构。请注意,对于输入 x d 2 ( 0 ) x^{(0)}_{d2} xd2(0),可以用类似的方式得出同样的结论。
备注1. 如果假设网络中存在方程(3)所定义的三种类型的节点,那么一个单流网络可以隐含地学习和进化网络中的特定领域和共享结构。
备注2. 考虑到双流结构和不对称的FC层结构,它们是手工设计的,并在训练中固定下来。此外,两个领域的特定结构是解耦的,而共享结构是完全相同的。相反,如果单流结构可以隐式学习结构,那么对应于不同领域的隐式结构通过共享节点和共享偏置参数部分耦合(公式(4)和(5)),这可以为跨模态匹配任务的训练提供更大的灵活性。
由于我们在上一节中定义的节点类型(公式(3))是基于 f o u t ( x d 1 ( 0 ) , i , l ) ≡ 0 f_{out}(x^{(0)}_{d1},i,l) ≡0 fout(xd1(0),i,l)≡0和 f o u t ( x d 2 ( 0 ) , i , l ) ≡ 0 f_{out}(x^{(0)}_{d2},i,l) ≡0 fout(xd2(0),i,l)≡0的假设而非常优化的,如何使网络在训练阶段学习这种具有领域特性的节点仍然是一个重要问题。在大多数情况下,单流网络被应用于单域任务,它对所有的样本都是一视同仁的,所以一般来说,特定域的节点可能不会被学习。
正如前几节所分析的,双流网络和非对称FC层网络的结构是手工设计的,并在训练过程中固定下来,而单流网络可以通过学习特定领域的节点来隐含地演化网络结构,这可能会产生更多的最优结构。为此,我们建议使用零填充输入来刺激特定领域的反应。如图5所示,对于来自两个领域的输入 x d 1 ∈ R d x_{d1}∈R_d xd1∈Rd和 x d 2 ∈ R d x_{d2}∈R_d xd2∈Rd,我们应用零填充,如下所示
如果我们把网络输入视为前层(或称为第0层),那么根据我们在公式(3)中的定义,这样的前层中的所有节点肯定会被归类为特定领域节点。现在,下一层的节点是什么情况呢?事实上,我们很难从数学上说清楚,但我们发现,如果把零填充作为网络输入,网络中的节点更有可能成为特定领域的节点。这里我们继续第3.2节的分析,在对方程(4)和(5)应用激活函数σ(·)后,我们可以看到:
其中 x d 1 , i ( l + 1 ) x^{(l+1)}_{d1,i} xd1,i(l+1)和 x d 2 , i ( l + 1 ) x^{(l+1)}_{d2,i} xd2,i(l+1)表示第l+1层的第i个节点的输出,输入来自域1和域2。
我们发现,对于 x d 1 , i ( l + 1 ) x^{(l+1)}_{d1,i} xd1,i(l+1),有一个独立的投影 ( w ( l ) , 1 s p e ) T x d 1 ( l ) , 1 s p e (w^{(l),1spe})^{T}x_{d1}^{(l),1spe} (w(l),1spe)Txd1(l),1spe,它与 x d 2 , i ( l + 1 ) x^{(l+1)}_{d2,i} xd2,i(l+1)的激活函数内的部分没有重叠。这意味着 w i ( l ) , 1 s p e w^{(l),1spe}_i wi(l),1spe成为一个独立于 x d 2 , i ( l + 1 ) x^{(l+1)}_{d2,i} xd2,i(l+1)的激活函数中的条款的自由变量。因此,它可以为神经网络提供更多的灵活性,使 f o u t ( x d 1 ( 0 ) , i , l + 1 ) > 0 f_{out}(x^{(0)}_{d1},i,l+1)>0 fout(xd1(0),i,l+1)>0且 f o u t ( x d 2 ( 0 ) , i , l + 1 ) ≡ 0 f_{out}(x^{(0)}_{d2},i,l+1) ≡0 fout(xd2(0),i,l+1)≡0,以满足与方程(3)相比,对领域1特定节点的要求。
对于神经网络来说,将领域特定的节点分散到更深的层中会更容易。由于零填充不仅出现在输入中,而且还可以在网络中传播。我们称这种方法为深度零填充。
当然,我们的深度零填充只是让神经网络在网络中传播特定领域的节点时更加灵活,但并不强求。实际上,我们的神经网络学习在经验上支持这一点。如图7和图8所示,深度零填充帮助网络比没有零填充的网络更容易学习特定领域的节点。详细情况将在后面的第4.2节中说明。
在我们的RGB-IR跨模态行人重识别任务中,一个通道对应于卷积神经网络FC层的一个节点。对于图像来说,零填充是在通道层面进行的。如图6所示,RGB图像被转换为灰度图像并置于第一个通道中,然后将零填充图像置于第二个通道中。对于红外图像,它被放置在第二通道,零填充图像被放置在第一通道。
为了显示深度零填充的有效性,我们在实验中可视化了ResNet-6的特征图,并比较了深度零填充和原始单通道输入之间的差异。在图7中,我们计算了数据集上50个不同人的平均特征图,并显示了第一和第二卷积层的所有16个特征图。正如方程(3)中所定义的,我们可以对边界框所表示的特定领域的通道进行分类。很明显,与单通道输入相比,深度零填充有助于学习更多的特定领域通道。
图7. ResNet-6的第一和第二卷积层的特征图,带有深度零填充和单通道输入。在每一层中,第一行显示RGB输入的特征图,第二行显示IR输入的特征图。很明显,通过深度零填充学习的左边的特定领域通道要比通过单通道输入学习的多得多。
为了量化网络中的特定领域节点,我们计算每层中特定领域节点的比例。根据公式(3),设置了一个小的(严格的)阈值和一个大的(宽松的)阈值来确定节点是否是领域特定的。图8显示了特定领域节点的比例和层深度之间的关系。可以看出,特定领域的节点主要出现在较浅的层中。这是合理的,网络在第6层之后更倾向于共享结构。使用深层零填充有助于产生更多的领域特定节点,而没有零填充的比例在大多数层都很低。关于两个领域各自比例的细节在补充资料中提供。
特定领域的节点使网络能够使用不同的过滤器对来自不同领域的图像进行卷积,从而更好地缓解两个领域之间的差异(如图1中的梯度方向和曝光差异)。上述分析和表3中的实验结果表明,网络可以通过深度零填充更容易地学习特定领域的节点,并取得更好的性能。
图8. 特定领域节点的比例与层深度之间的关系。X轴表示网络中从下到上的层深度,Y轴表示特定领域节点的比例。严格的阈值是 T = 0.01 s t d ( x i ( l ) ) T=0.01std(x^{(l)}_i) T=0.01std(xi(l)) ,宽松的阈值是 T = 0.05 s t d ( x i ( l ) ) T=0.05std(x^{(l)}_i) T=0.05std(xi(l)), ( x i ( l ) ) (x^{(l)}_i) (xi(l)) 是第l层中第i个节点的输出的标准差)。一般来说,使用深度零填充的特定领域节点的比例要高于不使用零填充的节点。
虽然跨模态匹配任务在Re-ID问题上没有引起太多的关注,但在其他领域,如信息检索和人脸验证,已经有很多研究。跨模态检索(如文本-图像、标签-图像)在信息检索中发挥着重要作用。跨模态检索的模型可以分为实值表示和二元表示学习[43]。前者包括子空间学习方法[25, 30, 60]和深度学习框架[45, 6, 14, 12],而后者包括线性模型[39, 36, 59, 51]和非线性模型[27, 50, 31]。Lin等人[26]提出的广义相似性测量是针对跨领域的视觉匹配任务,包括RGB-RGB Re-ID任务。视觉人脸与近红外人脸(VIS-NIR)的匹配[17, 58, 10]与RGB-IR跨模态重新识别相当相关。与VIS-NIR人脸识别相比,由于缺乏重要的颜色信息,RGB-IR Re-ID更具挑战性。剩下的有用线索可能是身体的形状,它在不同的视角和姿势下有很大的不同。
在一些多领域的学习方法中,例如HFA[18],CRAFT[3],在特征层面上应用了零填充,并被证明是有效的。这些工作与我们的深度零填充密切相关。相比之下,我们的零填充是在原始图像层面完成的,特定领域和共享学习是由深度神经网络完成的。
我们在SYSU-MM01数据集上对现有的Re-ID和跨域匹配模型作为基线进行了广泛评估。然后,我们对深度模型的有效性进行了评估和分析,包括第3节中讨论的拟议的深度零填充和三种网络结构。详细的评估协议见第2.2节。
**Baseline。**我们评估了三个有利的手工制作的特征和跨领域的度量学习模型作为基线。手工制作的特征包括HOG[4]、LOMO[23]和HIPHOP[3]。度量学习方法包括KISSME[15]、LFDA[34]和跨域模型CCA[35]、CDFE[25]、GMA[37]、SCM[51]和CRAFT[3]。
**深度模型。**我们评估了图3所示的四种深度模型,包括单流网络、双流网络、不对称FC层网络和提出的深度零填充方法(网络结构与单流网络相同)。我们应用ResNet[9]中的残差块作为所有四个结构的基础卷积块。每个块的过滤器数量分别为16、16、64、128、256和512。下一层是256维的FC层,作为特征使用。对于这四个网络,损失函数是ResNet[9]中的softmax损失,它是常用的,而且相对稳定。所有的超参数都保持不变。对于前三个网络的输入,图像被转换为单通道灰度图像,并将其大小调整为224×224。对于我们提出的方法,输入被进一步处理,如第3节中所介绍的深度零填充。
深度模型与Baseline。
我们在表3中显示了比较结果,包括CMC[32]的rank-1、10、20准确率和平均精度(mAP)。
从表3中,我们可以清楚地看到,深度模型以较大的幅度超过了Baseline。具体来说,所提出的深度零填充模型在Rank-1的准确率方面超过了所有基线模型近10%。
所有的基线模型,即用跨领域的度量学习方法手工制作的特征,表现都很差:即使是最好的情况下的rank-1准确率也没有达到10%。请注意,LOMO特征包含丰富的颜色信息,它在RGB-RGB Re-ID问题上表现非常好。因此,结果表明,在RGB-IR匹配中,由于成像原理的不同,颜色的辨别力大大降低了。虽然身体形状和衣服的纹理可以用来识别人,但低级别的特征对于RGB-IR跨模态的人的再识别问题来说是没有足够的辨别力的。然而,对于深度模型来说,室内搜索的最佳等级-1准确性可以达到20.58%。虽然这个问题很有挑战性,但深度模型处理这个问题是可行的。
深度零填充与其他深度策略的比较。
尽管深层模型的表现总体上优于基线模型,但它们的表现在一定程度上存在差距。
在表3中我们可以看到,深度零填充的表现优于双流网络和非对称FC层结构。以单次设置下的全搜索模式下的rank-1准确性为例,深层零填充和双流/非对称FC层之间的差距为3.15%/5.50%。这可能是因为双流和非对称FC层的结构需要精心设计,所以它们的结构可能不是最佳的。
在相同的单流ResNet-6网络结构下,深度零填充也显示出比原始网络的优势。这些差异主要发生在训练阶段。深度零填充在输入层产生了两个特定领域的通道,帮助网络在训练阶段隐含地进化出特定领域的结构。由于特定领域和共享结构/组件是由网络自动学习的,单流网络的隐性结构可能比我们实验中手动设置的双流结构和不对称FC层结构更适合RGB-IR跨模态重新识别问题。
我们还评估了广义相似性度量(GSM),这是Lin等人提出的一个密切相关的跨域双流深度模型[26]。我们在实验中使用了作者发布的代码。Lin的网络并不像我们的双流模型那样有效。虽然它可以在RGB-RGB Re-ID方面取得良好的性能,正如[26]中所报告的那样,但在处理更具挑战性的RGB-IR跨模态Re-ID问题时,它就逊色了。
深度零填充与域指标[0,1]向量的关系。
如第3节所述,单流网络可以作为双流网络工作,因为存在域指标。
因此,我们在输入图像中添加了两个额外的通道作为域指标。对于RGB图像,第一个通道的所有像素都被填充为255,第二个通道为0,而对于红外图像,第一个通道被填充为0,第二个被填充为255。这种填充程序明确地给网络提供了领域指标。
性能比较见表4。
表4显示,我们提出的深度零填充方法取得了最佳性能。带有域指标的输入只取得了与原始单流网络相当的性能。这一结果表明,深度零填充可以更有效地利用域信息。
据我们所知,这项工作是第一个确定RGB-IR跨模态Re-ID问题的工作,并引入了一个新的多模态Re-ID数据集,名为SYSU-MM01。
RGB和IR图像之间的巨大差异使得RGB-IR跨模态重新识别成为一个非常具有挑战性的问题。我们讨论并评估了跨领域任务的三种常见网络结构,包括单流结构、双流结构和不对称FC层结构。我们分析了单流和双流结构之间的联系,发现如果存在特定领域的共享节点,单流网络可以隐性地学习和进化特定领域的结构。我们提出了深度零填充的方法来帮助一流网络更有可能自动演化出特定领域的节点,从而使隐含的网络结构更适合于任务,与人工设计的两流网络的固定结构相比,这是一种替代的、灵活的跨模式建模方式。实验表明,通过深度零填充训练的单流网络取得了最佳性能。