Multi-Scale Deep Feature Fusion for Vehicle Re-Identification翻译(IEEE2020)

多尺度深度特征融合的车辆重识别

摘要
由于类间距离小,车辆重识别具有挑战性。相似车辆之间的差异可能非常细微,只能在特定的尺度和语义级别上被捕获。在本文中,我们提出了一种新颖的多尺度深度特征融合网络(MSDeep),可同时执行多尺度和多层次特征以实现精确的车辆重识别。基于骨干深度卷积神经网络,MSDeep主要包含两个模块:1)多尺度融合(MSF)模块,将多尺度流的组合封装为MSF特征;2)多层次融合(MLF)模块,融合多层的MSF特征以构建最终的描述符。重要的是,在MSF中,引入了多尺度注意(MSA)以动态强调每个尺度的重要通道,而在MLF中使用Level-Wise Attention(LWA)来确定不同级别的每个MSF特征的不同权重。结果,实验表明,在丰富且层次化的超描述符方面,我们的MSDeep在具有挑战性的VeRi和VehicleID基准测试方面优于最新算法。
1.介绍
车辆重识别是从大型数据库中匹配相同车辆的任务,在智能监控和城市安全中起着至关重要的作用。车辆重识别的关键挑战是区分外观几乎相同的不同车辆。现有的大多数作品都在顶层捕获了单尺度特征,这些特征被证明是抽象的并且具有更高的语义水平[1、2]。然而,对于几乎重复的情况,这些全局特征具有较粗糙的分辨率,并丢弃了必要的空间细节[3,4],而局部区域或低级别的特征则更具区分性。例如,为了区分图1(a),(b)中的车辆,局部标尺的高级特征(图1(a)中的小尺寸检验贴纸,图1(b)中的中等尺寸装饰))至关重要。此外,图1©中的车辆之间的细微差别在于颜色强度,可以在CNN的早期而不是顶层检测到颜色。因此,理想的车辆重识别模型应该融合多层的多尺度特征,并自动确定网络应关注的尺度和层。
已经开发出许多方法来提取多尺度[5、6、7]或多层级[1、3、8、9]的区别特征。通过添加额外的局部分支[5,6]或用多尺度卷积流[7]代替单尺度块,基于多尺度的方法共同考虑了局部和全局特征,但面临参数高开销。一些工作通过附加的监督信息来学习不同级别的语义概念[8,9],而注释多级别的属性(例如,品牌,型号,颜色)既费时又昂贵。其他工作则通过融合每个卷积层的因子[1]或在深度监督下[3]获得多尺度特征。然而,除了[4],没有一种方法考虑多尺度和多层次特征的组合。HP-Net [4]使用多方向注意图过滤每个层级的特征图,然后将这些特征简单地与串联融合在一起。与HP-Net不同,我们提出MSA和LWA对多个尺度和层级的特征进行动态重新加权,从而可以分别为不同的车辆提供区分特征。
在本文中,我们提出了一种用于车辆重识别的新型CNN体系结构MSDeep,该体系结构学习了不同层级的多尺度表示。MSDeep由骨干网络,MSF块和MLF块组成。MSF旨在提取和融合不同尺度的特征作为MSF特征。通过多尺度池化流执行特征提取,然后利用MSA准确地组装和重新加权不同尺度的表征性特征图。我们还采用了MLF以获得多级信息。在MLF中,首先将MSF特征压缩为具有不同步幅的空间池化的统一向量,然后引入紧凑型LWA来调整这些向量的权重,以获得最终的多尺度和多层次混合描述符。
MSDeep体系结构的值得注意之处在于:1)MSDeep从多个尺度和层级的角度共同学习车辆的视觉表示。2)提出的MSA和LWA使MSDeep能够动态注重不同车辆的特定尺度和层级。3)对代表性数据集进行的大量实验表明,我们的MSDeep达到了最新水平。
2.提议方法
在本节中,我们将介绍提出的多尺度深度特征融合网络(MSDeep)。MSDeep的体系结构如图2所示。基于主干CNN,Multi-Scale Fusion(MSF)块(第2.1节)在不同阶段提取多尺度MSF特征,而Multi-Level Fusion(MLF)块(在第4节中)应该压缩和融合这些具有多个语义层级的MSF特征。
Multi-Scale Deep Feature Fusion for Vehicle Re-Identification翻译(IEEE2020)_第1张图片
2.1 多尺度融合模块
如前所述,广泛使用的全局尺度特征和细微的局部尺度概念对于区分特定车辆很重要。因此,我们提出了MSF(图3所示)来提取和融合多个尺度的特征。提取是通过多尺度池化流进行的,该池化流由感受野大小分别为3×3、5×5和7×7的池化层组成。给定输入特征图,我们将每个池化流Fi(1≤i≤3)的输出连接起来,以获得。
Multi-Scale Deep Feature Fusion for Vehicle Re-Identification翻译(IEEE2020)_第2张图片
然后,我们使用MSA重新加权并融合提取的多尺度特征C(F)。MSA用channel-wise attention [10]来评估C(F)的每个通道,而不是使用单个标量输出为每个流Fi提供粗略的融合。也就是说,MSA可以在通道级别上灵活地对特征进行加权和融合,从而可以更加精细地关注多尺度特征。

其中β,δ,σ分别代表批次归一化,ReLU函数和Sigmoid函数。,是完全连接(fc)层的参数,r是为减小fc层的隐藏维而设置的缩小率.⊗表示逐元素乘法。
到目前为止,我们获得了具有代表性的多尺度MSF特征MSA(F)。此外,我们拆分了MSF特征以恢复三个C×H×W流并进行逐元素求和。这样,我们将MSF的输出与输入张量对齐,从而可以使用残差模式来保存F的原始信息,并且可以将整个MSF模块灵活地集成到任何CNN中。我们将过程描述如下,

2.2 多级融合模块
我们将MSF模块放置在主干的每个瓶颈处,以提取多个级别的MSF功能。假定代表在ith阶段提取的MSF特征。MSFi(x)的维度多种多样,而且要构建紧凑的描述符过于繁琐,因此引入了MLF来转换和聚合这些特征。
2.2.1 特征转换
MSFi(x)的大小与相应瓶颈的输出相同。通常,从底部到顶部阶段,瓶颈的输出被设计为具有较小的特征图(Wi×Hi)但具有更多的通道(Ci)。因此,当通过典型的全局平均池化进行特征压缩时,所得的MSF特征向量具有不同的维数,这可能导致区别。因此,我们利用MSF特征的自适应池化操作。对于低级阶段,选择较大的池化层输出大小以平衡有限的通道数。我们将输出大小向量设置为o = [4、3、2、1],以获得压缩的MSF表示形式,。
池化后,将展平为矢量,并使用全连接(fc)层投影到相同的维度d。

其中,将d设置为512,以在分类层之前构建瓶颈。
2.2.2 层次注意
我们将每个阶段Si(x)的生成特征连接起来以形成一个主要的多尺度和多层级描述符S(x).LWA被提出来调整S(x)的权重并进行元素求和以获得最终描述符。可分辨性仅用Si(x)的平均强度进行测量,可以根据输入数据动态地计算出平均强度。最后,使用全连接(fc)层获取可训练的注意力图,并使用残差图保存主要的多尺度和多层级特征。简而言之,MSF(x)的计算公式为:

其中,β,δ,⊗分别表示批次归一化,ReLU函数,逐元素乘法。,。
3 实验
3.1 数据集和设置
两个车辆重识别数据集VehicleID [12]和VeRi [18]用于评估。VehicleID是具有挑战性的车辆重识别数据集,包含221,763张图像和26,267辆车辆。测试数据分为三个测试集,即分别具有800、1600和2400个身份的小,中和大测试集。 VeRi是跨相机数据集,包含约50,000张776种车辆身份的图像。该数据集被分为具有576辆汽车的37,781张图像的训练集和具有200辆汽车的11,579张图像的测试集。
提出的MSF和MLF块可以与任何CNN体系结构集成。具体来说,我们采用ResNet-50 [19]作为基准,因为它有效且广泛用于车辆重识别任务[15,6]。我们将图像调整为224×224,并利用随机水平翻转和随机擦除进行数据增强。基于imageNet的预训练ResNet-50的学习率为0.0003,而MSF和MLF块则采用lr = 0.003。我们使用SGD优化器将MSDeep训练了70轮(权重衰减= 0.0005,动量= 0.9)。在50轮处采用学习因子衰减为0.1的学习率衰减。
3.2 与最新技术的比较
我们将MSDeep与在VehicleID和VeRi上的最新车辆重识别方法进行了比较。如表1所示,我们的MSDeep在平均精度均值(mAP)和累积匹配特征曲线(CMC)分数上均达到最佳性能。值得注意的是,尽管性能表现出色,但我们的MSDeep仅依赖于ID的监督信息,而OIFE + ST [13],Siamese-CNN + Path-LSTM [15]和VAMI + STR [16]利用时空信息在VeRi中,其他方法也利用了额外的注释,例如属性(C2F [14],RAM [17]),车辆视图(VAMI [16]),局部的边界框(Part-Regular [6])或关键点(OIFE [13])。
对于VehicleID数据集,所有测试均根据[12]的标准评估进行。在三个测试子集上,MSDeep在最新的mAP方面的表现优于最新方法,分别为6.31 %% 7.43%和1.89 %% 4.00%。结果证明了我们提出的方法在不同规模上的鲁棒性和优越性。在VeRi上,我们还以+ 0.85%的Rank-1精度和+ 0.27%的mAP超过了第二好的方法Part-Regular [6]。与VehicleID的结果相比,增强效果较小,我们推测这是由于VeRi具有挑战性的视点变化所致。注意,Part-Regular [6]利用附加的边界框信息来学习视点不变特征。因此,可以解释Part-Regular [6]在VeRi上的可比性能。尽管如此,我们的MSDeep仍然可以在VeRi上获得最先进结果,而无需额外的监督信息。
Multi-Scale Deep Feature Fusion for Vehicle Re-Identification翻译(IEEE2020)_第3张图片
3.3 消融研究
在表2中,我们进行了消融研究并分析了MSDeep的体系结构设计选择。
MSF模块和MLF模块的评估。我们将MSF放在基线的最后阶段,以获得主要的MSF模型。与基线相比,MSF模块在mAP / Rank-1上增加了+8.13%/ + 2.04%,而MLF模块在MAP上的性能进一步提高(与MSF模型相比增加了3.76%)。因此,我们可以证明MSF和MLF模块的有效性。
MSF体系结构的进一步调查。1)多尺度融合策略:为探索不同的融合策略,我们对多尺度流进行逐元素求和,以获得Baseline + Summation模型,并串联获得Baseline + Concat模型。这两个模型的性能都比我们的MSF模型差。2)多尺度注意vs流向注意:在模型4中,MSA被流向注意代替,该流向关注以单个标量重新加权每个流。我们的MSF模型明显优于模型4,该模型显示了细粒度MSA的必要性。3)多流设计选择:我们获得了具有多尺度卷积流的模型5(Omni-Scale Block [7]),mAP / Rank-1下降了4.51%/ 1.39%,这表明了我们汇集流的优越性。当分别删除多尺度合并流(从模型8,模型7,模型6到模型1)时,持续下降验证了每个尺度的正贡献。
Multi-Scale Deep Feature Fusion for Vehicle Re-Identification翻译(IEEE2020)_第4张图片
对MLF体系结构的进一步研究。1)多级融合策略:与多尺度融合策略的研究相似,我们探索了不同的策略(模型9中的求和,模型10中的串联)来融合变换后的MSF特征Si(x)进行比较。结果表明,带有MLF的MSDeep优于两个模型。2)与GAP相比:当压缩MSF功能时,MSF + GAP模型将自适应池化操作替换为GAP,与MSDeep相比,mAP / Rank-1下降了0.81%/ 0.96%。 3)选择不同的阶段:从模型16中删除阶段1、2、3、4的MLF功能,分别获得模型12、13、14、15。 我们的MSDeep具有所有阶段的功能,在以上四个模型中表现最佳,因此我们可以证明我们模型的每个MSF功能都是必不可少的。
4 结论
在本文中,我们提出了MSDeep来学习车辆重识别的多尺度和多层级表示。提出的MSF和MLF块不仅提取不同尺度和不同层级的特征,而且还学会动态地强调不同车辆的独特特征,从而可以汇总全面而有区别的描述符。对两个具有挑战性的数据集进行的广泛比较评估表明,MSDeep实现了最先进的性能。同时,我们根据车辆重识别性能进行消融研究和分析,以研究MSF和MLF的体系结构设计。

你可能感兴趣的:(车辆重识别)