VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)

摘要:车辆再识别(re-id)的一个基本挑战是学习鲁棒的和有区别的视觉表示,考虑到不同相机视图的显著的类内车辆变化。由于现有的车辆数据集在训练图像和视点等方面的局限性,我们建议利用四个公共车辆数据集构建一个独特的大规模车辆数据集(称为VehicleNet),并设计一种简单而有效的两阶段渐进方法,以从VehicleNet中学习更强大的视觉表示。我们方法的第一阶段是通过传统的分类损失训练来学习所有域(即源车辆数据集)的通用表示。这个阶段放松了训练和测试领域之间的完全对齐,因为它与目标车辆领域无关。第二阶段是通过最小化我们的VehicleNet与任何目标域之间的分布差异,完全基于目标车辆集对训练模型进行微调。我们讨论了我们提出的多源数据集VehicleNet,并通过广泛的实验评估了两阶段渐进表示学习的有效性。我们在AICity Challenge的私有测试集上实现了86.07%mAP的最新准确性,并在其他两个公共车辆re-id数据集(即VeRi-776和VehicleID)上获得了竞争性结果。我们希望这个新的VehicleNet数据集和学习到的鲁棒表示可以为现实环境中的车辆re-id铺平道路。
索引术语-车辆重新识别,图像表示,卷积神经网络。

1.简介

车辆重新识别(re-id)是为了在不同的摄像头中发现感兴趣的汽车,通常被视为图像检索问题的子任务[1]。它可以应用于公共场所进行交通分析,从而方便了交通拥堵管理和流量优化[2]。然而,车辆re-id仍然具有挑战性,因为它固有地包含多个类内变体,例如视点,照明和遮挡。因此,考虑到现实场景的多样性和复杂性,车辆re-id系统需要一个鲁棒性和分辨力强的视觉表示。近年来,卷积神经网络(Convolutional Neural Network, CNN)在很多计算机视觉任务中都取得了最先进的性能,包括person re-id [3] - [5], vehicle re-id[6] -[8],但是CNN对数据比较敏感,容易过度拟合小规模数据集。由于缺乏车辆训练图像会影响健壮特征的学习,因此针对小型数据集的车辆重新识别成为一个具有挑战性的问题。一种直接的方法是注释更多的训练数据,然后在增强的数据集上重新训练基于cnn的模型。但是,由于注释的难度和时间成本,它通常是负担不起的。考虑到许多在实验室环境中收集的车辆数据集是公开的,一个有趣的问题出现了:我们能否利用公共车辆图像数据集来学习稳健的车辆表示?由于车辆数据集是相关的,且车辆具有相似的结构,从不同来源获取更多的数据有助于模型学习车辆的共性知识。受大型数据集ImageNet[9]成功的启发,我们在本工作中收集了一个大型车辆数据集,称为VehicleNet
直观地,我们可以利用VehicleNet来学习不同车辆re-id数据集之间的相关性。然后通过最小化目标函数得到鲁棒性特征。然而,不同的数据集是在不同的环境中收集的,包含不同的偏差。一些数据集,如CompCar[10],主要是在车展中收集的,其他数据集,如City-Flow [2], VeRi-776[6],是在真实的交通场景中收集的。因此,另一个如何利用多源车辆数据集的科学问题出现了。在已有的一些工作中,一些研究者采用了迁移学习[11],目的是将有用的知识从标记的源域转移到未标记的目标域,尽量减小源域和目标域的差异。受迁移学习精神的启发,在本研究中,我们提出一种简单的两阶段渐进学习策略,以学习车辆网络并使训练后的模型适应现实环境。
综上所述,为了解决上述问题,即数据的局限性和多源数据集的使用,我们建议通过公共数据集构建一个大规模的数据集,称为VehicleNet,并通过两阶段渐进学习的方式学习车辆表示的常识(见图1)。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第1张图片
图1所示。我们利用公共数据集重新识别车辆的动机。将识别不同车型的常识传递到最终车型中。

具体而言,我们首先从网络上收集免费的车辆图像,而不是仅使用原始训练数据集。 与CityFlow数据集的训练集相比,我们将训练图像的数量从26,803扩展到434,440,作为一个名为VehicleNet的新数据集。我们训练基于CNN的模型来识别不同的车辆并提取特征。 通过提出的两阶段渐进式学习,可以进一步对该模型进行微调以适应目标数据分布,从而提高性能。 在实验中,我们证明了结合多个数据集训练模型是可行的。当使用更多样本训练模型时,我们观察到性能持续提高,这与某些最新研究[1],[12],[13]中的观察结果一致。基于cnn的模型没有明确的车辆部件匹配或属性识别,而是通过“看到”更多的车辆来学习视点不变特征。该方法虽然简单,但在没有额外信息的情况下,在CityFlow[2]的私有测试集上实现了75.60%的mAP。通过时间和空间注释,我们的方法进一步得出了86.07%的mAP。 结果超过了AICity挑战赛冠军,后者也使用了时空标注。 简而言之,我们的贡献有两个方面:

  • 为了解决数据的局限性,我们引入了一个名为VehicleNet的大型数据集,以借用公共车辆数据集的优势,从而促进对鲁棒车辆特性的学习。在实验中,我们验证了从VehicleNet学习的可行性和有效性。
  • 为了充分利用VehicleNet中的多源图像,我们提出了一种简单而有效的学习策略,即两阶段渐进学习方法。我们讨论和分析了两阶段渐进学习方法的有效性。该方法在CityFlow基准和两个公共车辆再识别数据集(VeRi-776[6]和VehicleID[14])上取得了较好的性能。

本文的其余部分组织如下。第二部分对相关工作进行回顾和讨论。在第三节中,我们说明了车辆re-id数据集和任务定义,然后是提出的两阶段渐进学习。第四部分进行大量试验研究和消融研究。第五部分,结论在第六部分得出。

2 相关工作

A.车辆重识别
车辆重新识别(re-id)需要强大且具有区别性的图像表示。 车辆识别的最新进展归结于两个方面:1)新车辆数据集[2],[6],[14],[15]和的可用性和2)来自深度学习模型的有是识别力的车辆特征。Zapletal等[16]首先收集具有车辆对的大规模数据集,提取颜色直方图和定向梯度直方图特征来区分不同的车辆。随着卷积神经网络(CNN)的最新进展,Liu等[17]将基于CNN的特征与传统手工制作的特征相结合,获得鲁棒性特征。为了充分利用细粒度模式,Wang et al.[8]首先探索车辆结构,然后根据关键点的位置提取基于零件的CNN特征。除此之外,Shen等人[18]将时空信息引入模型训练和推理过程。另一种工作是将车辆再识别作为一个度量学习问题,并探讨目标函数来帮助表征学习。三元组损失的研究已经在[19]、[20]等人的重识别上得到了广泛的研究,并且在车辆[6]中也取得了成功。Zhang等[21]进一步将分类损失与三元组损失联系起来,进一步提高了重识别能力。此外,Yan等[15]提出了一种多粒排序损失来区分外观相似的车辆。此外,一些工作还展示了一些属性,如颜色、厂家、车轮花纹等,可以帮助模型学习[2]、[22]、[23]的判别特征。
B.数据集扩充
现有的许多作品都侧重于引入更多的样本来促进培训。有一些工作利用生成模型合成更多的样本进行训练。Wu et al.[24]和Yue et al.[25]提出将图像转换为不同的图像风格,如天气条件,并学习用于语义分割的鲁棒特征。同样,郑等人[1]、[26]利用了生成式对抗式
利用网络(GAN)[27]获取大量的行人图像,然后将生成的样本作为额外的正则化项进行训练。另一行工作是从Internet收集真实世界的数据来扩充原始数据集。一项开创性的工作[12]是通过在在线引擎(即Google)上搜索关键字来收集大量图片。 在去除了嘈杂的数据之后,扩充后的数据集有助于模型在几个细粒度的数据集(例如CUBird [28])上达到最新的性能。同样地,郑等 [29]还利用Google提供的大学建筑的嘈杂照片,从模型学习中受益。与这些现有的工作相比,我们侧重于利用不同数据偏差的公共数据集来了解车辆的共同知识,因为车辆具有相似的结构。
C.迁移学习
迁移学习就是将源域的知识传播到目标域[11]。一方面,最近的一些研究集中在源域和目标域的对齐上,目的是尽量减少两个域之间的差异。[30]的开创性工作之一是利用cyclegan[31]将图像风格转移到目标域,然后在转移的数据上对模型进行训练。通过这种方式,模型可以学习目标数据的相似模式。除了像素级对齐之外,一些[32]-[34]的工作重点是对齐神经网络中高层的网络激活。该鉴别器用于区分源域和目标域的学习特征,其主要目的是通过对抗性学习使特征差异最小化。另一方面,一些工作部署伪标签学习,产生竞争性的结果,以及[35],[36]。其主要思想是使模型对预测更有信心,从而使信息熵最小化。伪标签学习通常包括两个步骤。第一步是在源域上从头训练一个模型,并为未标记的数据生成伪标签。第二步是对模型进行微调,通过伪标签使模型适应目标数据分布。受现有工作的启发,我们提出了一个简单而有效的两阶段渐进学习。我们首先对模型进行大规模的训练,然后在目标数据集上微调模型。该方法与传统的预训练策略相似,但由于模型中提取了相关车辆知识,使得该方法能够快速收敛并产生竞争性能。

3 数据集收集和任务定义

A.数据集分析
我们将四个公共数据集,即CityFlow [2],VeRi-776 [6],CompCar [10]和VehicleID [14]纳入训练。 它生成31,805类的434,440张训练图像作为VehicleNet。 请注意,四个公共数据集收集在不同的地方。 验证集或专用测试集没有重叠的图像。 我们在图2中绘制了所有四个数据集的数据分布。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第2张图片
图2 (a)车辆re-id数据集中每个类的图像分布,如CityFlow[2]、VehicleID[14]、CompCar[10]和VeRi-776[6]。我们观察到两个最大的数据集,即VehicleID和CompCars,受到每个类的有限图像的影响。注意,只有少数类具有多于40张训练图像。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第3张图片
(b)这里我们还提供了四个数据集的图像样本。这四个数据集包含不同的视觉偏差,如照明条件、收集地点和视点。

  • CityFlow [2]是最大的车辆re-id数据集之一。其中有666个车辆标识的边界框。 在美国城市的真实场景中,所有图像都是从40台摄像机收集的。 我们遵循官方的培训/测试协议,我们遵循官方的训练/测试协议,得到333个类的36935张训练图像和其他333个类的19342张测试图像。从36个摄像机中采集训练集,从23个摄像机中采集测试集。有19个重叠的摄像头。官方协议没有提供验证集,因此我们将训练集进一步分割为一个验证集和一个小训练集,分割后训练集包含255个类的26803张图片,验证查询集包含其余78个类的463张图片。我们将所有原始训练集部署为验证集的图库。
  • VeRi-776[6]包含了来自20个摄像头的776辆汽车的49,357张图像。数据集是在真实的交通场景中收集的,与CityFlow的设置非常接近。作者还提供了元数据,如收集的时间和地点。
  • CompCar[10]是专为细粒度汽车识别而设计的。它包含1716个车型的136726张图片。给出了车辆的边界盒。通过裁剪和忽略无效的边界框,我们最终得到136713张图像进行训练。不同年份生产的同一款汽车可能会出现颜色和形状差异。 因此,我们将不同年份生产的同一汽车模型视为不同的类别,从而得出4,701个类别。
  • VehicleID[14]包括26,328辆汽车的2211,567张照片。车辆图像被收集为两个视图,即前视图和后视图。尽管视点有限,但实验表明,车载id也有助于视点不变特征的学习。
  • 其他数据集我们还查看了表I中的其他公共车辆图像数据集。一些数据集包含有限的图像或视图,而其他数据集则缺少ID注释。 例如,PKU-VD1 [15]仅包含汽车的前视图。 因此,我们不使用这些数据集,这可能会损害特征学习。

表Ⅰ
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第4张图片‡:我们认为不同年份生产的汽车模型是不同的类,这导致更多的类。
B.任务定义
车辆再识别的目的是学习投影函数F,将输入图像x映射为判别表示fi = F(xi)。通常,F是通过对一组训练数据最小化以下优化函数来确定的。
在这里插入图片描述
其中loss(·,·)为损失函数,W为分类器的权值,Ω(F)是正则化项,α是正则化的权值。
我们的目标是在车辆共享通用结构的情况下,利用增强的数据集学习鲁棒的图像表示。面临的挑战是要构建能够适合多个数据集之间不同数据分布的车辆表示形式。
在这里插入图片描述
其中D为增广数据集的个数。The loss要求F不仅可以应用于目标数据集,还可以应用于其他数据集,从而具有良好的可伸缩性。在正则化项Ω(F)方面,我们采用权重衰减的常规做法作为权重正则化,这可以防止权重的值变得太大而过度拟合数据集。

4 研究方法

我们首先在第IV- a节中说明模型的结构。在第IV-B节中,我们介绍了所提出的两阶段渐进学习方法,并讨论了训练策略的优势,接着在第IV-C节中描述了后处理方法。
A.模型结构
特征提取器.
遵循重新识别问题的常规做法[6],[40],我们将在ImageNet数据集[41]上预先训练的现成卷积神经网络(CNN)模型作为骨干。 具体地,所提出的方法是可扩展的,并且可以应用于不同的网络骨干。我们已经在第五节中训练和评估了最先进的结构,包括ResNet-50 [42],DenseNet121 [43],SE-ResNeXt 101 [44]和SENet-154 [44]。去除预先训练好的主干模型的分类层,该分类层是ImageNet上专门用于图像识别的。将原来的平均池化层替换为自适应平均池化层,自适应平均池化层根据高度和宽度通道来输出输入特征图的平均值。我们添加一个512维的全连接层’fc1’和一个批处理归一化层以减小特征尺寸,然后添加一个全连接层’fc2’以输出最终的分类预测,如图3所示。分类预测等于数据集的类别编号。交叉熵损失是对错误的车辆类别预测的惩罚。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第5张图片
图3所示。模型结构的说明。我们删除了ImageNet预训练模型的原始分类器,添加了一个新的分类器,并用自适应平均池化层替换平均池化层。
**Feature Embedding.**车辆重新识别是为了从不同的摄像机中发现感兴趣的车辆,这需要对各种视觉变量(视点、光照和分辨率)有一个健壮的表示。给定输入图像x,我们打算得到feature embedding f = f (x|)
在这项工作中,基于cnn的模型包含了投影函数F和一个线性分类器。具体地说,我们认为“fc2”是传统的具有可学习权值的线性分类器W,最终分类器之前的模块为带有学习参数θ的F。批处理标准化层的输出为f(参见图3中的绿色框)。进行推断时,我们提取查询图像和图库图像的feature embedding。 根据与查询图像的相似性生成排名列表。给定查询图像,我们部署余弦相似度,可以表示为
在这里插入图片描述
||.||2表示l2范数对应的feature embedding。相似度值较大,说明两幅图像具有较高的相关性。
B.二阶段渐进学习
提出的训练策略分为两个阶段。在第一阶段,我们在VehicleNet数据集上训练基于cnn的模型,并学习车辆图像的一般表示。特别地,我们在识别任务中部署了广泛采用的交叉熵损失,并且模型学习识别不同类别的输入车辆图像。损失可表示为:
在这里插入图片描述
其中pi是真实标签yi的one hot向量。如果索引c等于yi,则one hot向量pi(c)= 1,否则pi(c)=0。qi是预测的类别概率 模型,qi = WF(xi |θ)。由于我们引入了多源数据集,因此可以修改交叉熵损失以处理多源数据。
在这里插入图片描述
式中,d表示提出的VehicleNet中公共数据集的索引。其中,d = 1,2,3,4表示VehicleNet中的四个数据集,即CityFlow [2], VehicleID [14]、CompCar[10]和VeRi-776 [6]。请注意,我们将所有数据集均等对待,并要求该模型对VehicleNet中不同数据集的数据具有良好的可扩展性。
在第一阶段,我们在VehicleNet的所有训练数据上优化方程式4,以学习车辆图像的共享表示。 第一阶段模型与目标环境无关,因此训练域和目标域未完全对齐。在第二阶段,我们只在目标数据集(例如CityFlow[2])上,根据公式3,再多做一步,进一步微调模型。这样,可以针对目标环境进一步优化模型。 由于在Stage II中仅考虑了一个数据集,并且减少了车辆类别的数量,特别是,分类器被新的f c2层替换,其中包含来自CityFlow的333个分类。为了保留所学知识,只替换训练模型的分类层。虽然新分类器是从零开始学习的,但由于第一阶段的初始权值较好,模型收敛速度较快,满足快速域适应的要求。因此,我们可以在早期停止训练。综上所述,我们在算法1中给出了该方法的训练过程。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第6张图片
**讨论:**建议的两阶段渐进学习有什么优点?首先,学习的表示更健壮。在第一阶段中,我们要求模型可以输出多源VehicleNet中所有数据的判别表示。该模型被迫学习训练车辆图像之间的共享知识,这与许多re-ID作品中的训练前实践相似[5],[19]。其次,代表也更具区别性。 第一阶段包含31,805个训练类别。(训练类别没这么多吧,有一部分应该分为测试了?)如[45]中所讨论的,其他真实车辆的辅助类别可以被视为“虚拟类别”。 在这里,我们在图4中提供了一种几何解释。在阶段I收敛后,交叉熵损失将具有相同标签的数据拉到一起,并将来自不同标签的数据推离决策边界两边。按照这种方式,如图4(右)所示,第一阶段将为目标数据集上的后续微调提供更好的权重初始化。这是由于辅助类扩展了决策空间,数据距离新的决策边界很远,从而产生判别特征。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第7张图片
图4所示.几何解释.这里我们给出一个三类样本来说明我们的直觉。交叉熵损失将相同标签的样本拉到一起(接近相对权重W1、W2或W3)。这样,正对比负对更接近,而样本远离决策边界。因此,当我们从VehicleNet中省去辅助类(即,带有W3的第三类)时,阶段I导致在阶段II中使用体面的权重初始化,并且距决策边界有很大的余地。
c .后处理
此外,我们还可以在推理阶段应用一些广泛采用的后处理技术,如图5所示。为了进行公平的比较,我们不会利用这种方法来比较公共数据集上的结果,而是将其应用于AICity挑战赛。 接下来,我们将简要说明这些技术的动机以及机理。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第8张图片
图5所示.AICity挑战比赛的推理通道。给定一幅输入图像和经过MaskRCNN[46]裁剪的对应图像,我们从训练好的模型中提取特征,即8×SE-ResNeXt101[44]。我们对特征进行规范化和连接。同时,我们从相机感知模型中提取相机预测,即经过微调的DenseNet121[43]。然后应用查询扩展和摄像头验证。最后,利用重新排序技术[47]提取更多的正样本。(这是提交到在AICity Challenge 2019上设置的私有测试的管道。)
**裁剪图像.**我们注意到,车辆数据集通常提供一个相对松散的边界框,这可能引入背景噪声。因此,我们用最先进的MaskRCNN[46]重新检测了这辆车。对于最终的结果,车辆表示在原始图像和裁剪图像之间取平均值,得到更鲁棒的车辆表示。
**整体模型.**我们采用了一种简单的后期融合策略,即将特征串联起来[5]。给定输入图像xi,embedding fji表示从第j个训练模型中提取xi的特征。最终的描述符可以表示为:
在这里插入图片描述
|| ·|| 2运算符表示l2-范数,而[·]表示特征连接。
查询扩展和重新排序.
我们采用无监督聚类的方法,即DBSCAN[48]来寻找最相似的样本。查询特征更新为同一集群中其他查询的平均特征。此外,我们采用重新排序方法[47]来改善最终结果,其中考虑了高置信度的候选图像。在这项工作中,我们的方法没有修改重新排序的过程。相反,该方法从“看到”的各种车辆中提取出有区别的车辆特征。有了更好的特征,重新排名更有效。
摄像头验证.
我们利用相机验证进一步去除一些难负样本。在训练时,我们额外训练一个CNN模型,即DenseNet121[43],来识别拍摄照片的相机。在测试时,我们从训练好的模型中提取相机感知的特征,然后对这些特征进行聚类。我们假设查询图像和目标图像在不同的摄像机中拍摄。给定一个查询图像,我们从候选图像(图库)中删除同一摄像机集群的图像。
时序注释.
一个普遍的假设是,间隔较长的时间出现的汽车是不同的汽车。 给定查询图像的时间戳t,我们以长间隔τ过滤掉图库中的图像。结果,我们只考虑时间戳为[t-τ,t +τ]的候选图像,这也可以过滤掉很多难负样本。

5 实验

我们首先在第V-A节中说明实施细节,然后在第V-B节中说明定性结果。 此外,我们在第V-C节中提供了进一步的评估和讨论。
A.实现细节
对于VeRi-776和VehicleID这两个被广泛采用的公共数据集,我们遵循[55]、[56]中的设置进行公平比较。我们采用ResNet-50 [57]作为骨干网络,输入图像的大小调整为256×256。我们使用SGD优化器,其动量为0.9,最小批量为36。初始学习率设置为0.02,并在第一阶段的第40个epoch和第二阶段的第8个epoch除以系数10。 第一阶段的总epoch为60个时期,而第二阶段的微调则以12个epoch进行训练。在推理时,我们只应用水平翻转图像的平均特征,不使用其他后处理方法。
对于新的数据集CityFlow[2],我们采用一种较为复杂的模型SE-ResNeXt101[44]作为主干进行消融研究并报告其性能。车辆图像的大小调整为384×384。类似地,第一阶段训练了60个epoch,第二阶段包含了12个epoch。在对验证集进行推断时,我们只使用水平翻转图像的均值特征,不使用其他后处理方法。相反,要在CityFlow私有测试集上取得最好的结果,我们将应用IV-C节中提到的所有后处理方法。为了验证所提出的数据集和方法的有效性,我们进行了消融研究,并在V-C部分报告了验证集的结果。
评价指标.
在之前的作品[2]、[54]之后,我们采用了两个被广泛使用的评价指标,即Rank@K和mAP。Rank@K是真实匹配图像出现在排名列表前k位的概率。给定一个排序列表,平均精度(AP)计算recall-precision曲线下的空间,mAP是所有查询的平均精度的平均值。
B.定性结果
VehicleNet的效果为了验证公共车辆数据对模型性能的有效性,我们分别将不同的车辆数据集纳入训练并报告结果(请参见表II)。有两个主要要点:首先,通过包含一个特定数据集(VeRi776,CompCar或VehicleID)的训练数据,提高了模型性能。例如在CityFlow + CompCar上训练的模型,Rank@1的得分为83.37%,mAP得分为48.71%,超过了73.65%的Rank@1和37.65%的mAP的基线。这表明,从其他公共数据集中获取更多的训练数据确实有助于模型学习车辆图像的鲁棒表示。其次,我们利用提出的大规模VehicleNet来训练模型,它包含了四个公共数据集的所有训练数据。我们注意到Rank@1从73.65%提高了+15.12%Rank@1到88.77%,+19.70% mAP从37.65% mAP增加到57.35% mAP。结果表明,提议的VehicleNet已成功“借用”了多个数据集的优势,并帮助模型学习了强大而有区别的特征。

表Ⅱ我们应用SE-RESNEXT101[44]作为骨干模型
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第9张图片
**和最先进的相比.**我们主要在两个公共车辆re-id数据集,即VeRi-776[6]和vehicle id[14]以及AICity Challenge[54]私有测试集的测试集上与其他方法进行性能比较。与其他竞争方法的比较结果如下:

  • **VeRi-776 & VehicleID.**有两种竞争方法。一线作品部署手工制作的特征[6]、[49]或利用自行设计的网络[7],[8],[51]。相反,另一个生产线利用在ImageNet上预先训练的模型,产生优越的性能[52]-[54],[56]。如表III所示,我们首先在VeRi-776数据集[6]上评估所提出的方法。为了公平地比较性能,我们忽略了来自VehicleNet的VeRi-776测试集(?),而且部署ResNet-50[57]作为主干网,这是大多数比较方法所使用的。所提出的方法已经达到了83.41%的mAP和96.78%的Rank @ 1精度,这远胜于第二好的方法,即基于零件的模型[56](74.3%的mAP和94.3%的Rank @ 1)。同时,我们在所有三种设置(小/中/大)的VehicleID数据集[14]上观察到类似的结果。小、中、大设置表示不同的图库大小分别为800、1600和2400。所提出的方法也获得了竞争性结果.例如,小gallery设置的83.64%Rank @ 1和96.86%Rank @ 5,中gallery设置的81.35%Rank @ 1和93.61%Rank @ 5,大型allery设置的79.46%Rank @ 1和92.04%Rank@ 5。

表Ⅲ。-:表示传统手工制作的功能,*:表示方法利用了自行设计网络结构。最好的结果是粗体。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第10张图片

  • **AICity挑战.**对于AICity挑战竞赛(在CityFlow [2]的专用测试集上),我们采用了稍有不同的训练策略,使用了较大的输入量以及模型集合。 图像被调整为384×384。我们采用小批量SGD,重量衰减为5e-4,动量为0.9。 在第一阶段,我们在第40和55个epoch衰减学习率为0.1的。(衰减了0.1,还是降低到0.1)我们训练了32个具有不同批量大小和不同学习率的模型。在第二阶段,我们对原始数据集上的模型进行微调。我们在第8个epoch时将学习速率衰减为0.1,在第12个epoch时停止训练。最后,我们在验证集上选择8个最佳模型来提取特征。在测试时,我们采用水平翻转和缩放抖动,利用缩放因子[1,0.9,0.8]对图像进行缩放来提取特征。因此,我们到达75.60%mAP私有测试集,没有额外的时间注释,我们的方法已经取得了竞争的结果(见表4)。借助额外的时间和空间信息的注释(前三团队都使用),我们取得了86.07%的地图,这超过2019年AICity汽车重识别挑战的冠军。

表Ⅳ AICITY VEHICLE RE-ID挑战赛在私有测试集的比赛结果VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第11张图片
C.进一步的评价和讨论
**两阶段渐进学习的效果。**我们在CityFlow的私有测试集上比较阶段I和阶段II的最终结果(见表V)。我们不评估我们分离的验证集的性能,因为我们使用了所有的训练图像进行微调。第二阶段的模型已达到87.45%Rank @ 1和75.60%mAP精度,大大超过了第一阶段的+ 7.39%mAP和+ 4.75%Rank @ 1。它验证了两阶段学习的有效性。 在第一阶段,目标训练集,即CityFlow,仅占VehicleNet的6%。 因此,学习的模型对于目标环境而言不是最佳的。 为了进一步优化CityFlow的模型,第二阶段的微调有助于缩小VehicleNet与目标训练集之间的差距,从而产生更好的性能。此外,我们在VeRi776和VehicleID两个数据集上也观察到类似的结果。如表III的最后两行所示,阶段ii的微调可以进一步提高性能。例如,该方法在VeRi-776数据集上实现了+2.50% mAP和+0.83% Rank@1改进。

表Ⅴ在CityFlow的私有测试集上
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第12张图片
**后处理的效果。**在此,我们对CityFlow验证集的不同后处理技术进行了消融研究(见表Ⅵ)。通过对裁剪后的图像进行增强、模型集成、查询扩展、摄像机验证和重新排序,性能逐渐提高,验证了后处理方法的有效性。我们还对AICity Challenge的私有测试集上的最终结果应用类似的策略。

表Ⅵ不同后处理技术对CityFlow验证集的影响

VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第13张图片
不同骨干的影响.
我们观察到不同的主干可能导致不同的结果。 如表VII所示,在CityFlow数据集的验证集上,SE-ResNeXt101 [44]以83.37 Rank @ 1和48.71%mAP达到了最佳性能。 我们推测由于梯度消失的问题,优化某些大型神经网络是棘手的。例如,我们用SENet-154 [44]不能获得更好的结果(45.14%mAP),它在ImageNet [9]上的表现优于SE-ResNeXt101 [44]。 我们希望这一观察结果可以帮助根据重新识别任务进一步研究模型主干选择。

表Ⅶ CityFlow验证集上
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第14张图片

**抽样策略的影响.**由于我们在第一阶段引入了更多的训练数据,所以数据采样策略对最终结果有很大的影响。我们比较了两种不同的采样策略。朴素法是在每个epoch对每幅图像进行一次采样。另一种方法称为平衡采样策略。均衡采样是对不同类别的图像进行采样,且采样概率相等。如表VIII所示,平衡抽样对结果有害。我们推测,长尾数据分布(见图2)使得平衡采样有更多的机会在图像较少的类中选择相同的图像。因此,该模型容易在样本有限的情况下对类进行过拟合,从而影响最终的性能。因此,我们采用朴素数据采样策略。

表Ⅶ CityFlow验证集上;RESNET-50主干
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第15张图片
**车辆Re-id结果可视化.**如图6所示,我们提供了CityFlow上的定性图像搜索结果。我们从不同的视角,即前视图、头顶视图、后视图和侧视图,选择了四幅查询图像。该方法成功地检索了排名列表前5位的相关结果。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第16张图片
图6.使用来自CityFlow数据集的车辆查询图像的定性图像搜索结果。 我们从不同的视角(即前视图,俯视图,后视图和侧视图)中选择四个查询图像。 结果根据相似度评分从左到右排序。 正确匹配为绿色,而错误匹配为红色。

**学习到的热力图的可视化.**根据[38],[61],我们在合并层之前利用网络激活来可视化学习模型的注意力。如图7所示,训练后的模型在包含区分性细节(例如前灯和轮胎类型)的区域具有较强的响应值。 尤其是,尽管存在不同的视点,但该模型仍可以将重点放在显着区域上,从而产生视点不变特征。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第17张图片
图7.在VehicleNet上学习的模型中激活热力图的可视化。 每个子图(a)-(c)中的车辆图像都来自相同的车辆ID。 请注意,在包含区分性细节(例如前灯和轮胎类型)的区域确实存在较强的响应值。

**模型收敛.**如图8(左)所示,尽管训练类别数量较多,即车载31,805VehicleNet,但模型仍能在60 epoch内收敛。同时,如前所述,第一阶段为第二阶段的微调提供了适当的权重初始化。因此,第二阶段的训练在12个时期内迅速融合(参见图8(右))。
VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification(车辆网络:学习用于车辆再识别的鲁棒视觉)_第18张图片
图8所示。这两个阶段的训练损失。由于大规模的数据和类别,第一阶段(左)需要更多的时间来汇聚。由于第一阶段的训练权值,第二阶段(右)收敛较早。

6 结论

在本文中,我们打算解决车辆再识别的两个挑战,即缺乏训练数据,以及如何利用多个公共数据集。为了解决数据的局限性,我们构建了一个名为VehicleNet的大型数据集,其中包含来自公共数据集的免费车辆训练图像。为了学习鲁棒性特征,我们提出了一种简单而有效的方法——两阶段渐进学习,并讨论了这种学习策略的优点。为了验证拟建管道的有效性,我们在CityFlow[2]的私有测试集上对该方法进行了评估,并在测试中取得了竞争性能挑战。所提出的方法已经超过了挑战的冠军,获得86.07%的mAP。此外,该方法在VeRi-776和VehicleID两个公共数据集上也取得了竞争性能。
在本文中,我们证明了更多的训练数据是重要的,并且有助于学习鲁棒视觉表示。然而,数据收集仍然具有挑战性。在未来,我们将研究其中任何一个生成的合成数据GAN[27]或3d模型[62],进一步探索鲁棒表示学习。

你可能感兴趣的:(车辆重识别,人工智能,神经网络)