(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance

废话(建议直接跳过):
我的毕设是做汽车重识别
今天我第一天认真开始写毕设论文(2021-05-23)
这几天写毕设论文(其实就是打开word,然后玩手机,嘿嘿),明天需要交初稿
给大家见识一下啥叫一个晚上,一个电脑,一个奇迹。
有人说我骚的不行,我只想说那确实。
(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第1张图片
甲:您是做什么工作?
乙:做机器学习。
甲:哦哦哦,机器学习好啊。诶,我有一个问题,关于机器学习的,想请教您。
乙:啊,您请讲。
甲:请问在做机器学习的时候,是你找数据库,还是机器找数据库?
乙:我找数据库。
甲:做机器学习的时候,是你写代码,还是机器写代码?
乙:我写代码。
甲:调参数是机器调参数,还是你调参数?
乙:我调参数。
甲:学习完了之后,是机器写报告,还是你写报告?
乙:我写报告。
甲:那问题来了。到底是机器学习,还是你学习?

目录

  • 一种基于深度学习的城市监控渐进式车辆再识别方法
    • 1 引言
    • 2 相关工作
    • 3 所提出的方法
      • 3.1 概述
      • 3.2 通过CNN进行外观特征提取
      • 3.3 基于Siamese神经网络的车牌验证
      • 3.4 基于时空关系的车辆重新排序

一种基于深度学习的城市监控渐进式车辆再识别方法

摘要
虽然对人的重新识别(Re-Id)引起了广泛的关注,但作为城市视频监控中一个重要的对象类的汽车,却经常被视觉界忽视。大多数现有的车辆重识别方法只达到有限的性能,因为它们主要关注车辆的一般外观,而忽略了车辆的一些独特标识(例如,车牌)。在本文中,我们提出了一种新的基于深度学习的渐进式车辆重识别方法,称为“PROVID”。我们的方法将车辆重识别视为两个特定的渐进式搜索过程:
在特征方面的由粗到细搜索在现实世界监控环境中的近距离搜索。

  • 第一个搜索过程是使用车辆的外观属性进行粗过滤,然后利用Siamese神经网络(孪生神经网络)进行车牌验证以准确识别车辆。
  • 第二个搜索过程以一种像人类一样的方式,通过从近距离到远距离的摄像头和时间进行搜索来检索车辆。

此外,为了促进渐进的车辆再识别研究,我们从大规模城市监控视频中收集了迄今为止最大的名为VeRi-776的数据集,它不仅包含具有不同属性和高复发率(出现率)的大量车辆,还包含足够的车牌和时空标签。对VeRi-776的全面评估表明,我们的方法优于最先进的方法,在mAP方面提高了 9.28%。

关键词: 车辆重识别 渐进式搜索 深度学习 车牌识别 时空关联

1 引言

车辆作为城市视频监控中的重要对象,在计算机视觉研究领域吸引了大量关注,如检测,分类和姿态估计。然而,车辆重新识别(Re-Id)仍然是一个前沿且重要的话题,但经常被研究人员忽视。
车辆重新识别的任务是,给定探测车辆图像,在数据库中搜索由多个摄像机捕获的相同车辆的图像。 车辆重识别在视频监控,智能交通和城市计算方面具有普遍应用,可以在大型监控视频中快速发现,定位和跟踪目标车辆。

(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第2张图片

图1。(a)同一车辆在不同视角下的较大实例内差异(左)和相似车辆之间的细微实例间差异(右)。(b)车辆重识别用的牌照。(由于隐私原因,部分车牌被遮挡。)

与车辆检测,跟踪或分类不同,车辆重新识别可以作为一个实例级的对象搜索问题。在现实世界的车辆识别中,这个问题可以通过渐进过程来处理。例如,如果监控想要在大量监控视频中找到可疑车辆,他们将首先通过外观特征(例如颜色,形状和类型)过滤掉大量车辆,以缩小搜索空间。然后,对于其余车辆,利用牌照来准确识别嫌疑人,如图1(b)所示。此外,搜索范围从近摄像机扩展到遥远,搜索周期从近距离延伸到远处。因此,时空信息也可以提供很大的帮助,如图2所示。现实世界的实践激励我们构建一个渐进式车辆重识别方法,其中包括两个渐进式搜索过程:(1)从粗 - 到 - 精细搜索特征空间; (2)在现实世界的时空环境中从近到远的搜索。
(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第3张图片

图2 监控网络中的车辆的时空信息。

然而,在现实世界城市交通监控中实施渐进式车辆重识别方法仍然面临着几个重大挑战:

  • 基于外观特征的方法难以得到最佳结果:不同视角(摄像头)下相同车辆可能会有很大的类内差异,而同样视角(摄像头)下的不同车辆却可能只有微小的类间差异,如图1(a)所示。
  • 此外,传统的车牌识别技术可能由于各种照明,视点和分辨率而在无约束的监视场景中失败,如图1(b)所示。此外,车牌识别是一个复杂的多步骤过程,包括车牌检测,分割,形状调整和字符识别,如[7,8]。如何在无约束的交通场景中有效和高效地利用车牌信息仍然是极具挑战性的。
  • 城市监控环境中,很难在不受约束的条件下对车辆行为模式建模。交通状况,路况和天气会影响行车路线。时空线索的利用也具有挑战性。

现有的车辆重识别方法主要关注基于外观的模型[1,9]。但是,这些方法不能区分外观相似的车辆,也不能忽视车牌来唯一地识别车辆。 与这些方法不同,我们从粗到精的方式考虑外观特征和车牌。 基于外观的模型首先过滤掉不同的车辆,然后使用车牌进行准确的车辆搜索。 此外,大多数方法都没有考虑时空信息来寻求帮助。 时空关系已被用于许多领域,例如多摄像机监视,交叉摄像机跟踪和对象检索。 利用监控网络中的时空信息,我们可以在时间尺度和空间尺度上以从近到远的原则处理搜索过程。

在本文中,我们提出了PROVID,这是一种用于城市监控的基于深度学习的渐进式车辆重识别方法,具有以下特性:(1)采用渐进式方法搜索车辆,如同在现实世界中一样; (2)利用深度卷积神经网络(CNNs)学习的外观属性模型作为粗车辆过滤器;(3)提出基于Siamese神经网络(孪生神经网络)的车牌验证来匹配车牌图像; (4)探索时空关系以协助搜索过程。特别是对于基于外观的粗过滤器,我们采用低级和高级特征的融合模型来寻找相似的车辆。对于车牌号,**我们只需要验证两个车牌图像是否属于同一车辆,而不是准确识别车牌字符。**因此,使用大量车牌图像训练Siamese神经网络(孪生神经网络)以进行车牌验证。最后,利用时空关系模型对车辆进行重新排序,以进一步改善车辆重识别的最终结果。

为了便于研究和验证相关算法,我们构建了一个名为VeRi-776的综合车辆Re-Id数据集,其中不仅包含具有不同属性和高复发(出现)率的大量车辆,而且还包含足够的车牌和时空标签,这可以极大地方便基于车牌和时空信息的渐进式车辆重识别方法的研究。 最后,我们评估了VeRi-776上的PROVID,以证明所提出的框架的有效性,该框架的性能优于最先进的方法,它在mAP上取得了9.28%的改进,在HIT@1上取得了10.94%的改进。
最后,我们在VeRi-776上评估PROVID以证明所提出框架的有效性,该框架比最新技术在mAPHIT @ 1方面分别提高了9.28%和10.94%。

2 相关工作

车辆重新识别。

近年来,车辆重识别仍处于有一些作品的早期阶段。

  • Feris 等人 [1]提出了一种车辆检测和检索系统,其中车辆按外观分为不同的类型和颜色,然后在数据库中通过这些属性进行索引和搜索。最近,
  • Liu 等人 [9]首先评估和分析了几种基于外观的模型,包括纹理,颜色和语义属性,然后提出了一种车辆识别的低层次特征和高级语义属性的融合模型。

然而,由于车辆的相似性和各种环境因素,如照明、视点和遮挡,基于外观的方法不能独特地识别车辆。更重要的是,车辆重识别应该考虑作为每辆车的唯一ID的车牌。

车牌验证。
在工业中,车牌识别已被广泛用于识别车辆[7,8]。然而,由于对车牌图像质量的高要求,现有的方法只能在公园入口和收费站等受限的条件下使用。由于各种环境因素,车牌识别可能在无约束的监视场景中失败[1,9]。因此,对于车辆重识别我们使用车牌验证而不是识别。近年来,深度神经网络在计算机视觉方面取得了巨大成功,如对象分类[13],检测[14],图像理解[15],视频分析[16]和多媒体搜索[17]。其中,

  • Bromley 等人提出了 Siamese 神经网络(SNN)来验证手写签名[18]。 SNN采用两个权重共享的卷积神经网络和一个对比度损失函数。在训练期间,它可以同时最小化相似物体对的距离并最大化不同对的距离。
  • Chopra 等 [19]采用SNN进行人脸验证,取得了很好的效果。
  • Zhang 等人[20]在SNN的步态识别方面取得了最佳性能。

因此,我们利用SNN进行车牌验证,以准确地进行车辆重新识别。

时空关系。
时空关系在多摄像机系统中得到了广泛的应用。[10-12]。 其中,

  • 其中,Kettnaker 等[10]建议在相机上使用贝叶斯估计来组合可能的物体路径。
  • Javed 等人 [11]利用时空信息来估计物体跟踪的相机间对应关系。
  • Xu 等人。 [12]提出了一种分布式摄像机网络中基于图的对象检索系统。

然而,这些方法主要关注于缓慢移动的物体上,例如校园等受限环境中的人。 在大规模无约束的交通场景中,由于复杂的交通状况、路线图和天气,很难对车辆的模式进行建模。

3 所提出的方法

3.1 概述

图3显示了所提出的渐进式车辆重识别方法的架构。 该查询包含车辆的图像,车辆带有摄像机ID和时间戳,用于记录捕获的位置和时间。 根据查询,该方法将车辆重识别的任务视为渐进过程:

  • (1)基于外观的粗度过滤器:使用基于外观的模型来过滤车辆数据库中大多数具有不同颜色、纹理、形状、类型的车辆;
  • (2)基于车牌的精细搜索:对于剩余的过滤车辆,通过 Siamese 神经网络计算查询车辆与源车辆的车牌相似性,查找最相似的车辆;
  • (3)基于所提出的从近到远原理,利用其时空特性对车辆进行了重新排序,进一步改进了车辆的搜索过程。

(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第4张图片

图3 PROVID方法的体系结构。

3.2 通过CNN进行外观特征提取

在现实世界的实践中,诸如颜色,形状和类型的外观特征对于过滤掉不同的车辆非常有效。此外,它们在大规模数据集中被提取和搜索是有效的。因此,我们采用了由 Liu [9]等人评估的纹理,颜色和语义属性的融合模型作为粗略过滤器,找到与查询车辆外观相似的车辆。

纹理特征由常规描述符表示,例如尺度不变特征变换(SIFT)[21]。 然后由于词包(BOW)模型在图像检索模型中的准确性和效率,所以用词包(BOW)模型对描述符 进行了编码。颜色特征由经BOW模型量化的颜色名称(CN)模型[23]提取,从而获得了在汽车重识别中具有优异的性能[24]。 高级属性由深度卷积神经网络(CNN)学习,即GoogLeNet [25]。 该模型在CompCars 数据集[2]上进行了微调,以检测车辆的详细属性,例如车门数量,车灯形状,座椅数量和车辆型号。 最后,通过距离级融合将三种类型的特征集成在一起。

通过纹理,颜色和语义属性的融合,基于外观的方法可以筛选出大多数具有不同颜色,形状和类型的车辆。 因此,搜索空间从整个车辆数据库缩小到相对少量的车辆。 然而,由于车辆的相似性和环境因素,基于外观的模型不能唯一地识别车辆。 因此,我们利用车牌(车辆的唯一ID)来获得准确的车辆Re-Id。

3.3 基于Siamese神经网络的车牌验证

对于准确的车辆搜索,车牌是一个重要的提示,因为它是车辆的唯一ID。在无约束的监视场景中,由于视点,低照度和图像模糊,可能无法正确识别牌照,如图1(b)所示。此外,车牌识别技术是一个复杂的过程,包括车牌定位,形状调整,字符分割和字符识别。因此,对于车辆重识别任务而言,它不是很有效。尽管如此,在车辆重识别中,我们只需要验证两个车牌是否相同而不是识别字符。[18]中引入的 Siamese 神经网络(SNN)用于签名验证任务。 SNN的主要思想是学习一个将输入模式映射到潜在空间的函数,其中相同对象对的相似度量很大,来自不同对象对的相似度量很小。因此,它最适合于类的数量很大,和/或在训练期间所有类的样本都不可用的验证场景。当然,车牌验证就是其中一种情况。

设计用于车牌验证的SNN包含两个并行的CNN,如图4所示。每个CNN堆叠有两个部分:(1)两个卷积层和最大池层,以及(2)三个完整连接层。 对比度损失层连接在输出层的顶部。 网络参数设置如图4所示。在训练之前,两个车牌图像被配对作为训练样本,如果它们属于同一车辆则标记为1,否则标记为0。 在训练期间,成对的车牌图像被分别馈送到两个CNN中。 在正向传播之后,CNN的输出被组合到对比损失层中以计算模型的损失。 然后通过具有对比损失的反向传播,同时优化两个CNN的共享权重。
(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第5张图片

图4 用作车牌验证的Siamese神经网络的结构

具体地说,让 W W W 是SNN的权重,给定一对车牌图像 x 1 x_1 x1 x 2 x_2 x2 ,我们可以将数据映射到潜在的度量空间中 S W ( x 1 ) S_W(x_1) SW(x1) S W ( x 2 ) S_W(x_2) SW(x2)。然后,能量函数 E W ( x 1 , x 2 ) E_W(x_1, x_2) EW(x1x2),它衡量了 x 1 x_1 x1 x 2 x_2 x2 之间的兼容性,被定义为
在这里插入图片描述
利用能量函数,对比损失可以表示为
在这里插入图片描述

其中 ( x 1 、 x 2 、 y ) (x_1、x_2、y) x1x2y 是一对带有标签的样本,m为正边距。在实现中,我们采用了具有默认边际值的Caffe框架[26],m=1。在测试过程中,我们使用了已经学习过的SNN从车牌图像中提取 F C 2 FC2 FC2 层的1000d特征。采用欧几里得距离来估计两个车牌图像的相似度分数。

3.4 基于时空关系的车辆重新排序

正如第一部分中所讨论的。 如图1所示,在现实世界的实践中,在时空域中从近到远的方式进行车辆搜索是合理的。 基于这一原理,我们利用时空关系进一步改进车辆重识别。

然而,在无约束的交通情景中,很难对车辆的行驶模型进行建模和预测两辆任意车辆的时空关系。 为了研究时空关系是否对车辆Re-Id有效,我们分析了来自相同车辆的20,000个图像对和来自随机选择的车辆的20,000个对的空间和时间距离。 统计数据如图5所示。我们发现相同车辆的空间和时间距离相对小于随机选择的车辆。 根据这一观察,我们作出一般假设:如果两个图像具有较小的空间或时间距离,则它们具有较高的可能性为同一车辆,并且如果它们具有较大的空间或时间距离,则较低的可能性为同一车辆。 利用该假设,对于每个查询图像i和测试图像j,时空相似性 S T ( i , j ) ST(i,j) STij被定义为:
(翻译)A Deep Learning-Based Approach to Progressive Vehicle Re-identification for Urban Surveillance_第6张图片

你可能感兴趣的:(神经网络,Re-Id,车辆重识别,汽车重识别,计算机视觉)