Vision-based Vehicle Speed Estimation: A Survey

该文是对《Vision-based Vehicle Speed Estimation: A Survey》的翻译,为了个人记录学习。

目录

  • 摘要
  • 1 引言
  • 2 概念与术语
    • 2.1 输入数据
    • 2.2 检测与追踪
    • 2.3 距离和速度估计
    • 2.4 应用领域
  • 3 分类
  • 4 摄像头设置与校准
  • 5 车辆检测与追踪
  • 6 车辆距离与速度估计
  • 7 数据集与评估标准
  • 8 讨论
  • 9 结论

摘要

出于至少两个主要原因,准确估计道路车辆速度的需求变得越来越重要。首先,近年来,全球安装的测速摄像头数量不断增加,因为引入和实施适当的限速被认为是提高道路安全的最有效手段之一。第二,道路网络中的交通监控和预测对于提高智能城市的交通、排放和能源消耗具有重要作用,因为车辆的速度是交通状态的最相关参数之一。在可用于精确检测车辆速度的技术中,基于视觉的系统的使用带来了需要解决的巨大挑战,但也带来了巨大的潜在优势,例如由于缺少昂贵的距离传感器而大幅降低了成本,以及准确识别车辆的可能性。本文综述了基于视觉的车辆速度估计。我们描述了术语、应用领域,并提出了一个完整的分类法,对大量工作进行了分类,对涉及的所有阶段进行了分类。提供了性能评估指标和可用数据集的概述。最后,我们讨论了当前的局限性和未来的方向。

1 引言

提供准确估计道路车辆速度的能力是智能交通系统(ITS)的一个关键特征。这需要解决诸如同步数据记录、表示、检测和跟踪、距离和速度估计等问题,并且可以使用来自不同性质的传感器(例如,雷达、激光或相机)的数据以及在不同的照明和天气条件下解决这些问题。
这是该领域的一个众所周知的话题,学术界和工业界都做出了相当大的贡献。最重要的应用领域是限速、交通监控和控制,最近还有自动驾驶汽车。然而,需要注意的是,速度检测问题的性质有着不可忽视的不同,这取决于它是从基础设施(固定传感器)还是从移动平台(智能/自动驾驶车辆或移动速度摄像机)进行的。我们的研究侧重于基础设施中的固定系统,尽管所提出的许多方法可以通过补偿自我车辆的速度轻松适用于移动传感器的情况。
基础设施对车辆速度估计的不确定性和鲁棒性的要求取决于应用场景。一方面,对于速度强制应用,国家或国际认证机构要求采用极限最大允许误差标准,考虑到这些自动系统用于罚款,甚至监禁超过最高速度限制的驾驶员,这是非常合理的。这意味着在这些应用中用于速度测量的最常见的传感器是基于高精度、高成本的距离传感器,例如雷达(多普勒效应)和激光(飞行时间),或者在某些情况下,在路面下成对嵌入的精确路面传感器(例如感应或压电环路检测器)。很少有人提出使用视觉线索来测量与车辆运动相关的物理变量。视频摄像机通常扮演次要角色,作为捕捉人类可理解的场景表示的手段,允许对车辆进行视觉识别,并作为限速执法的证据。另一方面,对于交通监测、预测和控制应用,对于速度估计的准确性和不确定性,没有监管框架或科学共识。因此,对传感器的要求降低了,更常见的是使用不太精确的传感器,包括交通摄像头。在任何情况下,显然速度估计的精度越高,预测和控制方法就越好。
计算机视觉技术的最新进展导致提出使用视觉作为测量车辆速度的唯一机制的论文数量显著增加。精确估计距离和速度的挑战来自将3D世界投影到2D离散平面中的视频传感器的离散特性。这种固有的限制导致了数字表示,其精度遵循平方反比定律,即其数量与从摄像机到车辆的距离的平方成反比。尽管存在这些限制,但使用摄像机的潜在好处是显著的,因为与微波多普勒雷达或基于激光的设备等距离传感器相比,摄像机是一种经济高效的解决方案。使用已经安装的交通摄像头而不需要集成新传感器的可能性是另一个优势。此外,这些传感器的视觉提示可用于解决其他问题,例如自动识别车辆(车牌、品牌、型号和颜色)、在不同地点重新识别,以及如果分辨率允许,识别乘客或使用安全带。
本次综述的范围是基础设施中基于视觉的车辆速度检测,包括定点速度摄像头和交通摄像头,不包括用于智能车辆应用的移动速度摄像头或车载摄像头。尽管有潜在的影响,而且大量的贡献可用,但仍然没有对这一主题进行详细调查。我们描述了术语和应用领域。我们调查了大量文章,并提出了一个完整而新颖的分类法,对速度检测过程中涉及的所有组件进行分类。检查性能评估指标和可用数据集。最后,讨论了当前的局限性,并概述了未来研究面临的主要挑战。我们希望,这项工作将有助于研究人员、从业人员和政策制定者对这一主题进行详细的概述,这将对未来的工作有所帮助。
本文的结构如下:我们在第2节中介绍了术语并描述了应用领域,在第3节中对分类法进行了一般性描述,并在第4-7节中回顾和分析了其每个组成部分。第7节提供了可用数据集和评估指标的描述。第8节讨论了当前的技术状态和未来趋势,最后,第9节总结了所提出的工作。

2 概念与术语

图1总结了基于固定视觉的车速测量系统的主要部件。考虑了四个抽象级别,它们与以下主要术语相关:

2.1 输入数据

基于视觉的速度检测方法基于来自摄像机的输入数据。对于每辆车,将有一系列从第一次出现到最后一次出现的图像。可用图像的数量取决于摄像机相对于道路的姿态、焦距、帧速率和车辆速度。可以考虑两种不同类型的摄像机:

  • 交通摄像头:也称为交通监控摄像头或交通闭路电视。它们用于手动或自动监控交通流量、拥堵和事故(由人工操作员目视检查)。在大多数情况下,这些是固定摄像头,位于远离交通流、基础设施或无人机的地方。
  • 测速摄像头:也称为交通执法摄像头。它们通常被认为是一种独立于用于测量速度的传感器(雷达、激光或视觉)来监测车辆速度的设备。即使是基于雷达或激光的系统,也总是有一个摄像头来记录车辆的图像,因此也就有了摄像头这个术语。在这种情况下,我们以最字面的方式使用术语“速度相机”,即用于测量速度的基于视觉的系统。他们的位置通常比交通摄像头更靠近交通流。

其他形式的输入数据包括车辆属性,如车辆类型、关键点、车牌尺寸等。摄像机校准在提供内部和外部参数方面发挥着关键作用。路段长度的先验知识揭示了对计算道路与摄像机之间的外在关系甚至车辆速度至关重要的信息。

2.2 检测与追踪

必须在所有可用图像中检测车辆或其一些代表性特征。随着时间的推移跟踪车辆或其特征对于获得速度测量值至关重要。可以采用不同的方法来处理这两项任务。

2.3 距离和速度估计

速度估计本质上涉及具有相关时间戳的距离估计。存在不同的方法来根据一些全局参考计算车辆的相对距离,以及最终计算车辆速度的不同方法。

2.4 应用领域

基于视觉的车辆速度估计是交通监控、预测和控制应用、速度执行以及自动驾驶或智能车辆的基本任务(图2中描述了不同的示例)。
2.4.1 交通监控:通过了解多个路段中所有车辆的速度,可以了解甚至预测道路的交通状态(流量、密度和速度),可用于各种不同的应用,如自适应交通信号控制、实时交通感知导航、交通堵塞、拥堵和事故检测,以及其他离线操作和规划场景,如基础设施增强。
2.4.2 速度执法:速度已被确定为道路交通伤害的关键风险因素,增加了道路交通事故的风险和后果的严重性。速度执法是减少事故的关键道路安全措施。如[7]所示,在测速摄像头附近,超速车辆和碰撞的减少率可达35%和25%。此外,执法力度或水平越高,事故减少量就越大。
根据国家的不同,超速驾驶者可能会被罚款、吊销驾照,甚至入狱。因此,速度估计技术必须非常准确。国家和国际计量或测量机构规定了必须满足的高精度标准,以允许使用测速相机来实施速度限制。最大允许误差(MPE)通常定义为:
M P E S ≤ { ± N , i f S ≤ 100 k m / h < N % , i f S > 100 k m / h (1) MPES\leq\begin{cases} \pm N,& if S\leq100km/h\\ 100km/h \end{cases}\tag{1} MPES{±N,<N%,ifS100km/hifS>100km/h(1)
其中S是车辆的实际速度,N是根据国家通常在1和3之间定义的值。由于用于测量距离的视觉传感器的固有限制,设计满足这些精度要求的基于视觉的车辆速度估计系统无疑是一个复杂的挑战。
2.4.3 自动驾驶车辆:估计周围车辆的相对距离和速度的能力对于高级驾驶员辅助系统和自动驾驶至关重要。从简单的自适应巡航控制(ACC)系统,到交通堵塞辅助系统和司机系统(其结合了ACC停车和起步系统和车道保持辅助系统),再到复杂的高速公路司机或自动驾驶系统(包括超车等复杂操作),目标车辆的精确定位和相对速度的估计是低级控制系统使用的基本变量。基于视觉的方法已被广泛用于处理车辆检测,使用平面世界假设、立体视觉或通过将相机与雷达或激光雷达等基于距离的传感器相结合。尽管自动驾驶汽车的车速估计不在本次综述的范围内,但大多数分析的方法都可以扩展到移动平台上使用。

3 分类

在这项调查中,超过135篇与基于视觉的车速检测相关的论文得到了评估。为了提供书目参考文献的一致编号,这些参考文献按照年份时间顺序提供。所提出的分类法分解了速度检测的问题,包括所涉及的所有组件、方法和实验细节(参见图3的总体概述)。我们从输入刺激开始,解释相机设置和校准程序如何影响后续步骤。接下来,我们分析了涉及的所有步骤,从车辆检测和跟踪到距离和速度估计。最后,我们讨论了评估速度测量精度的不同方法。
一方面,所提出的分类法旨在作为从高层角度(例如从业者和决策者)理解主要要素和问题的基础。另一方面,它旨在成为制定未来研究方法的工具。
3.1 应用领域
第一种分类与设计用于速度强制的精确系统(速度相机应用领域)的尝试直接相关[13、17、18、32、33、39、41-43、51、53、54、61、65-68、70、72、74、76-78、80、82、84-86、94、100-102、107、108、112、114、119、122-125],或者仍然可以用于交通速度估计的不太精确的方法(交通摄像头应用场景)[12、14-16、19-31、34-38、40、44-50、52、55-60、62-64、69、71、73、75、79、81、83、87-93、95-99、103-106、109-111、113、115-118、120、121、126-129]。尽管在某些情况下,有人声称准确的速度检测是有目标的,但一些方面,如相机的低分辨率、有限的实验评估或缺乏适当的标准值,使我们将这些手稿归类为交通速度系统。
通过这种分类,在图4中,我们展示了按年度发表的论文的分布。可以看出,出版物数量的总体趋势是上升的,专注于精确速度检测以执行速度的论文数量远远低于专注于交通速度检测的论文数量。
3.2 摄像头设置
这一类别涉及摄像机固有(传感器尺寸和分辨率、焦距)和外在(相对于路面的位置,包括基于无人机的摄像机)参数,以及摄像机数量(单声道、立体声或多个)。根据这些参数,投影在图像平面上的真实场景可以表示沿短或大路段的一条或多条车道。根据这种配置以及车辆相对于摄像机的相对位置,我们最终得到了一个最重要的变量:米像素比,即每个像素所代表的路段部分。该比率越低,估计距离和速度的精度越高。由于透视投影模型,该比率与距相机距离的平方成正比,这意味着在远距离进行的测量精度非常低。请注意,我们省略了集成细节,如摄像机的准确位置、锚固系统、龙门架、电杆或桥梁的类型等。这些特征在综述的论文中很少提供。
3.3 摄像头校正
为了提供真实世界坐标中的测量,需要精确估计相机的内在和外在参数。最常见的方法是执行软校准,即内在参数在实验室中校准或使用传感器和透镜特性近似,使用手动[17、28、31、35、37、47、54、59、66、67、70、74、76、80、83、86、91、92、94、100、109、110、117、119、121、125、128、129]或自动程序[77、90]获得外部参数(道路平面和相机之间的刚性变换)。硬校准涉及到与已经安装的相机共同估计内部和外部参数。也可以手动[20、38、58]或自动[12、14、18、19、23、33、78、85、88、101、108]执行。在一些有限的情况下,摄像机校准被忽略[13、15、16、21、22、24-26、30、32、34、39-41、43、44、46、48-53、55、56、60-65、69、71、73、81、84、95、103-107、111、113、118、120、124]。
3.4 车辆检测
由于摄像机大多是静态的(无人机摄像机除外),在大多数情况下,车辆检测是通过建模和减去背景来实现的[12-15、18、20-28、30、32、34-37、40、42-44、47、48、50、51、53-55、61-63、65、71-75、81、83、84、86、92、93、95、102、103、108、110-113、117 118、121]。其他方法是基于特征的,例如,检测车牌[31、41、49、60、66、68、70、76、77、80、82、94、122、125]或车辆的其他特征[38、39、45、49、57-59、69、71、79、87、91、95、96、98、99、110-112、116、117、123]。最近,基于学习的方法在图像中识别车辆的使用越来越多[19,85,88-91,98,100,101,104-106,115,120,126-129]。
3.5 车辆追踪
车辆具有平滑和稳定轨迹的能力是处理车辆速度检测的关键问题。我们可以将车辆跟踪分为三类。首先,基于特征的[17、19、20、22、31、33、37、38、45、51、53、55、58、59、61、62、69、71、74、79、85、88、91、92、93、97、112],其跟踪车辆的一些特征集(例如,光流)。第二,这些方法专注于跟踪斑点的质心或车辆的边界框[25、34、35、40、48、50、52、56、65、72、73、75、83、86、95、103、106、111、118、121、122]。最后,这些方法侧重于跟踪整个车辆[15、16、18、26-30、32、36、42-44、47、54、57、63、78、81、84、89、91、98、102、104、105、108、109、111、113、114、120、125、128、129]或其特定部分(如车牌[41、49、60、66、68、70、76、77、80、82、94、100、125])。
3.6 距离估计
对于单目系统,车辆距离的估计通常使用一组约束条件来计算,例如平坦道路假设,包括基于单应性[15、16、18、20、22、34、37、52、53、61、66、94、98、99、110]和使用增强入侵线、模式或区域[19、20、23、24、26、32、38、47、79、86、87、107、124]的方法,或者通过使用关于一些物体的实际尺寸(例如车牌[41、49、60、66、68、80、125]或车辆尺寸[42、62、78、103])的先验知识。当使用立体视觉时,这些限制得到缓解[42,60,61,74,80,92,100,112]。
3.7 速度估计
在少数情况下,检测车辆速度的问题被提出为检测路段上的交通速度的问题,即直接获得平均道路速度值[12、17、20、23、32、34、38、40、42、51、53、54、58、61、69、77、79、80、81、84、85、94、102、105、110、113、121]。然而,在大多数情况下,检测是在单个车辆的水平上进行的。需要关于相机的帧速率或每个图像的精确时间戳的先验知识来计算测量之间的时间。使用连续[14,18,19,22,25,33,35-37,41,46,48,50,55,65,67,68,71-76,78,82,83,85,88,89,92,96,100,103,120,129]或非连续[15,24,26,28,30,31,43,44,47,49,52,59,66,70,71,86,87,93,95,99,106-108,111,118,124,125,128]图像来估计速度是一个基本变量,对准确性有很大影响。如何整合所有可用测量(瞬时、平均、最佳等)也是影响测量最终精度的关键因素。
3.8 基准值生成
为了评估不同车辆速度估计方法的准确性,需要实际车辆速度的适当基准值。令人惊讶的是,有相当数量的研究报告没有将其结果与使用更高精度系统获得的参考进行比较。这就提出了有关所提结果有效性的问题。
如图3所示,用于计算基准值的技术包括:汽车测速仪、雷达或激光等基于距离的技术、包括标准GPS、GPS里程表和DGPS在内的基于GPS的技术、挡光板和压电或感应式路面传感器。
尽管这更多是一个技术问题,而不是科学问题,但摄像头和其他传感器的数据同步是一个关键而复杂的问题。传感器通常位于不同的地方,具有独立的记录系统,并且具有不同的采样频率。

4 摄像头设置与校准

4.1 摄像头设置
相机设置直接影响速度估计方法的准确性。首先考虑的分类是摄像机位置,包括无人机摄像机[25、30、57、62、64、69、96、104-106、126],以及可根据其高度大致分类为远处(≥5m)或近处(<5m)交通摄像机的交通摄像机。在某些情况下,摄像机位于道路一侧,提供车辆的侧视图[13、21、26、33、39、73、112、118]。大多数工作都基于单眼系统,但我们也可以找到一些基于立体[42,60,74,100,112]和非立体多相机[61,80]设置的方法。尽管大多数方法都基于带有CCD或CMOS传感器的传统相机,但我们可以使用基于事件的相机[16,17],基于生物启发传感器[147]找到一些工作。
考虑到相机分辨率,人们可以预期随着时间的推移,像素分辨率会逐渐增加,这主要是由于硬件的进步。然而,事实并非如此,许多现代工作(自2010年以来,我们有[32-35、42-45、52、54、67、71-73、79、83、87、97、103、117])的分辨率低于或等于640×480像素(VGA)。分辨率不仅影响图像处理检测技术的准确性,还影响距离估计的准确性。分辨率越高,米像素比越低。
焦距也是一个基本参数,通常与摄像机的高度、路段的长度和视野所覆盖的车道数相关。如第6.1节和第6.3节所述,对于特定的相机高度,焦距越大,距离和速度测量的精度越高。
大多数作品使用中低焦距(≤25mm),因为它们设计用于覆盖多个车道和大的道路延伸。只有少数作品含蓄或明确地强调了需要长焦距以提高速度估计的准确性,即使系统仅覆盖一条车道[23、31、53、61、68、70、76、77、80、82、107、124]。
因此,根据相机内部和外部(相对于道路的位置)参数,我们最终将不同的场景投影到图像平面中。如图5所示,我们可以大致定义三种类型的场景:

  • 高米像素比(图5.a):采用中低相机分辨率、低焦距、高相机高度、覆盖长路段、多车道和双向获得。例如[12、15、19、22、27、36、48、74、75、81、88、121、128、129]。
  • 中等米像素比(图5.b):采用中等高相机分辨率、中等焦距、中等相机高度,覆盖中等路段、多车道和仅一个方向。例如[18、41、42、45、54、61、76、82、93、108]。
  • 低米像素比(图5.c):通过高相机分辨率、高焦距、低相机高度、覆盖短路段、一个或两个车道和仅一个方向获得。例如[23、31、53、68、70、77、80、107、124]。
    4.2 系统校正
    精确的相机校准对于基于视觉的物体距离和速度估计至关重要。无论是假设车辆沿着单目系统的平坦道路行驶,还是使用立体配置,从像素坐标获得准确的真实世界测量值的能力在很大程度上取决于准确的系统校准。对于单目系统,针孔相机模型提供了描述图像平面 ( u , v ) (u,v) (u,v)中2D像素之间的几何关系的一般表达式和一个三维真实世界坐标系 ( X w , Y w , Z w ) (X_w,Y_w,Z_w) (Xw,Yw,Zw),在这种情况下,放置在道路平面上,并假定为平坦的道路形状:
    [ s u s v s ] = [ f x 0 c x 0 f y c y 0 0 1 ] [ r 11 r 12 r 13 t x r 21 r 22 r 23 t y r 31 r 32 r 33 t z ] [ X w Y w Z w 1 ] (2) \begin{bmatrix} su \\ sv \\ s \end{bmatrix} = \begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y\\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} r_{11} & r_{12} & r_{13} & t_x \\ r_{21} & r_{22} & r_{23} & t_y \\ r_{31} & r_{32} & r_{33} & t_z \end{bmatrix} \begin{bmatrix} X_w \\ Y_w \\ Z_w \\ 1 \end{bmatrix}\tag{2} susvs = fx000fy0cxcy1 r11r21r31r12r22r32r13r23r33txtytz XwYwZw1 (2)
    其中 f x f_x fx f y f_y fy分别是沿相机x轴和y轴的焦距, c x c_x cx c y c_y cy表示图像光学中心。这些是可以在本征矩阵K中表示的本征参数,其假设图像的失真已经被适当地校正(注意,使用大焦距显著地减少了失真的影响)。旋转和平移参数可以分组为3×3旋转矩阵R和3×1平移向量T。
    单眼相机校准问题是估计K、R和T的问题。如第3.3节所述,如图6所示。在处理用于车辆速度估计的摄像机校准时,应用了两种主要方法。首先,软校准(图6.a),使用校准模式(如棋盘)或假设数据表中提供的参数(传感器分辨率、像素大小和焦距)在实验室中估计K,然后在现场计算[R,T]。第二,现场计算K和[R,T]的硬校准(图6.b)。
    在操作环境中计算相机外部参数的最常见方法之一是使用消失点[12、14、15、19、22、23、27、33、42、85、88、89、91、108]。当投影到图像平面时,三维真实世界坐标系中的一组平行线在唯一的二维点相交。这一点通常被称为消失点。在这种情况下,明显的一组线是道路标记(包括实线和虚线车道线)和通常具有高对比度的道路边缘。消失点的位置允许计算旋转矩阵R。然后使用图像中某些对象或区域的真实世界维度的知识来获得平移矩阵T。执行外部参数校准的另一种常见方法是使用道路平面上存在的已知几何静态特征,然后计算单应性变换,该变换包括旋转、平移和缩放[31、38、47、66、67、70、72、75、79、82、86、87、98、99、110、113、119、121、128、129]。这些静态特征的尺寸、距离、长度等必须事先知道。这可能涉及需要停止交通以访问操作环境并进行直接测量或使用某种间接方法(例如,使用激光扫描仪,甚至谷歌地图)。
    可以通过使用放置在道路平面上的标准(例如棋盘)或ad-hoc校准模式[17、18、37、58、59、68、76、80、100]来解决获得相机的内在和外在参数的硬校准问题。该技术的主要缺点是需要暂时停止道路或车道上的交通。只有少数方法以自动方式处理内在和外在参数的校准。最常见的方法是从两组或三组相互垂直的平行线计算两个或三个正交消失点[133]。如[134]中所述,这些消失点可以从场景中存在的静态和移动(在这种情况下是车辆)元素中提取[23,33,85]。在[77]中,随时间追踪的车牌被用作校准模式,以硬校准系统。大多数复杂的方法将细粒度分类与车辆关键点/姿态检测[136]相结合,以确定特定的车辆品牌和模型[135](因此,它们的真实尺寸),从而执行软[90]或硬[101]系统校准。
    无论在校准中使用何种方法,无论是计算平移向量还是完整的单应性,都需要先验地了解真实世界中某些特征/对象的尺寸。事实上,计算从像素到真实世界坐标的所谓比例因子(m/px)是使用单眼系统处理距离和速度估计时需要解决的关键问题之一。最常见的特征是手动测量的路段/区域的道路/车道宽度或长度[19、24、38、47、54、64、66、67、72-75、79、82、84、87、88、89、98、101、107、113、128、129],先前已知物体的大小,例如车辆[27、62、78、85、90、103、105、106、110、117]或车牌[60、66、68、70、80、94、133],以及车道标记的长度和频率[14、20、22、23、26、61、65、78、108、119、121]。
    最后,我们必须考虑基于立体的方法,这些方法在实验室或现场使用标准立体校准技术和模式进行硬校准[60,74,92,100,112]。除了每个摄像机的固有矩阵K之外,立体系统还需要计算基本矩阵,其中包括从一个摄像机到另一个摄像机的外部变换。由于立体系统能够从两幅图像中的2D像素获得3D真实世界测量值(在解决对应问题之后),因此无需计算道路平面和摄像机之间的外部变换,但在任何情况下,都可以手动计算[137]或自动计算[138]。

5 车辆检测与追踪

本节简要概述了用于测量车速的各种基于视觉的车辆检测和跟踪方法。然而,作为车速检测系统的第一阶段,用于处理车辆检测和跟踪的技术实际上与用于交通监控应用的技术相同。因此,我们参考[4]对不同方法进行更深入和具体的分析。
5.1 车辆检测
5.1.1 静态背景:除了基于无人机的系统外,大多数方法都基于静态摄像头,由于存在静态背景,因此车辆检测任务更加容易。我们甚至可以找到大量应用最简单的逐帧方法和阈值方法来执行图像分割的工作[14,32,34,36,37,40,42,46,54,73,103]。执行车辆检测的最常见方法是基于背景减法[12、13、15、18、20-28、30、36、37、43、44、47、48、50、51、53、55、61-63、65、71、72、74、75、81、83、84、86、92、93、95、102、108、110-113、117、118、121],然后是一些形态学操作和斑点分析方法。不同的方法用于执行背景减法,包括基于灰度和颜色的方法、高斯混合模型[23、61、84、102]、自适应背景建模[51、111]等。在一些情况下,逐帧或背景减法与一些特征检测器(例如,边缘、角点或KLT特征)相结合[40、48、50、71、110]。
5.1.2 基于特征的:一些方法基于对在车辆区域内的区域中分组的不同类型的特征的检测,例如,在背景相减[38、39、57、99、110、111、116]之后,以及依赖于边缘[49、87、95]、灰度级特征[45、117、123]、二进制特征或图案[71、87、96]、角[79]的简单方法,SIFT/SURF特征[62,112]或KLT特征[58,59,69,91]。
5.1.3 车牌检测:尽管牌照的外观可能会因国家和车辆类型的不同而有所不同,但总的来说,它是任何车辆的同质和独特元素。事实上,检测到的车牌实际上不可能与车辆不相符,而且车辆在没有车牌的情况下过境也不太可能,因为这是全世界都会受到刑事处罚的事情。这使得车牌成为车辆检测系统非常有吸引力的目标[31、41、49、60、66、68、70、76、77、80、82、94、122、125]。因此,当摄像机分辨率足够大时,即从中等到低米像素比时,可以应用车牌识别(LPR)系统。LPR系统通常至少分为3个步骤:检测或定位、字符分割和字符识别。在这种情况下,为了检测车辆,只需要应用第一步,有很多方法(我们参考了关于该主题的多个具体综述[139140])。
5.1.4 基于学习的:与其他应用领域的情况一样,由于数据的可用性和机器学习的进步,基于学习的方法最近正在取得进展。虽然第一种基于学习的方法是在2007年[19]发现的,使用Boosting类型的方法(Adaboost,也在[120]中使用,这是唯一一种不基于深度学习的方法),但直到2017年,我们才看到这类方法在所有应用领域的统一使用,包括Faster R-CNN[85、88、90、98、101、106、128]和扩展版本Mask R-CNN[89],SSD(Single Shot MultiBox Detector)[100、128]和YOLO(You Only Look Once)探测器的不同版本,即YOLO[115]、YOLOv2[128、129]和YOLOv3[104、105、126]。在[91]中,提出了迁移学习来针对特定交通场景微调车辆检测模型。
5.2 车辆追踪
速度检测是一个多帧问题。一旦检测到车辆或车辆的某些部件/特征,通常会使用跟踪方法来过滤和平滑噪声检测。跟踪隐含地涉及解决数据关联问题(例如,匈牙利算法),特别是对于具有多个对象的情况[148]。一般来说,在描述不同的跟踪方法时,可以考虑两个主要维度。首先,就被跟踪的要素和/或部分的类型而言(方法),其次,就用于进行跟踪的具体方法而言(方法论)。
5.2.1 方法:主要车辆跟踪方法的视觉表示如图7所示。正如可以观察到的,我们可以将不同的方法分为四大类。首先,基于特征的方法将车辆跟踪问题作为特征跟踪问题。在大多数情况下,在应用背景减法或基于学习的方法之后,特征是车辆区域内的二进制或灰度值[20、37、38、45、51、61、74、85、92、93]。当跟踪被提出为光流问题时,通常考虑KLT特征或角点,分析车辆区域内的运动矢量[19、33、53、55、58、59、69、79、88、91、97]。其他跟踪的特征是二进制模式[71]、边缘[55,79]或SIFT/SURF描述符[62,75112]。
第二,我们可以找到专注于跟踪表示车辆的区域的质心的方法,该方法可以被视为轮廓(凸包或凹形)[48、65、72、73、111、121],或一些模型,例如轮廓的凸包[40]、椭圆[75]或拟合到检测到的斑点的边界框[34、35、50、56、83、86、95、103、106、118]。在任何情况下,使用质心作为车辆的代表状态都是非常不可靠的。一方面,大多数斑点检测方法都不太准确,并且由于多种因素(阴影、重叠、近距离物体等),车辆轮廓可能在序列中发生变化。这使得质心很少在时间上表示车辆的同一点。但即使在斑点检测非常精确(例如基于学习)的情况下,视角的变化也意味着影响质心位置的显著变化。只有在检测准确且视角变化不相关的非常特殊的情况下(例如,在基于无人机的系统中),才有理由使用这种方法。
第三组方法是使用车辆的整个区域(基于轮廓或边界框)来执行跟踪的方法。这是迄今为止使用最广泛的方法[15、16、18、26-30、32、36、42-44、47、54、56、57、63、78、81、84、91、98、102、104、105、108、109、111、113、114、120、125、128、129]。最后,许多方法集中于车牌的跟踪[41、49、60、66、68、70、76、77、80、82、94、100、125]。不知怎么的,这种方法不计算车辆的速度,而是计算车牌的速度,因为车牌的移动与车辆的移动是一致的,所以这种方法是完全等效的,完全有效的。
5.2.2 方法学:大多数工作通过模板、区域或特征匹配/相关方法解决了跟踪检测方法[15、17、18、20、25、31、32、34、38、40、42-45、47、48、50、51、55、56、62、71-75、81、83、86、91-93、98、102、105、106、111、112、118、120、121、125、128]之后的车辆跟踪问题,这些方法解决了数据关联问题(为每条轨道的每个对象关联唯一标识符),但不过滤被跟踪对象的状态。通过检测方法进行跟踪的一个特殊情况是车牌,因为它们允许使用光学字符识别(OCR)系统作为解决数据关联问题的支持,使跟踪系统更加稳健[41、49、60、66、68、70、76、77、80、82、94、100、125]。
使用KLT特征进行车辆检测后,通常跟踪KLT以检测光流[19、53、54、58、59、69、79、84、88、91、97、105]。该方法只能在图像之间的车辆位移很小时应用。正如我们将在第6.3节中看到的,这不适合获得准确的速度测量值。
贝叶斯滤波的使用仅限于经典的线性卡尔曼滤波器[22,27,61,65,78,85,104,109],其通常应用于恒速模型(不太适用于非常大的路段)。在[89]中,简单在线和实时(SORT)(基于卡尔曼滤波器)跟踪和扩展版本DeepSORT也被应用。

6 车辆距离与速度估计

6.1 基于摄像机的距离误差基础
相机是生成投影到2D平面中的3D世界的离散表示的传感器。考虑到光学中心和像素之间的立体角,真实世界坐标 A w A_w Aw中的面积随距离Z呈二次方增加:
A w = A p x Z 2 f 2 (3) A_w=\frac{A_{px}Z^2}{f^2}\tag{3} Aw=f2ApxZ2(3)
其中f是焦距, A p x A_{px} Apx是像素的面积。即使对相机的固有参数进行了完美校准,并且具有零像素定位误差,对于单目(例如,具有关于物体宽度的先验知识[80]或平坦道路假设[131])和立体系统[132],距离测量的不确定性或误差也会随着物体距离的平方增加。单目系统的距离误差可以公式化为:
Z e r r m = Z 2 f x Δ X n m (4) Z_{err_m}=\frac{Z^2}{f_x\Delta X}n_m\tag{4} Zerrm=fxΔXZ2nm(4)
其中 f x f_x fx是像素中x轴上的焦距, Δ X \Delta X ΔX是已知物体尺寸(例如,汽车[131]或车牌[80]的宽度), n m n_m nm表示像素检测误差。可以为立体声系统制定类似的表达式:
Z e r r s = Z 2 f x B n s (5) Z_{err_s}=\frac{Z^2}{f_xB}n_s\tag{5} Zerrs=fxBZ2ns(5)
其中B是相机之间的基线或距离, n s n_s ns是视差误差。
根据前面的表达式,我们可以得出结论,为了最小化物体或物体特征距离估计中的误差,需要:

  • 使用望远镜镜头(高焦距),因为误差随着焦距的增加而减小。
  • 在立体系统中使用大型立体基线,或在单目系统中使用尽可能大的已知尺寸的对象。
  • 避免在车辆远离摄像头时对其进行测量。物体越近,距离估计的误差越小。

图5所示的示例假设这些要求从较低(图5.a)到更高(图5.c)。
6.2 相对距离估计
6.2.1 基于立体的方法:在真实世界坐标系中测量距离是准确估计车辆速度需要解决的最关键问题。使用立体视觉时,这项任务很简单[42、60、61、74、80、92、100、112]。对于每个检测到的车辆,可以使用车辆区域中包含的像素的视差值直接获得相对距离。然而,如第6.1小节所述,立体系统给出的测量精度受到几个因素的影响,例如车辆相对于立体对摄像机的距离、摄像机之间的基线和视差误差。由于强烈的校准要求以及大多数已安装的交通摄像头都是单目系统,使用立体摄像头处理车辆距离估计的提案数量有限。
6.2.2 基于单目的方法:如第4.2小节所述,一些特征、物体或道路部分/路段的真实世界坐标中的尺寸的先前知识是使用单目系统估计距离的基本问题。这通常被称为将像素转换为真实世界坐标的比例因子。另一个常见要求是考虑平坦道路假设。
如图8所示,我们将基于单眼的距离估计方法分为三组。首先,基于入侵或扩增线或区域[19、20、23、24、26、28、32、38、47、59、79、86、87、99、107、124]。这些方法不需要校准摄像机系统,而是测量道路上两条或多条虚拟线之间的实际距离,或道路区域的实际大小(见图9)。然后,距离估计问题被提出为检测问题,其中每当所有车辆穿过预定义的虚拟线或区域时,都以相同的距离检测所有车辆。由于虚拟线或区域被放置在道路上,因此准确的距离估计涉及车辆某一部分的接触点的准确位置。车辆的这一部分在第二个位置应相同,以获得一致的速度估计。由于透视约束、空间(取决于相机分辨率和相机到车辆的距离)和时间(取决于摄像机帧速率和车辆速度)离散化问题、阴影等,这是一项需要解决的复杂任务。这些问题可以通过使用多条入侵线来缓解[20,107]。
第二,我们有那些基于单应性计算的方法,作为平面(道路)从3D投影空间到2D投影空间(相机图像平面)的线性变换。通过这种方式,可以将图像转换为鸟瞰图(BEV),也称为图像扭曲,其中像素位移可以直接转换为真实世界距离。这种方法最常用于固定系统[15、16、18、20、22、34、37、52、53、61、66、94、98、99、110]和基于无人机的[25、30、57、62、64、69、96、104-106、126]。如图10所示,并在第4.2小节中解释,单应性的计算涉及摄像机的内在和外在参数的校准以及场景某些部分的真实维度的先前知识。生成的扭曲图像认为所有对象都在道路平面上,这意味着车辆形状的变形。这并不特别重要,因为用于计算距离的点通常与车辆和道路之间的接触点相对应,尽管由于系统的角度和道路平面上运动的错误假设,这种假设并不完全准确,如图11所示。与使用入侵线相比,基于同形性的方法的主要优点是可以在道路上的任何点进行车辆检测,因此摄像机帧速率和车辆速度不会对距离估计产生负面影响。然而,需要非常精确的系统校准。
第三,我们有基于物体真实尺寸知识的距离估计公式的方法,包括车牌[41、49、60、66、68、80、125]和车辆[42、62、78、103]。一方面,基于车牌尺寸的方法对低米像素比和像素定位误差非常敏感。另一方面,基于车辆尺寸的此类方法需要应用细粒度汽车模型分类系统[135]来识别特定模型并使用其特定尺寸。
6.3 速度误差的基础
在一个简单的场景中,使用两个不同位置 Z 1 Z_1 Z1 Z 2 Z_2 Z2(表示一个直线段 Δ Z = ∣ Z 2 − Z 1 ∣ \Delta Z=|Z_2-Z_1| ΔZ=Z2Z1)计算一辆车的速度分别在时间 t 1 t_1 t1 t 2 t_2 t2 Δ t = ∣ t 2 − t 1 ∣ \Delta t=|t_2-t_1| Δt=t2t1)被检测到。该车辆的平均速度估计为:
v = ∣ Z 2 − Z 1 ∣ ∣ t 2 − t 1 ∣ = Δ Z Δ t (6) v=\frac{|Z_2-Z_1|}{|t_2-t_1|}=\frac{\Delta Z}{\Delta t}\tag{6} v=t2t1Z2Z1=ΔtΔZ(6)
考虑两个位置的距离估计误差 Z 1 e r r Z_{1err} Z1err Z 2 e r r Z_{2err} Z2err,在最坏的情况下,我们可以获得以下速度:
v ′ = Δ Z + Z 2 e r r + Z 1 e r r Δ t (7) v'=\frac{\Delta Z+Z_{2err}+Z_{1err}}{\Delta t}\tag{7} v=ΔtΔZ+Z2err+Z1err(7)
导致绝对速度误差为:
v e r r = ∣ v ′ − v ∣ = ∣ Z 2 e r r + Z 1 e r r ∣ Δ t = ∣ Z 2 e r r + Z 1 e r r ∣ Δ Z v (8) v_{err}=|v'-v|=\frac{|Z_{2err}+Z_{1err}|}{\Delta t}=\frac{|Z_{2err}+Z_{1err}|}{\Delta Z}v\tag{8} verr=vv=ΔtZ2err+Z1err=ΔZZ2err+Z1errv(8)
相对速度误差等于:
v e r r v = ∣ Z 2 e r r + Z 1 e r r ∣ Δ Z (9) \frac{v_{err}}{v}=\frac{|Z_{2err}+Z_{1err}|}{\Delta Z}\tag{9} vverr=ΔZZ2err+Z1err(9)
我们可以将等式(8)和(9)中的等式(4)或(5)合并,以看出速度误差与摄像机到车辆的距离的平方成正比,这明显强化了车辆应尽可能靠近摄像机进行速度测量的要求。此外,等式(8)和(9)揭示了路段尺寸在速度估计精度中的重要性。也就是说,距离的二次惩罚随路段长度线性补偿,对于远大于距离误差的路段,这导致速度误差随车辆的相对距离线性增长。这是平均车速摄像头如此精确的主要原因。这些系统基于相距数公里的两个摄像头。为了满足等式(1)的要求,测量相对车辆距离时的误差可以是几米,并且仍然保持相对速度误差在1−3%的范围内。
在固定速度摄像机的情况下,使用尽可能大的路段的主要问题是,我们将考虑远距离测量,速度误差会受到上述惩罚。按照[80]中提出的程序,如果我们根据相对车辆距离对等式(8)进行微分,则可以在速度误差尽可能小的情况下获得道路路段的最佳值。当使用一个相机时,这段最佳道路可能超出图像平面的限制。这就是为什么[80]中提出了具有不同焦距的双摄像头系统,类似于[61]中提出的系统,但指向更近的距离。
用于计算车速的路段大小也与测量间隔时间直接相关。因此,当使用连续图像时,即使在低相机帧速率下,线段 Δ Z \Delta Z ΔZ的长度也可能与距离误差 Z e r r Z_{err} Zerr的数量级相同,因此几乎不可能获得准确的速度测量值(见图12)。
总之,我们可以提出以下要求以将速度误差降至最低:

  • 当车辆靠近摄像头时,使用车辆的距离测量。
  • 避免使用短截面的连续测量。
  • 如果可能,使用最佳路段将速度误差降至最低。
  • 如果最佳路段落在图像平面之外,则使用可能的最大道路延伸。

其他误差来源包括违反平坦道路和恒定速度假设,这在测量长距离道路上的速度时尤其重要。
6.4 速度计算
6.4.1 交通和独立车辆速度:如所提出的分类法中所述,第一个可能的分类是指应用程序域。一方面,我们有这样的方法,重点是测量路段上所有车辆的平均速度,或其中每辆单独车辆的测量速度的准确性不那么重要,因为它们打算用作交通速度测量系统(具有允许更高误差裕度的应用环境)[12、17、20、23、32、34、38、40、42、51、53、54、58、61、69、77、79、80、81、84、85、94、102、105、110、113、121]。我们发现的其他方法都是基于获得每辆车的精确速度。显然,当这些方法基于覆盖道路所有车道的系统时,它们可以用于获得交通的平均速度。
6.4.2 测量之间的速度距离:一旦计算了车辆或其一部分的相对距离,速度计算就涉及到公式6的应用。因此,第一个要求与每个测量(或图像)关联特定时间戳有关。可以使用关于相机帧速率的先验知识。然而,为每个记录的图像或从记录系统时钟中获取的测量包括特定的时间戳(可以使用NTP服务器对其进行全局和精确的同步[80])更为准确和稳健。
根据车辆和道路的摄像机姿态以及车辆的速度,每辆车都有一组N个测量值。要做出的第一个决定是使用测量之间的距离来获得速度值。
令人惊讶的是,与第6.3小节中描述的证据相反,大多数工作建议使用连续测量(在第t帧和第t+1帧)来计算每辆车的速度值[14、18、19、22、25、33、35-37、41、46、48、50、55、65、67、68、71-76、78、82、83、85、88、89、92、96、100、103、120、129]。如图12所示,该技术倾向于提供噪声值,因为距离误差与车辆行驶距离的数量级相同。在使用非连续图像的情况下,我们区分了几种技术。首先,使用测量之间的固定距离或区域(例如,使用侵入线或区域的方法)[19、20、23、24、26、28、32、38、47、59、86、87、99、107、124]。第二,在测量之间使用预定义数量的帧[15,52,93,108,111,125]或固定时间间隔[31,49,111](它们是等效的)。其他方法使用履带车辆的第一次和最后一次检测之间的最大可能距离[43、44、66、70、79、118、128]。最后,我们可以识别利用两个不同摄像机[80]或无人机摄像机[106]的不同视图进行车辆检测的几种技术。
6.4.3 度量集成:一旦计算了车辆的所有N个速度值,接下来要做的决定是如何整合所有测量值以计算最终车辆速度。注意,基于虚拟入侵线或区域[19、20、23、24、26、28、32、38、47、59、86、87、99、107、124]的所有方法都基于单次计算(N=1),因此严格来说,不应用测量的积分。这种方法通常被称为平均速度检测。
大多数方法执行瞬时速度检测,即计算车速并将其作为每对测量的输出(使用等式6),无论是连续的还是非连续的[18、25、33、43、44、55、56、57、60-64、66、67、70-76、79、82-84、88、93、95-97、100、103、108、111、112、115-118、120、128]。在某些情况下,使用不同的技术对瞬时速度进行滤波,例如移动平均[98]、多项式滤波[129]或使用特定跟踪器(例如卡尔曼滤波器)[19、22、53、59、65、78、84、89、104]。
另一种常见的方法是计算所有可用(N)速度测量值的平均值[12、17、20、23、27、34、38、40、42、45、51、53、54、58、69、77、80、81、85、92、94、102、105、110、121、125]。在[80]中,仅使用对应于最小系统速度误差的最佳速度值来计算平均值。
6.4.4 其他方法:虽然这是一种不常见的方法,但我们发现了一些使用扩展相机快门来生成车辆运动模糊的方法,这些方法可以通过分析从侧视图获得车辆的速度[13,21,39]。
在[119]中,从在预定义区域中应用的帧差的结果获得投影直方图。最后选择一组钥匙箱来表示车辆运动,并逐一测试所有可能的速度。
最近,我们可以找到一些基于端到端深度学习方法的数据驱动方法,将速度检测问题作为回归问题。例如,在[113]中,使用来自模拟器的动画图像(双车道路段的俯视图)和由循环一致对抗网络(CycleGAN)生成的合成图像来训练两个不同的卷积神经网络。使用标准卷积架构,输出全连接层大小为1(对应于道路的平均速度)。在[114]中,车辆速度估计被处理为使用3D ConvNets的视频动作识别问题。最后,[127]中提出了模块化神经网络(MNN)架构,以执行车辆类型分类和速度预测。在所有这些情况下,输入序列对应于具有多个车道和车辆的一段道路,因此它们更适合于交通速度检测(仅当图像序列中存在一辆车辆时才可能进行单独的车辆速度估计)。

7 数据集与评估标准

7.1 基准值生成
为了确定执行基于视觉的车辆速度检测的各种方法的准确性,必须具有适当的基准值。正如我们在第3.8小节中总结的那样,有多种方法和技术可用于获取摄像机捕捉到的车辆的实际速度。在这些技术中,使用最多的是集成在车辆中的速度表[31、35、38、42、47、79、83、84、93、96、104、106、110、112],尽管这不是最准确的方法。它们受到轮胎尺寸或压力等外部因素的极大影响,因为该技术包括直接测量轮轴或变速箱轮轴的转速,然后将其转换为km/h。此外,汽车制造商通常会对这些速度计的测量结果有偏差(高估)。
其次,我们可以找到基于GPS的(全球定位系统)技术,这些技术可以分为标准GPS[22、33、41、48、100、107]、GPS里程表[65、66]和差分GPS[58、64、80]。这些技术的主要区别在于获得测量值的方法。GPS和DGPS都提供全球位置测量,通过这些测量可以计算速度,同时考虑测量之间的时间差。在DGPS的情况下,一些具有已知全球坐标的固定支持站有助于校正卫星返回的测量值。另一方面,GPS里程表直接返回速度值。在这三个系统中,最精确的是DGPS,其精度可达几厘米。
在文献中可以找到的其他基准实况生成系统是基于距离的传感器,例如雷达[18 54 76 108 119]或激光雷达[68、76、94],包括测速枪[36、51、72、74、76、113]和挡光板[16、17、114]。基于雷达的传感器使用无线电波来确定物体的距离和速度。来自发射器的无线电波从车辆反射并返回接收器。最常见和最著名的雷达类型是基于多普勒效应。另一方面,基于激光雷达的技术能够通过用激光照射车辆并测量反射来测量距离。然后利用激光返回时间和波长的差异来精确计算距离。车速枪是一种基于雷达或激光技术的手持设备,设计轻便便携。它们也可以安装在三脚架上,以避免手部移动。光屏障在发射器-接收器系统中使用光束,该光束用于以小于10厘米的精度检测车辆侵入屏障。这些系统的主要缺点是多车道场景中车辆之间的闭塞。
最后一种用于生成车辆速度基准值的技术是在路面传感器中,其中我们可以区分感应回路和压电传感器,感应回路由一个电路组成,当车辆的金属块经过时感应电流,压电传感器在受到外部机械力时发电。在这两种情况下,速度计算均使用电路中产生的电流[53、77、82、125、128]进行。
最后,相当多的工作没有将其车辆速度检测结果与适当的基准值进行比较,这使得不可能知道其方法的实际精度[12-15、19-21、23、25-28、34、37、39、40、43-46、49、50、52、55、56、59-63、67、70、71、73、75、81、86-89、95、99、105、111、117、118、120、121]。
7.2 可用的数据集
尽管车速检测是一个广泛研究的课题,但与其他研究领域相比,可用数据集的数量非常有限。在表1中,我们概述了发现的数据集及其主要特征。
近年来,用于交通和车速检测的最广泛的数据集是AI城市挑战[88,89,91,98]。这是NVIDIA提出的年度挑战的一部分,每年提供的视频和样本数量都有所不同。具体而言,2018年,它由三个视频曲目组成。第一个包含27个一分钟的序列,分辨率为1920x1080像素,每秒30帧。第二首曲目包括100个15分钟的序列,分辨率为800x410像素,每秒30帧。最后一首曲目包含15段视频,长度在半小时到一小时半之间,1080p,每秒30帧。所有这些视频都是在正常交通情况下录制的,例如高速公路或交叉口的米像素比非常高,这使得它们不适合精确的车速检测。事实上,没有提供基准值。
另一个数据集是BrnoCompSpeed[85,123],它包含18个视频,分辨率为1920x1080像素,每秒50帧,包括超过20000辆标记车辆。使用基于激光的光屏障系统提供速度地面真相。这些序列是在实际交通情况下以高的中等米像素比记录的。可以使用适当的校准参数。
可用的米像素比最低的数据集是由巴拉那联邦理工大学生成的数据集[53,82,122](我们将此数据集称为UTFPR数据集)。它包含一台摄像机在不同天气条件下拍摄的长达5小时的视频,覆盖三条车道,并通过感应环路探测器获得相关的基准真实速度,感应环路探测器经过适当校准并经巴西国家计量机构批准。这些图像的分辨率为1920x1080像素,以每秒30帧的速度拍摄。数据集的场景对应于最大速度限制为60km/h的城市环境。
其他未专门设计用于车辆速度检测的数据集包括QMUL路口数据集[103],该数据集包含1小时25 fps的十字路口真实交通图像,分辨率为360x288;中国北航汇编的数据集包含70张无人机拍摄的高速公路真实交通图像(分辨率为960x540[69])。在这两种情况下都没有基准真实速度。
7.3 评价指标
为了测量系统产生的速度误差,有必要使用度量来明确评估其准确性。最常用的度量是绝对或相对平均绝对误差(MAE),以百分比表示[16-18,31,32-34,41,48-50,65-68, 70, 72, 74, 79, 80, 83, 85, 92, 99, 102, 104, 106-108, 110-114, 117-120, 124, 125, 129]. MAE通常具有其他变量,例如标准偏差或其他统计度量,以限制速度估计系统的精度。
除了MAE,我们可以找到其他度量[14,15,19,24,77],其中计算数学函数的总误差,包括并建模速度检测系统的误差源,例如像素检测误差、长度测量误差或相机校准误差。利用这些已知误差,以及一些误差传播技术,例如使用偏导数的不确定性传播,可以准确地获得总系统误差。
最后,在几项工作中提出了均方误差(MSE)和均方根误差(RMSE)的使用[38,40,64,74,82,88-92,98,100-102,105,113,114,116,129]。MSE/RMSE使用这两个值之间的平方差之和来测量估计值与所测量值的实际值之间的“距离”。在一些工作中,该方法用于测量相对距离误差,最后测量速度误差,即实际值(基准真实值)与计算值之间的绝对差。

8 讨论

如图4所示,使用计算机视觉技术处理车辆速度估计的提案数量显著增加。这可以通过两个因素的组合来解释:准确有效的车速检测对于限速执法和交通监控的重要性日益增加,以提高道路安全和改善交通状况,以及计算机视觉领域的最新进展。然而,在本文进行了深入分析之后,我们可以指出,与其他应用环境相比,解决这一特定问题的一套计算机视觉方法仍然有些落后,还有很长的路要走。由于对精度和鲁棒性的严格要求的挑战,这尤其适用于速度强制的情况。
在下文中,我们总结并讨论了最新技术,重点分析了四个要点:照明/天气条件、基准、最佳实践和数据驱动挑战。
8.1 照明/天气因素
除了一些例外情况[48],车辆速度的检测已在良好的照明(白天)和天气(大部分是晴天)条件下进行。这表明该主题的成熟度仍然不够。车速检测应能应对恶劣的天气条件,包括雨天、雾天和雪天,因为在这种情况下,车速执法和交通管理非常重要。可以识别天气条件[141],可以消除或减轻恶劣天气对图像的影响[142],并且可以调整车辆检测和跟踪方法来处理复杂的天气条件[143]。
由于能见度条件差、模糊和车辆前照灯眩光,处理夜间场景也非常具有挑战性。可以应用特定的夜间车辆检测方法[144,145]来处理车辆速度检测。此外,红外照明的使用非常有用,特别是对于那些基于车牌检测和跟踪的方法,因为它使车牌的检测和分割更加容易。
因此,我们可以推断,在具有挑战性的照明和天气场景中,基于视觉的准确车速检测是未来研究的坚实基础。
8.2 基准
为了评估和比较车辆速度估计方法的准确性,需要适当的公共数据集,至少包括不同的测试场景(具有不同的米像素比)、各种类型的车辆和各种速度(包括超速情况)。更高级的功能包括多重照明(白天/夜间)和天气(晴、多云、下雨、雾和雪)条件。
正如已经描述的,尽管发表了大量论文,但围绕这一主题的可用数据集数量非常有限。一方面,这表明该主题的成熟度仍然很低。另一方面,这也可以解释为数据记录和标记过程的高复杂性和成本。事实上,除了上述条件之外,数据集还必须包含每个车辆的适当标签,包括序列中所有图像的车辆位置或其任何特征或区域,以及从某些精密系统(例如,基于测距的传感器、DGPS、感应环路检测器等)获得的速度值(基准值),这些系统的测量值必须与摄像机捕获的图像适当同步。
数据集必须按照第8.3小节中描述的最佳实践生成。还应为每个测试场景提供适当的系统校准参数(内部和外部)。要标记的其他有用变量可以是车辆类型,甚至是品牌和型号。
基准测试还涉及准确度指标的良好定义。除了使用MAE或MSE/RMSE度量外,决定度量公式也很重要,即,从一组连续或非连续帧中瞬时或平均,或从固定区域中单次拍摄。该公式将严重依赖于用于获得基准值的方法,并且在测量某些方法的性能时可能存在局限性。例如,如果我们在两个不同的位置使用挡光板,则无法正确评估瞬时速度检测方法。
上述困难不应阻碍研究人员,因为基于视觉的车速检测的进展在很大程度上取决于具有上述特征的公共数据集的可用性。与这个问题相关的未来研究项目应该分配足够的资源来创建这些数据集。
8.3 最佳方法
缺乏适当基准的证据可以通过以下声明来说明:我们没有发现一项工作能够与多种方法进行实验性比较。这是我们无法将方法分类与它们的性能联系起来的原因之一。在这个阶段,我们可以评估未来研究的最佳实践,但遗憾的是,我们无法评估不同车速检测方法的实际性能。
根据第6.1和6.3小节中描述的基于视觉的距离和速度估计误差的基本原理,确定了一组必须满足的要求,以尽可能准确地解决车速检测问题。一方面,建议设计一种系统,通过使用高焦距镜头、立体声系统的大基线、高分辨率相机,并尽可能接近地获得车辆的距离测量值,从而提供尽可能低的米像素比。另一方面,为了使速度误差最小化,重要的是避免使用连续帧来计算速度值,在可能的情况下使用最佳路段,或者如果单个摄像机无法获得最佳路段,则使用道路的最大可用路段。
尽管在使用计算机视觉技术解决车辆速度检测问题方面取得了重大进展,但令人惊讶的是,这些要求在所综述的大多数论文中都没有给出。然而,我们认为,未来的方法应该考虑到这些因素,以便开发准确、可靠的基于视觉的车辆速度解决方案。
8.4 数据驱动的挑战
基于数据和学习的方法在其他领域产生的影响,在车速检测领域肯定没有发生。直到最近,我们才发现了一些解决这种方法的工作,并取得了初步结果。当前的主要限制是需要比当前可用的数据多得多的数据。基于机器学习的方法,尤其是基于深度学习的方法需要大量的数据来训练能够解决和概括输入视频序列的回归问题的复杂模型。
我们可以预见,这个问题的一个可能解决方案是使用模拟器(例如,自动驾驶模拟器)生成的合成数据集,因为它们允许从多个场景中获得几乎无限的样本,具有不同的相机设置(内在和外在),并绝对控制所涉及的所有模拟变量(车辆类型、速度等),包括不同的天气和照明条件并且不需要手动标记。主要挑战将是最大限度地减少众所周知的模拟-真实差距,即用合成数据训练的模型对真实世界场景的适用性。
另一个限制是基于用于向模型提供输入刺激的格式。目前,只有少数数据驱动的提案使用了单个车辆以静态背景出现的序列。问题是如何为多个车道中的多个车辆提供输入数据。正如将视频动作识别方法应用于车道变化分类[146]时所发生的那样,需要结合某种类型的过程,以生成具有足够空间和时间信息的感兴趣区域(ROI),从而能够学习区分不同类型车辆和场景的不同速度。该问题也可以通过使用具有非常低的米像素比的系统配置来缓解,该系统配置聚焦于单个道路车道。
预计在未来几年中,基于学习的车辆速度检测提案的数量将增加。

9 结论

本文对基于视觉的车辆速度估计问题进行了全面分析。我们回顾了最重要应用领域的可用文献:交通监控(交通摄像头)和限速执法(速度摄像头)。提出了一种新的分类法,该分类法基于基于视觉的速度检测系统的主要组件,包括摄像机设置和校准、车辆检测和跟踪、距离和速度估计、应用领域和基准值生成。我们详细回顾了使用计算机视觉进行车辆速度估计的最相关工作。最后,我们讨论了现有技术的局限性,并概述了研究界应对这一挑战性问题的最重要和必要的未来步骤。
最重要的应用领域是限速执行、交通监控和控制,最近还有自动驾驶汽车。

你可能感兴趣的:(综述文章,自动驾驶,人工智能)