目录
摘要
1、引言
2、文献综述
2.1 影响交通标志识别的外部因素
2.2 相关算法
3 我们的方法
3.1暗通道先验去雾算法
3.2 引导图像过滤
3.3 YOLOv5交通标志识别模型
4 我们的结果
4.1 数据来源和数据收集
4.2两种除雾模型的比较与分析
4.3 TSR实验
4.4 结果比较
4.5分析和讨论
5 结论
交通标志基本上需要遵守交通规则。一旦驾驶员忽视了标志,尤其是那些重要的标志,由于实际交通场景的复杂性或恶劣天气条件的影响,将导致违反交通法规或交通事故,造成人员伤亡和财产损失。因此,交通标志识别(TSR)是自动驾驶汽车的重要组成部分,具有重要的学术意义。本文的主要贡献如下:(1)我们将一种算法应用于暗通道先验,并提供了一种用于图像去雾的引导图像滤波算法。我们的结果表明,引导图像滤波方法对图像去雾非常有效。(2) 在本文中,我们为我们的实验提出了深度学习算法,我们发现YOLOv5非常适合实时TSR。
随着人口的不断增长和社会的发展,汽车已经成为人们不可或缺的交通工具。在人们享受汽车便利的同时,新技术也给道路交通带来了一系列不可避免的问题。城市交通系统面临的压力逐渐增加,其中最重要的是交通事故的频繁发生[1]。为了减少事故,先进的事故避免系统已经变得流行[2]。随着交通标志识别(TSR)的发展,计算机辅助系统发生了重大飞跃。计算机已被用于模拟和处理大量的视觉数据。智能驾驶辅助系统模拟人类视觉系统的机制,以完成视觉对象检测和识别[3-4]以及其他应用[5]。简而言之,交通标志的识别和检测是重要的组成部分,特别是雾霾天气下交通限速标志识别研究项目,符合当前汽车发展的需要,有利于科技知识的推广。因此,开展恶劣天气下交通标志检测的研究工作具有重要的现实意义。因此,本文的目标是收集雾状图像作为我们的数据集,并比较两种不同的深度学习方法。同时,研究了雾对视觉目标识别的影响,提出了一种快速、高精度的TSR方法。
本文的剩余部分组织如下:我们在第2节中进行了文献综述,我们的方法将在第3节中讨论。我们的结果将在第4节中显示。我们的结论将在第5节中得出。
随着人工智能深度学习的发展,TSR正在快速发展,许多高端车型现在都配备了TSR驾驶员辅助系统,以帮助驾驶员更加安全。当前的TSR只有在阳光充足且交通标志无障碍的情况下,或在恶劣天气(如雾、雨、雪等)和具有挑战性的照明条件(如夜间、阳光直射等)下,才具有更高的准确率。如果交通标志被遮挡,可能会出现错误识别或无法识别。因此,我们描述了这些外部因素如何影响TSR以及它们之间的差异,在雨天,准确的TSR也非常困难,因为雾是静止的,没有明显的运动,而雨或雪具有动态运动特征[6]。这对TSR来说非常具有挑战性,因为TSR总是需要实时视觉对象检测。照明对TSR也非常重要;在白天,如果阳光直接照射在交通标志或摄像头上,会导致过度暴光。夜晚往往太黑,同时,夜间行驶时,交通标志上会反射出灯光。这可能会导致不正确或无法识别的交通标志。
在雾霾天气中,由于空气中存在大量无序颗粒,环境光将严重散射,并导致图像模糊,因此未使用特征提取等相关操作[7]。通过对大量雾霾图像和同一场景的清晰图像的分析,我们发现雾霾图像具有特定的特征。分析这些图像特征有助于我们使用模式分类来识别雾霾[8],通过建立相应的大气散射模型和数学模型,在雾天进行成像过程[9]。
雾霾等恶劣天气直接导致图像对比度下降,灰度动态范围缩小,模糊度降低,细节信息覆盖。因此,有必要研究如何恢复清晰无雾的图像。目前,除雾的研究工作定性地分为两个方面:一是图像恢复,它基于建立的数学模型和图像退化的先前知识,反转模型以计算清晰和无雾的图像[10]。另一个方向是基于人类视觉需求的图像增强,通过突出图像细节、过滤噪声和恢复清晰图像[11]。它们之间的区别在于,图像恢复是从图像本质的角度提高对图像的理解,图像增强是基于人类视觉意义来提高图像的视觉效果,以满足人类视觉的需要。这些算法可以应用于交通标志位置检测和交通标志识别。
卷积神经网络(CNN)的灵感来自猫的视觉皮层。 有一些神经元细胞对外界光线极为敏感,称为感受野[12]。从那时起,视觉皮层开始进入我们的研究领域,并引起了人们的关注。回转神经网络首次应用于手写数字识别。该模型[13]与卷积神经网络(CNN)合作,通过在视觉对象检测、人脸识别、语音识别等领域开创广泛应用的先例,在实验中取得了优异的结果。同时,对人工神经网络进行了改进和推广。神经网络由五个部分组成:输入层、输出层、卷积层和池化层、完全连接层[14]。基于这些神经网络,TSR的工作流程主要包括三个部分。首先是图像预处理,通常包括图像增强、图像缩放和其他图像处理操作。第二部分是交通标志检测,包括三个重要步骤:(1)提取候选区域,(2)确认交通标志,(3)对交通标志进行分类。
本文首先利用引导图像滤波算法对图像进行去杂处理,然后对去杂处理前后的图像进行比较。然后,我们介绍了如何选择网络,包括YOLOv5和改进的YOLOv5。最后,我们阐述了实验的评估方法。
2009年首次提出了暗通道先验去雾算法[15]。在除雾算法中,分析了户外阳光图像的组合。在这些图像的非天空部分,每个图像的三个RGB颜色通道中的一个或两个具有非常低的强度[21]。我们使用这种方法的原因有四个:各种玻璃的阴影、自然物体的投影、视觉物体色彩鲜艳的表面、视觉物体暗淡的表面。如所解释的,暗通道如等式(1)所示。
其中颜色通道由r、g或b表示,作为颜色通道c的分量。是图像暗通道。同时,根据现有知识,我们知道暗通道中像素的灰度强度非常低,也就是趋向于0。
在等式(1)中,假设大气光是已知变量。事实上,对于任何输入图像,暗通道图像中像素的最大灰度强度的0.10%对应于原始图像的每个通道的对应位置中像素的平均灰度,从而获得每个通道的大气光。在假定大气光已知的前提下,将大气散射模型转换为
其中c表示需要单独处理每个信道。同时,我们将光透射率t(x)视为常数,对方程(2)的两边进行两次滤波,以给出最小值。
其中,t(x)是常数,计算最小值t(x)。 表示原始图像,从先前的暗通道,我们看到了接近0。结合等式(1),我们得到
通过将等式(4)代入等式(3),获得透射率t(x)的估计值。计算如下进行
在实际情况下,即使在视线良好的晴天,大气中仍会有微小的飞沫和气溶胶颗粒。如果移除所有雾,将对图像的真实性产生影响。因此,一个要素w 被引入方程(5)中,其值在[0,1.00]之间,因此方程(4)变为:
其中,w通常设置为0.95。如果I(x)非常小,则J的值将太大,从而在整个图像中产生大量噪声。因此,应设置阈值t0,如果t(x)小于t0,设t(x)=t0,则最后一个如等式(7)所示,
图像去雾是去除雾霾的重要预处理,它增强了边缘和轮廓等视觉效果。图1是使用暗通道先验算法的雾霾去除过程的流程图。
图1。除雾算法的工作流程
图像滤波算法采用图像对目标图像进行引导和滤波,使得最终输出图像与目标图像大致相似,纹理与引导图像相似。引导图像或参考图像是与输入图像本身不同的图像或相同的图像。如果引导图像等同于输入图像,则滤波成为边缘保持操作,其能够用于图像重建。通过使用引导图像滤波中的视觉特征,在图像去噪[20]、图像平滑和雾去除之后,交通标志的雾霾图像处理获得了理想的结果。
在雾霾天气中,交通标志图像的问题将导致深度学习模型的识别精度下降,这对交通安全要求构成威胁。同时,交通标志的角度和大小会导致识别精度降低。实时TSR的快速性对模型的计算速度也有很高的要求。因此,我们改进了YOLOv5模型,该模型在小目标检测方面具有很大优势,同时考虑了TSR的准确率和速度,以便在雾霾天气中更好地完成TSR。同时,我们还利用卫星图像改进了TSR的YOLOv5模型,提出了另一种辅助地标检测,以获得更好的结果。
YOLO是一种快速而紧凑的开源对象检测模型。与其他网络相比,它具有很强的性能和非常好的稳定性。YOLO框架将视觉对象检测视为一个回归问题,这是第一个以端到端的方式利用深度神经网络来预测视觉对象的类别和边界框的问题。目前,YOLOv5比YOLOv4具有更快的识别速度和更小的网络规模[19]。通过使用不同数据集进行模型训练时,YOLOv3和YOLOv4需要一个程序来计算初始锚框,YOLOv5自动计算多个数据集的最佳锚框。在YOLOv5中,我们对参数进行了微调,将学习率设置为1.20×10-3,动量为0.95,batch-size大小为16,根据batch-size大小将epoch指定为200.00。
我们的数据集总共包含3105个图像和5536个实例。关于TSR的实验,我们使用了自己的数据集,其中每个图像都用交通标志手动标记。该数据库中包括12类交通标志。然而,我们收集的视觉数据不包括雾状图像。因此,我们还利用了FRIDA、FRIDA2和FROSI数据库。FRIDA由18个城市道路场景的90幅图像组成,而FRIDA2由66个不同道路场景的330幅图像组成。他们的视角与原始图像中有各种雾的驾驶员相同:均质雾、非均质雾、多云雾和多云非均质雾,以及让路、注意行人等交通标志。FROSI数据集包含50米至400米的雾能见度,在不同位置有1620个交通标志。通过使用这些数据集,我们能够更全面地训练YOLOv5模型和更快的 R-CNN模型。其中,60%的图像用于训练,20%用于验证,20%用于测试。
在本节中,我们分析并比较了使用暗通道算法和引导图像滤波方法的除雾结果。图2显示了每个除雾算法的输出。
图2.不同场景的除雾方法的结果。
从结果中我们看到,基于引导图像滤波的去雾算法是鲁棒的,对于多个场景,去雾结果是稳定的,它在图像颜色失真或变暗较少的情况下获得了更好的去雾结果。相反,它在增强彩色图像方面起着关键作用。
在我们的实验中,我们优化了Faster R-CNN的参数,我们将动量设置为0.90,学习率设置为0.01,最大时期设置为200,批量大小设置为24,权重衰减设置为3.00x10-4。同时,我们利用全连接层和ReLU激活函数从给定图像中提取对象的视觉特征。
表1。快速R-CNN在各种条件下的实验结果
表2。带引导图像滤波的快速R-CNN实验结果
在我们的实验中,我们将数据分为晴天和雾天,并得出了有无引导图像过滤的召回率、准确度和mAP之间的差异,如表1和表2所示。这两个表比较了晴天和雾天使用引导图像过滤前后的准确率和召回率。更快的R-CNN具有更高的准确率和召回率。
在表1和表2中,我们比较了在晴天和雾天图像上使用引导图像过滤前后的准确率和召回率。更快的R-CNN具有更高的准确率和召回率。我们采用了一种引导图像滤波方法对雾天图像进行去雾处理。通过使用引导图像滤波,基于晴天图像的TSR精度远高于雾天图像。在整个使用引导图像滤波方法对给定图像进行去雾的过程中,使用晴天图像的准确率降低了0.70%,雾天的准确率提高了3.00%,因为引导图像滤波法不仅从雾天图像中去除了雾,还向晴天图像添加了少量噪声。表3显示了使用YOLOv5而没有引导图像滤波的TSR结果。
从表3中我们可以看出,YOLOv5使用晴天拍摄的图像具有更高的识别准确率和召回率,但使用雾天拍摄的图像则会降低准确率。同时,召回率下降了6.50%,明显低于晴天图像的准确率和召回率。为了提高雾天图像的TSR精度,YOLOv5在使用引导图像滤波后的实验结果如表4所示。晴天图像的TSR准确率下降了0.30%。原因是我们在去除雾的同时向交通标志添加了过多的噪声,但雾天图像的准确率比之前的结果提高了3.90%,这有效地提高了雾天图像视觉对象识别的准确率。
YOLOv5模型擅长小目标和多目标检测,通过在前景和背景损失的自适应平衡中提高损失函数的优化能力,在地标图像等复杂场景中进行多目标检测。换言之,改进的损失函数使模型更加关注除雾后具有小尺寸物体的图像,该模型关注各种交通标志,并从复杂的道路条件中准确识别视觉物体。
表3。具有引导图像滤波的Faster R-CNN的实验结果。
表4。具有引导图像滤波的Faster R-CNN的实验结果。
在本节中,我们比较YOLOv5和其他模型的实验结果。图3显示了我们在晴朗天气条件下的TSR,图4和图5显示了雾视频的结果。图6显示了不同数据集的结果。
在本节中,我们比较YOLOv5和其他模型的实验结果。图3显示了我们在晴朗天气条件下的TSR,图4和图5显示了雾视频的结果。图6显示了不同数据集的结果。
我们测试的视频经过处理后由2590帧组成。YOLOv5需要9.00×10-3秒来处理每一帧。在相同的准确率下,YOLOv5具有更快的识别速度。由于TSR通常用于对计算速度要求较高的实时目标检测和识别,YOLOv5更适合于TSR。图8显示了FRIDA数据集中两种方法的识别结果。从图4和图5中,我们可以看出,这两种方法都可以在复杂的雾背景下实现对交通标志的准确检测。YOLOv5方法做得如此完美。它还得益于更轻的模型尺寸和计算速度。总体而言,YOLOv5在识别小对象时表现更好。
图3.晴天的TSR结果(a)更快的R-CNN(b)YOLOv5。
图4.在同一场景中使用Faster R-CNN(a)和YOLOv5(b)的TSR结果。
图6.基于FRIDA数据集的TSR结果(a)Faster R-CNN(b)YOLOv5。
图7.使用YOLOv5的TSR结果
图8.YOLOv5的PR曲线。
在实验中,图8显示了每个度量如何随着迭代次数的增加而变化。在当前边界框的预测随着迭代的增加而减少的情况下,此时mAP随着迭代的增长而增加。结果表明,随着迭代次数的增加,本文提出的网络越来越好。准确率和召回率将随着网络训练的迭代而增加。这表明,随着迭代次数的增加,检测中真阳性样本的数量也会增加。图8是我们实验的测试结果的PR曲线,y轴是准确率,x轴是召回率。PR曲线非常接近右上角,这表明该模型是有效的。因此,基于YOLOv5的TSR更好,已经得到了很好的开发。
在本文中,我们通过使用不同的骨干网络来选择TSR的最佳网络。然后,我们利用跨层链接和激活函数来更有效地构造特征图,然后进行特征提取。我们提供了YOLOv5检测交通标志的方法。我们改进了损失函数以提高YOLOv5的性能。在我们的实验比较中,我们发现YOLOv5非常重要。但是,实时TSR通常需要更快的识别,其精度也类似。这证实YOLOv5是TSR的更好选择。
我们未来的工作包括三个方面。首先,我们将继续扩展数据集,例如在雾和雨等各种光照条件下添加更多样本。其次,我们比较了TSR中更多的目标识别和检测方法。最后,我们将使用更多的评估方法来评估我们的模型,这将能够直观地发现我们的模型的缺点,并使我们的模型更加稳健和强大。