【论文翻译】Real-time Detection and Recognition ofLive Panoramic Traffic Signs Based on Deep Learning

文章目录

    • 基于深度学习的全景交通标志实时检测与识别
      • 摘要
      • 引言
      • 近来的工作
      • 方法
      • 实验
      • 结论

基于深度学习的全景交通标志实时检测与识别

摘要

  • 随着无人驾驶的热度和交通安全的挑战,交通标志的检测和识别是无人驾驶的核心问题。研究它具有重要意义。目前,由于深度学习的应用,目标识别方法取得了良好的效果,但对实时全景高分辨率图像或视频中小目标的实时识别研究较少。本文提出了一种在高分辨率图像中进行小物体检测和识别的方法,并将其应用于全景图像中交通标志的检测和识别。首先,提出了训练数据集的数据预处理方法。然后设计了基于YOLOv3算法的交通标志网络(TSNet)。经过训练和微调,本文提出的新的滑动窗口算法处理了具有合理缩放的测试数据集。边界框的预测由删除子集 - 非最大抑制(DS-NMS)处理,以获得更高的准确度和实时检测效果。

关键词:交通标志识别;数据预处理; TSNet网络;滑动窗算法; DS-NMS算法。

引言

  • 近年来,无人驾驶已成为全球关注的焦点,交通标志自动识别系统是完整无人系统的重要组成部分。同时,交通标志作为道路交通的重要组成部分,发挥着不可或缺的作用。可以看出,交通标志的实时检测和识别尤为重要。交通标志的识别属于物体检测领域。如今,在深度学习的指导下,物体检测的速度和准确性大大提高。然而,小物体的检测仍然是研究的热门话题,在实时全景图的高分辨率图像中检测小物体更加困难。在生活中,交通标志仅占视野的一小部分,占视野图像的约0.001%至5%,这对于实时交通标志的准确检测和识别是一个巨大的挑战。随着摄影器材硬件的改进,一些高清晰度图像很容易获得,每张图像的尺寸为3-lOM,具有高分辨率。对于M * JVI(M> 2000)图片的卷积神经网络输入,用于处理图片的计算机的GPU存储器难以满足要求。但在无人驾驶领域,交通标志检测和识别的实时要求非常高,难以在速度和准确度之间做出妥协。鉴于这两个问题,本文提出了一种方法。用于高分辨率图像中小物体的检测和识别,并应用于实时全景条件下交通标志的检测和识别,达到预期效果。我们做出以下贡献:

介绍了训练数据集中高分辨率的数据预处理方法。

  1. 提出了基于YOLOv3算法的交通标志网络(TSNet)的网络结构。
  2. 具有合理缩放的测试数据集由滑动窗口算法处理。
  3. 我们改进了非最大抑制算法,并提出了删除子集非最大抑制(DS -NMS)。

近来的工作

  • 随着卷积神经网络(CNN)的出现,近年来物体检测的准确性和速度得到了极大的提高。基于卷积神经网络的目标检测方法可以分为两部分:基于候选区域的方法和基于回归的方法。例如,R-CNN [1],快速R-CNN [2],更快的R-CNN [3],FPN [4],掩码R-CNN [5]等等,是基于坦诚的候选检测算法基于回归方法的深度学习目标检测算法主要包括YOLO [6],SSD [7]和YOLOv2 [8],YOLOv3 [9]。由于其简单廉价的Darknet模型,YOLO算法的检测速度非常快。 YOLO使用整个图像作为网络的输入,直接检测对象边界框的位置及其在输出层中的类别。但YOLO对彼此接近的物体和群体的检测效果较差,其泛化能力较弱。针对YOLO,SSD的这些问题,结合RPN结构,提高了YOLO的检测精度和速度。随后,YOLOv2完全平衡了检测的准确性和速度,并提出了一种针对目标的联合训练方法检测和分类。今年发布的YOLOv3主要修改了分类丢失,采用二进制交叉熵丢失,并使用ResNet [12]网络参考DarkNet53网络,大大提高了检测的准确性,同时保证了速度。在小物体检测方面,[14]主要用于检测高分辨率图像中的中小物体,精度进一步提高,但速度太慢,无法满足实际生活需要。在网络训练方面,[IS]通过实验证明原始的高清(HD)图像首先用于训练,然后使用伪高清图像进行微调。在对所得网络进行伪高清图像测试后,结果与仅采用高清图像的训练和低清晰图像训练相比较。鉴于目前研究中存在的问题,本文提出了一种小物体的方法。高分辨率图像中的检测和识别,并应用于全景图像中交通标志的检测和识别。

方法

该方法的主要框架包括训练和测试。对训练数据集进行预处理,得到两个数据集,名为data_handdata_set_lin,然后提出并训练了交通标志网络(TSnet)。在测试部分,首先处理测试数据集,然后通过滑动窗口算法处理,该算法是经过训练的tsnet的输入,在 在此基础上,采用删除子集-非最大抑制(DSNMS)算法对网络输出进行处理,并在坐标转换后得到最终结果。

A.训练数据集预处理

  • 对于高分辨率的图像,如MXM(M>2000),作为网络输入,GPU内存严重不足,导致无法对数据进行训练。解决这一问题,可以将网络输入减少到NXNX3(N<512)。这里通过裁剪来处理数据集,以确保交通标志原始像素的RGB分布。 将图像划分为分辨率为(N/2)X(N/2)的KXK网格,并根据(N/2)像素的间距将每一行和每一列划分为(K-I)X(K-I)图像,分辨率为N*N。这个 K的表达式是

K =2M/N(向上取整)

如果K是通过向上取整函数获得的,则每行的最后一个单元不一定是(N/2)像素。为了便于处理,其余像素由0补充以确保。 单元的分辨率为(N/2)X(N/2)。并不是(K-I)*(K-I)图像中的每一张图片都有交通标志,需要更新和修改坐标信息。接下来,处理训练数据集的注释文件中的有交通标志的每个图像。由于每个交通标志都有一个标签和边界框的坐标,因此每个交通标志的中心坐标应由以下方法计算:

x=(xmin+xmax)/2
y=(ymin+ymax)/2

其中x和y分别表示交通标志中心的横坐标和纵坐标;(xmin,ymin)和(xmax,ymax)分别表示左上角和右下角的位置。 相对于图片左上角的交通标志(坐标为(O,O)。在此之后,单元格数由以下公式计算:

总之,参照图一,有KXK单元格,每个单元格表示分辨率为(N/2)X(N/2)的图片,而且每幅图片都是从左到右从上到下排列的。 四个相邻单元格中的每一个由分辨率为NXN的(K-I)*(K-I)个图片组成。 只选取具有交通标志中心坐标的图片作为正样本,其他为无交通标志的负值样本。但一些交通标志也可能被切割成两个或更多的牢房。为了解决这个问题,我们的方法 将交通标志中心所在的单元格定义为该单元格中的交通标志,假设有9个交通标志框,分别命名为A-I,相应的标签文件有相应的标签坐标,表示为(xmin,ymin,xmax,ymax),中心黑点的坐标通过上述公式获得,然后得到相应的cell_num,缩写为Q。 此外,我们将图片标签定义为P。

PSCAL VOC标准数据集格式的训练数据集是根据标记为P的分辨率为N*N的图像和图像的坐标信息,表示为数据集H。

数据集中的每个图像,交通标志坐标在(O,N)之间。使用“(8)”更新坐标,其中(Px,Py)是原点左上角数据集图像的坐标。 更新的交通标志坐标是(x’min,y’min,x’max,y’max)

类似地,训练数据集被缩放到适当的分辨率,然后使用相同的图像分辨率N*N和相同的处理方法来获得另一个数据集,称为DataS。

首先,分别得到了高分辨率数据集DateSets_H和伪HD训练数据集DataSet _L。增强后的数据集保留了原始数据集中的各种交通标志周边信息,并且扩增了数据集。可以改善后期网络的培训,解决内存占用大的问题。

B.交通标志网络(TSNet)设计的TSNet网络

如图2所示.416X416是基于yolov 3-tiny网络的网络输入,其次是2X2池层和Serie S为3*3卷积层。此外,还增加了网络结构,以确保最佳的检测效果。

  1. IOU与步长之间的关系
    如我们所知,交过并(IOU)是产生的候选人结合到地面真相界的重叠比率。理想的情况是比为1。参照图3,一般IOU计算公式如下:

图11

在图3中,由于预测框与实际框之间的关系,计算网络最大步长的公式如下:

图12

其中e是预测框和真实框之间的偏移,S是图像特征的最大步长,交通标志分辨率介于rXr-RXR之间。 将416X416像素以32像素间隔调整为320、352、384、416、448、480、512、544、576、608像素,并分别进行一定次数的训练,从而增强数据的多样性,提高训练网络的鲁棒性。

TSNet增加了52X52的YOLO层,确保交通标志检测成功,此外,通过层(passthrough layer) 被加入将浅层特征图与深层特征图相连接,即将104X104特征图重构为52X52特征图,26X26特征图的上采样为 与第五层52*52的特征图融合。总之,为了确保TSNet成功地检测到数据集,最大步长应该满足以下公式:

图13

其中,r’是由于多尺度训练而更新的数据集边界框的最小像素,s是可以成功检测到的最大步长。

TSNet有三种尺度检测目标分别为13X13、26X26、52X52。每个标度有三个锚框,有助于网络收敛和小目标检测,以及YXyX[3*(41T)]输出和Y 表示其自身规模的大小,4表示四个坐标信息,1表示是否存在目标类别,T表示类的数量。

2)对网络进行训练和微调

首先用K表示聚类算法获得9个锚点。其次,对TSNet进行了高分辨率数据集训练,并提出了边界框的预测方法。 边界盒和类别的预测方法与YOLOv3算法一致。然后,通过低分辨率数据集对权重进行微调。此外,训练一定次数以减少学习速度按数量级。最后,得到最后的权重文件。

C.滑动窗算法

在检测和识别阶段,传统方法直接进行检测后的运算。调整图像大小,即图像失真后的检测,可以大大降低检测和识别率。为了达到高精度和匹配网络输入的大小,滑动窗算法被引入。然而,如果将滑动窗口算法应用于原始图像,则需要使用416X416的网络输入,我们需要对原始图像进行多次滑动。 因此,测试数据集应采用图像金字塔模型进行预处理,将原始图像缩放为伪高清分辨率mXm的图像。另外,由于全景图的顶部是天空,底部是大地,10%的图像的顶部和底部的分辨率m*m应该被削减。最后对预测盒进行裁剪,经过滑动窗口算法,通过n/2的滑动步长得到预测盒。

D.删除子集-最大抑制(DS-NMS)

用DS_NMS算法对TSNet在前一步中检测到的框进行处理。最后,得到了概率最大的box的坐标。在设置IOU阈值的情况下,一些候选框可以通过NMS算法生成,也可能导致重复的框的出现。因此提出了DS-NMS算法。图4的左右侧分别为NMS处理和DSNMS处理的结果。建议的DSNMS可分为4个步骤:

(1)首先对所有方框的分数进行排序,选择最高分数及其对应的方框;
(2)如果剩余框与框之间的IOU为h,则遍历所有剩余框。 如果最大置信度大于某个阈值,则将删除这些框。
(3)如果vuwv的条件(其中v为候选),则遍历所有剩余的框并删除候选框w 最自信的盒子,而W是剩下的盒子之一)是满意的。
(4)继续选择未处理框中的最高得分,并重复上述处理。

实验

不同的国家有不同的交通标志。以清华视觉媒体研究中心生产的交通标志数据集“清华-腾讯外观”为实验数据集。 ET包含10万张腾讯街景全景图和3万块交通标志。该图像分辨率为20482048,即M~2048,涵盖了不同的光照和天气条件。训练数据 Aset包含9105张图片,15487个交通标志,有3065个测试图像,标有7696个交通标志。交通标志大小在88和400400之间,即r8,R400。它的帐户。 为了确保每种交通标志都有足够的数据,我们选择了一个样本超过100个的单一类型的交通标志作为主要数据。 承认的CTS。如图5所示,共有45个类,即T 45。对训练数据集进行预处理,然后将其划分为1010个单元,即K~IO,分辨率为208208。每个滚装 W和列被208个像素分开,一幅图像可以具有分辨率为416416的99 81次图片,即N~416。该81幅图片被裁剪到原始图像上,以获得81910。 5幅训练图像。对训练数据集进行预处理,得到33820幅含有交通标志的训练图像。PSCAL VOC标准数据集格式是根据 D坐标信息,称为TS8!。同样,清华腾讯lOOK培训数据集的大小调整为10401040,即米1040。使用相同的方法获得4416个图片,然后向上。 获取交通标志数据集TSI 6的日期坐标。它包括25913张图片的训练数据集。进一步增强数据,我们还使用了颜色抖动,饱和度和曝光增强。 和调色。B.实验中的培训和测试细节,我们使用了在Ubuntu 16.04 LTS系统下使用的黑网框架[II],其中包括Intel Xeon E5-2620 CPU,NVIDIA GTX 1080 IIG GP u输入416416,1313单元,通过K-均值聚类获得9个锚盒,分别为(16、19)、(24、26)、(31、38)、(43、42)、(52、57)、(64、77)、(89、84)、(108、121)、(168、163)。 算法:使用初始学习率为0.001,经过300,000次迭代后,tsnet被训练到0.0001,我们继续进行另外200,000次迭代的训练。一刹那 它的重量衰减为0.0005。

C.结果和分析

在表1中,我们主要计算了45个交通标志的平均精度(AP)。所谓AP指的是精确和回忆曲线下的区域.AP越大越好 效应FR代表快速R-CNN[2]使用VGG_CNN_M_1024框架,V3代表YOLOv 3[9]使用DarkNet 53框架,ZZ代表Zhe ju等人的方法。[10]OM代表我们的方法。

从图6可以看出,不同类别的绿线和红线的AP分数是均匀匹配的。而某些类别的ap值略低于 哲朱的论文,即我们的方法的性能几乎是最好的,其次是哲朱的论文方法,FastR-CNN和YOLOv 3方法没有效果,对t的影响也很大。 大物体稍微好一点,但对小物体的效果很差。平均精度(Map)是多个验证数据集的平均AP值,且该值越高。 更是有效的检测和识别算法。在表2中,我们的方法优于地图中的其他三种方法,表明所提出的算法有很好的改进 效果显著。虽然时间上没有YOLOv 3快,但它比FastR-cnn和哲主提出的方法快得多,几乎可以达到实时的水平,而且是实时的。 在较好的设备条件下可以取得良好的效果,具有很大的应用前景。

结论

提出了一种高分辨率图像中小目标的检测与识别方法,并将其应用于全景图像中交通标志的检测与识别。它改善了 识别精度和速度达到了预期的要求。

你可能感兴趣的:(【论文翻译】Real-time Detection and Recognition ofLive Panoramic Traffic Signs Based on Deep Learning)