关键词:交通标志识别;数据预处理; TSNet网络;滑动窗算法; DS-NMS算法。
介绍了训练数据集中高分辨率的数据预处理方法。
该方法的主要框架包括训练和测试。对训练数据集进行预处理,得到两个数据集,名为data_handdata_set_lin,然后提出并训练了交通标志网络(TSnet)。在测试部分,首先处理测试数据集,然后通过滑动窗口算法处理,该算法是经过训练的tsnet的输入,在 在此基础上,采用删除子集-非最大抑制(DSNMS)算法对网络输出进行处理,并在坐标转换后得到最终结果。
A.训练数据集预处理
K =2M/N(向上取整)
如果K是通过向上取整函数获得的,则每行的最后一个单元不一定是(N/2)像素。为了便于处理,其余像素由0补充以确保。 单元的分辨率为(N/2)X(N/2)。并不是(K-I)*(K-I)图像中的每一张图片都有交通标志,需要更新和修改坐标信息。接下来,处理训练数据集的注释文件中的有交通标志的每个图像。由于每个交通标志都有一个标签和边界框的坐标,因此每个交通标志的中心坐标应由以下方法计算:
x=(xmin+xmax)/2
y=(ymin+ymax)/2
其中x和y分别表示交通标志中心的横坐标和纵坐标;(xmin,ymin)和(xmax,ymax)分别表示左上角和右下角的位置。 相对于图片左上角的交通标志(坐标为(O,O)。在此之后,单元格数由以下公式计算:
总之,参照图一,有KXK单元格,每个单元格表示分辨率为(N/2)X(N/2)的图片,而且每幅图片都是从左到右从上到下排列的。 四个相邻单元格中的每一个由分辨率为NXN的(K-I)*(K-I)个图片组成。 只选取具有交通标志中心坐标的图片作为正样本,其他为无交通标志的负值样本。但一些交通标志也可能被切割成两个或更多的牢房。为了解决这个问题,我们的方法 将交通标志中心所在的单元格定义为该单元格中的交通标志,假设有9个交通标志框,分别命名为A-I,相应的标签文件有相应的标签坐标,表示为(xmin,ymin,xmax,ymax),中心黑点的坐标通过上述公式获得,然后得到相应的cell_num,缩写为Q。 此外,我们将图片标签定义为P。
PSCAL VOC标准数据集格式的训练数据集是根据标记为P的分辨率为N*N的图像和图像的坐标信息,表示为数据集H。
数据集中的每个图像,交通标志坐标在(O,N)之间。使用“(8)”更新坐标,其中(Px,Py)是原点左上角数据集图像的坐标。 更新的交通标志坐标是(x’min,y’min,x’max,y’max)
类似地,训练数据集被缩放到适当的分辨率,然后使用相同的图像分辨率N*N和相同的处理方法来获得另一个数据集,称为DataS。
首先,分别得到了高分辨率数据集DateSets_H和伪HD训练数据集DataSet _L。增强后的数据集保留了原始数据集中的各种交通标志周边信息,并且扩增了数据集。可以改善后期网络的培训,解决内存占用大的问题。
B.交通标志网络(TSNet)设计的TSNet网络
如图2所示.416X416是基于yolov 3-tiny网络的网络输入,其次是2X2池层和Serie S为3*3卷积层。此外,还增加了网络结构,以确保最佳的检测效果。
图11
在图3中,由于预测框与实际框之间的关系,计算网络最大步长的公式如下:
图12
其中e是预测框和真实框之间的偏移,S是图像特征的最大步长,交通标志分辨率介于rXr-RXR之间。 将416X416像素以32像素间隔调整为320、352、384、416、448、480、512、544、576、608像素,并分别进行一定次数的训练,从而增强数据的多样性,提高训练网络的鲁棒性。
TSNet增加了52X52的YOLO层,确保交通标志检测成功,此外,通过层(passthrough layer) 被加入将浅层特征图与深层特征图相连接,即将104X104特征图重构为52X52特征图,26X26特征图的上采样为 与第五层52*52的特征图融合。总之,为了确保TSNet成功地检测到数据集,最大步长应该满足以下公式:
图13
其中,r’是由于多尺度训练而更新的数据集边界框的最小像素,s是可以成功检测到的最大步长。
TSNet有三种尺度检测目标分别为13X13、26X26、52X52。每个标度有三个锚框,有助于网络收敛和小目标检测,以及YXyX[3*(41T)]输出和Y 表示其自身规模的大小,4表示四个坐标信息,1表示是否存在目标类别,T表示类的数量。
2)对网络进行训练和微调
首先用K表示聚类算法获得9个锚点。其次,对TSNet进行了高分辨率数据集训练,并提出了边界框的预测方法。 边界盒和类别的预测方法与YOLOv3算法一致。然后,通过低分辨率数据集对权重进行微调。此外,训练一定次数以减少学习速度按数量级。最后,得到最后的权重文件。
C.滑动窗算法
在检测和识别阶段,传统方法直接进行检测后的运算。调整图像大小,即图像失真后的检测,可以大大降低检测和识别率。为了达到高精度和匹配网络输入的大小,滑动窗算法被引入。然而,如果将滑动窗口算法应用于原始图像,则需要使用416X416的网络输入,我们需要对原始图像进行多次滑动。 因此,测试数据集应采用图像金字塔模型进行预处理,将原始图像缩放为伪高清分辨率mXm的图像。另外,由于全景图的顶部是天空,底部是大地,10%的图像的顶部和底部的分辨率m*m应该被削减。最后对预测盒进行裁剪,经过滑动窗口算法,通过n/2的滑动步长得到预测盒。
D.删除子集-最大抑制(DS-NMS)
用DS_NMS算法对TSNet在前一步中检测到的框进行处理。最后,得到了概率最大的box的坐标。在设置IOU阈值的情况下,一些候选框可以通过NMS算法生成,也可能导致重复的框的出现。因此提出了DS-NMS算法。图4的左右侧分别为NMS处理和DSNMS处理的结果。建议的DSNMS可分为4个步骤:
(1)首先对所有方框的分数进行排序,选择最高分数及其对应的方框;
(2)如果剩余框与框之间的IOU为h,则遍历所有剩余框。 如果最大置信度大于某个阈值,则将删除这些框。
(3)如果vuwv的条件(其中v为候选),则遍历所有剩余的框并删除候选框w 最自信的盒子,而W是剩下的盒子之一)是满意的。
(4)继续选择未处理框中的最高得分,并重复上述处理。
不同的国家有不同的交通标志。以清华视觉媒体研究中心生产的交通标志数据集“清华-腾讯外观”为实验数据集。 ET包含10万张腾讯街景全景图和3万块交通标志。该图像分辨率为20482048,即M~2048,涵盖了不同的光照和天气条件。训练数据 Aset包含9105张图片,15487个交通标志,有3065个测试图像,标有7696个交通标志。交通标志大小在88和400400之间,即r8,R400。它的帐户。 为了确保每种交通标志都有足够的数据,我们选择了一个样本超过100个的单一类型的交通标志作为主要数据。 承认的CTS。如图5所示,共有45个类,即T 45。对训练数据集进行预处理,然后将其划分为1010个单元,即K~IO,分辨率为208208。每个滚装 W和列被208个像素分开,一幅图像可以具有分辨率为416416的99 81次图片,即N~416。该81幅图片被裁剪到原始图像上,以获得81910。 5幅训练图像。对训练数据集进行预处理,得到33820幅含有交通标志的训练图像。PSCAL VOC标准数据集格式是根据 D坐标信息,称为TS8!。同样,清华腾讯lOOK培训数据集的大小调整为10401040,即米1040。使用相同的方法获得4416个图片,然后向上。 获取交通标志数据集TSI 6的日期坐标。它包括25913张图片的训练数据集。进一步增强数据,我们还使用了颜色抖动,饱和度和曝光增强。 和调色。B.实验中的培训和测试细节,我们使用了在Ubuntu 16.04 LTS系统下使用的黑网框架[II],其中包括Intel Xeon E5-2620 CPU,NVIDIA GTX 1080 IIG GP u输入416416,1313单元,通过K-均值聚类获得9个锚盒,分别为(16、19)、(24、26)、(31、38)、(43、42)、(52、57)、(64、77)、(89、84)、(108、121)、(168、163)。 算法:使用初始学习率为0.001,经过300,000次迭代后,tsnet被训练到0.0001,我们继续进行另外200,000次迭代的训练。一刹那 它的重量衰减为0.0005。
C.结果和分析
在表1中,我们主要计算了45个交通标志的平均精度(AP)。所谓AP指的是精确和回忆曲线下的区域.AP越大越好 效应FR代表快速R-CNN[2]使用VGG_CNN_M_1024框架,V3代表YOLOv 3[9]使用DarkNet 53框架,ZZ代表Zhe ju等人的方法。[10]OM代表我们的方法。
从图6可以看出,不同类别的绿线和红线的AP分数是均匀匹配的。而某些类别的ap值略低于 哲朱的论文,即我们的方法的性能几乎是最好的,其次是哲朱的论文方法,FastR-CNN和YOLOv 3方法没有效果,对t的影响也很大。 大物体稍微好一点,但对小物体的效果很差。平均精度(Map)是多个验证数据集的平均AP值,且该值越高。 更是有效的检测和识别算法。在表2中,我们的方法优于地图中的其他三种方法,表明所提出的算法有很好的改进 效果显著。虽然时间上没有YOLOv 3快,但它比FastR-cnn和哲主提出的方法快得多,几乎可以达到实时的水平,而且是实时的。 在较好的设备条件下可以取得良好的效果,具有很大的应用前景。
提出了一种高分辨率图像中小目标的检测与识别方法,并将其应用于全景图像中交通标志的检测与识别。它改善了 识别精度和速度达到了预期的要求。