Neural Computing and Applications 2023
基于深度学习方法的交通标志检测,面临 multi-scale targets and the real-time problem,作者基于 yolov5 中尺寸最小的 yolov5s 改进,使其比 SOTA more universal and superior.
改进 yolov5,使其更好更快的识别出交通标志
high-level features will lose a lot of information, resulting in a decrease in
the detection accuracy of large-scale targets
损失用的 CIoU,直接引用就好了,还来个 GIoU 的公式说不好,再列出 CIoU,这。。。
后处理用的是 softer NMS
yolov5 特征金字塔中引入下面两个模组
adaptive attention module (AAM)
and the feature enhancement module (FEM)
(1)AAM
作用:reduces the loss of context information in the high-level feature map due to the reduced feature channels
pooling 成不同分辨率,再上采样回来,紧接着一个空间注意力,最后和输入加起来为 M6,which contains multi-scale context information.
有没有想过,输入的 C5 本身就丢失的比较多,空间信息回不来了呢?还不如 adaptive pooling layer 直接接金字塔(C3 / C4 / C5)而不仅仅是 C5
(2)FEM
作用:enhances the representation of feature pyramids and accelerates the inference speed while achieving state-of-the-art performance
空洞卷积,最后 pooling 合起来,公式如下
如果 pooling 核一样,配合 dilation rate 还行
如果 pooling 核不一样,同 yolov5 的 SPP,那和 dilation 搭配就有点怪怪的感觉,没有看代码
mosaic data augmentation 的缺点
it will cause the original small targets in the dataset to become smaller, resulting in the deterioration of the generalization performance of the model.
作者弃用了 mosaic data augmentation
Auto data augmentation 那一套,没有什么可以说的
【AutoAugment】《AutoAugment:Learning Augmentation Policies from Data》
强化学习搜索空间 ( 19 × D × P ) 2 × 5 (19 \times D \times P)^{2 \times 5} (19×D×P)2×5
19 总增广方法
增广强度 D 离散化为 11 个等级
增广概率 P 离散化为 10 个等级
5 个增广组合,每个组合抽 2 种增广方法
TT100K
182 types of traffic signs
目标大小分布
评价指标
其中 FPPI:false positive per image,每张图片的平均误检率
F P P I = F P N FPPI = \frac{FP}{N} FPPI=NFP
M R = F N G T = 1 − R e c a l l MR = \frac{FN}{GT} = 1 - Recall MR=GTFN=1−Recall
MR-FPPI 与目标检测所用的 Precious-Recall 类似
采用 FPPI 为横坐标,MR 为纵坐标的曲线中,均匀选取 范围内的 9 个FPPI,得到他们对应的9个值,并对这几个纵坐标值进行平均,最后通过指数运算上述平均值恢复为MR的百分比形式,就获得了用来量化MR-FPPI 曲线的指标,该指标越小代表检测器性能越高(来自深度学习评估指标之目标检测——(yolov5 可视化训练结果以及result.txt解析) )
608x608 输入
train+val 9146 images
test 1121 image
小目标( A P s AP_s APs)确实有提升
这样看,YOLOv5-Face 效果最好,哈哈哈
效果展示
消融实验
+Aug Model 变大了?训练出来的文件吧,权重变化了,统计这个有啥用啊
好久没有写论文博客了,还是要坚持啃啃论文啦
堆参数而以,引进的结构有 【BiSeNet】《BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation》 的影子,AAM 改进改进可能更合理(合我的理,哈哈),不过未必能提点
intelligent transportation systems (ITS)
The effect of data augmentation strategies is related to the characteristics of the dataset itself
对抗学习来提升小目标,《Perceptual Generative Adversarial Networks for Small Object Detection》(CVPR-2017)