【读论文】一种改进Yolo_v3的动态小目标检测方法

论文摘要部分

由于低空小型无人机类的动态小目标视觉特征不明显,且在检测过程中尺度可能变化较大,故传 统的检测算法在检测该类目标时易受到干扰,检测速度和稳定性较差。针对此问题,提出了一种结合 YOLOv3 改进模型和超分辨率重建技术的无人机实时检测算法。首先以三帧间差分法筛选可疑区域; 然后使用轻量级卷积神经网络进行可疑区域的超分辨率重建,增强细节信息;再用维度聚类算法重新生成 YOLOv3 模型的预选框参数并调整预选框分配,使用改进模型扫描全图和可疑区域,进行无人机检测; 在视频流检测中,将帧间关系作为依据,强化选定区域的细节特征后再进行目标检测,实现无人机的检 测式追踪。该方法在 GTX1070Ti处理器加速下, 检测速度可达每秒 19 帧,模型检测的准确率和召回率 分别为 96.8%和 95.6%。实验结果表明,该方法可以在复杂环境下检测大疆精灵系列无人机,检测有效 距离可观,相比传统算法和机器学习类特征提取算法,处理速度和鲁棒性更佳。

概念摘抄

Yolo是单步检测网络
YOLOv3 没有使用经典的神经网络作为特征提取网络,而是搭建了新网络 Darknet53 作为基础网络。
Darknet53 是一个纯卷积神经网络,使用了卷积层、批规范化层、激活层结合的结构作为网络的基本组 件;引入残差网络的概念,构建了残差单元和残差单元拼成的残差块,有效增加了神经网络的深度;网络使用步长为 2的卷积层实现降采样,不再使用池化层,避免了使用池化层训练时带来的梯度负面效果。

YOLOv3 模型改进

直接采用原网络参数对模型进行训练并调优后生成的权重,无人机的检测效果较差。
因为无人机根据观察角度的不同,在视频中多呈扁平,少量偏方形,而COCO数据集包含80多个类,物体尺度、形状相对均匀,所以在这个检测中,使用对应COCO数据集的先验框尺寸、个数不利于无人机的识别。
原始模型在 COCO数据集上进行检测时,在 3个不同尺度下, 每个尺度分配 3个大小不一的先验框,在每个尺度进行预测时,模型输出张量的尺寸为:N×N×n×(1+4+S), 其中 N为常数,n表示先验框个数,S为预测目标种类数。本文涉及的检测目标只有低空小型无人机一类, 且尺寸多偏中小,因此修改网络预测部分预选框分配第一次预测(大视野)分配两个先验框进行预测,第二次预测(中感受野),分配3个先验框进行预测,第三次预测(小视野)分配4个先验框进行预测。

在利用网络深度信息的地方增加先验框分配个数,增强对小目标的检测准确度和性能

经过上述改进,网络对小物体检测性能提高,预测生成的边框更接近真实值。

一些名词解释

平均交并比:
在计算机视觉深度学习图像分割领域中,mIoU值是一个衡量图像分割精度的重要指标。mIoU可解释为平均交并比,即在每个类别上计算IoU值(即真正样本数量/(真正样本数量+假负样本数量+假正样本数量))。在本篇博客中,笔者本想详细地列举计算公式,但是看到kangdk博主的博客已经工整正确清晰简洁地解析了mIoU计算公式,因此请各位读者朋友移步链接: 论文笔记 | 基于深度学习的图像语义分割技术概述之5.1度量标准,或者选择阅读计算机视觉深度学习图像分割综述原文1

你可能感兴趣的:(论文,机器学习,计算机视觉,神经网络,网络)