《一种改进的YOLOv5用于无人机捕获场景中的目标检测》论文笔记

       无人机图像处理中的目标检测逐渐成为近年来的研究热点。一般目标检测算法在应用于无人机场景时往往会显著下降。这是因为无人机图像是从高空拍摄的,分辨率高,小物体比例很大。为了在满足轻量化特性的同时提高无人机目标检测的精度,我们对YOLOv5s模型进行了修改。针对小目标检测问题,增加了预测头,以更好地保留小目标特征信息。还集成了CBAM注意力模块,以更好地在密集场景中找到注意力区域。原有的IOU-NMS在后处理中被NWD-NMS取代,以减轻IOU对小物体的敏感性。实验表明,我们的方法在数据集Visdrone-2020上具有良好的性能,并且mAP比原来有明显的改进。

------CBAM注意力模块、IOU-NMS、NWD-NMS(对于小物体的检测)

       随着无人机技术的发展,无人机的应用场景不断扩大,引起了研究人员的极大关注。无人机能够在对人类相对危险的环境中执行任务,并且可以快速轻松地部署。它们在现代战斗中发挥着极其重要的作用,在民用应用中具有更广阔的视野。[16]无人机可用于完成战场侦察监视、损害评估,也可用于灾害监视、交通巡逻和安全监控。由于无人机任务的特殊性,无人机图像的处理相对困难。因此,无人机的计算机视觉逐渐成为研究的热点之一。

       目标检测作为一项经典任务,已成为无人机图像处理中具有挑战性的主流。目标检测可以定位和识别视频或图像中的对象,帮助我们在特定应用场景中进行分析并做出适当的决策。

       但是,由于无人机图像是从高空捕获的,因此它们与COCO [1]或ImageNet [2]数据集上的图像有很大不同。由于无人机捕获的图像分辨率高,小物体比例高,通用目标检测方法在无人机图像数据集上表现不佳。以 VisDrone-2020 数据集为例,该数据集中的边界框大部分尺寸小于 50*50 像素,小物体占多数。这使得目标检测算法的检测精度大大降低,无法充分利用。

------目标检测算法的检测精度大大降低.

       虽然也有算法部署来提高小物体检测的精度,但在检测精度和速度之间仍然难以很好地平衡。由于其出色的性能和速度,YOLO [15] 已成为无人机平台上经常使用的优越网络。以YOLOv5s为例,原始模型在VisDrone-66数据集上的检测速度可以达到2020 FPS,但平均精度仅为12.7%。[3] YOLOv5 系列中其他三个功能更强大的模型在一定程度上提高了准确性,但模型大小和推理时间显着增加。尽管YOLOv11使用的镶嵌数据增强[5]可以有效解决模型训练中最具挑战性的小物体问题,但其在VisDrone-2020数据集上的精度并不令人满意。

       因此,针对数据集VisDrone-5中的小目标检测问题,我们改进了YOLOv2020s模型,通过以下三大改进:1.在骨干网络中的C4模块中增加了一个CBAM [3]注意力模块;2.增加预测头P2,用于小物体检测;3. 使用NWD-NMS [5]在后处理过程中过滤边界框。最后,我们得到的改进模型与原来的YOLOv5s模型相比,检测准确率有显著提高,mAP从32.9%提高到40.7%。与其他方法相比,我们的方法提高了每种物体的检测精度,特别是对于人和电机等小物体。

       本节概述了拟议研究工作的相关工作,包括以下两个主要方面:无人机图像中的小物体检测和目标检测。

A. 小物体检测

       在目标检测算法开发的早期阶段,为了保证检测的精度,大多数数据集由突出的物体组成。近年来,越来越多的学者关注小目标检测,并提出了有效的解决方案。目前主流的小目标检测方法主要分为多尺度特征学习、数据增强和基于GAN的检测。

       多尺度特征学习结合了深层语义信息和浅层表征信息,便于小目标的特征提取,提高了小目标检测的性能。在深度神经网络中,由于特征信息的丢失,很难在深度特征图中检测小物体。浅层特征图的感受野较小,但可以获得更多的空间和详细的特征信息。因此,Liu等人[6]提出了一种单点探测器(SSD)来从特征图生成不同尺度的预测,使用浅层特征来检测小物体,使用深层特征来检测较大的物体。为了获得更好的特征融合效果,Lin等人[7]提出了一种特征金字塔网络(FPN),该网络引入自上而下的网络结构,通过融合相邻层的特征来实现特征增强。随后,许多学者基于FPN进行了许多改进,这些改进显着提高了检测精度。虽然多尺度特征融合可以有效提高小目标检测的性能,但也增加了额外的计算工作量,并且难以避免特征融合过程中干扰噪声的影响,这使得基于多尺度特征的小目标检测性能难以进一步提高。

       数据增强策略目前在目标检测领域具有广泛的应用。数据增强的目的是增加数据集的多样性并扩大数据集的大小,从而提高深度学习的性能。针对小天体样本在训练数据集中占比相对较少的情况,Kisantal等人[8]提出了一种复制增强方法,通过复制粘贴来增加小天体的训练样本数量,而Chen等人[9]对图像进行缩放和拼接,以增加中小型物体的数量和质量,以解决小天体数量少、小天体少的问题。其中包含的信息。虽然数据增强策略在一定程度上解决了信息量小的问题,但计算复杂度的增加和对不同对象进行优化的需求使算法设计具有挑战性。

       生成对抗网络(GAN)可以将低分辨率小物体的特征映射到等效于高分辨率物体的特征。Li等人[10]提出了一种用于小物体检测的感知GAN模型,该模型通过生成器将感知到的小物体的较差表示转换为类似于大物体的超分辨率表示来欺骗鉴别器。同时,判别器与生成器竞争识别生成的表示,生成器生成的小物体表示必须有利于检测。GAN无需特殊结构设计即可提高检测性能,但难以训练。

------文献综述(所参考的前人的研究)

B. 无人机图像中的目标检测

       无人机航拍图像通常具有背景复杂、物体小、视野大的特点,使用一般场景数据集进行训练任务很难取得满意的结果。考虑到无人机图像数据集的缺乏,近年来学者们逐渐开始开发一系列无人机视觉数据集。

       DroneVehicle数据集主要面向车辆检测和车辆计数,包含涵盖白天和黑夜时间段以及物体遮挡和尺度变化的RGB图像和红外图像。DOTA数据集由来自多个传感器和平台的不同分辨率的航空图像组成,包含不同比例,方向和形状的对象。VisDrone 2020 数据集由无人机获取,包含 10 多个视频和 000,2 多个不同天气和照明条件下的静止图像,并提供场景可见性、对象类别和遮挡等重要属性。每张图像包含大量检测到的物体,总共包含6万个标记框,物体与大量小物体之间存在重叠,使其成为一个非常具有挑战性的数据集。

注意力模块     

       注意力机制的目的是使模型能够获得要关注的目标区域,并在该部分上赋予更多权重,这意味着突出显示重要特征并抑制不相关的特征。

       Woo等人[4]提出的卷积块注意力模块(CBAM)是一个简单有效的前馈卷积神经网络注意力模块。如图2所示,CBAM从输入特征图推断出通道和空间两个独立维度的注意力图,并将注意力图与输入特征图相乘,进行自适应特征细化。CBAM通过将信道信息聚焦的特征表示与空间信息聚焦的位置信息混合提取信息特征,有效地帮助信息在网络中流动。CBAM是一种轻量级的通用模块,可以集成到任何骨干网络中以提高性能。

       CBAM是一种混合域注意力机制,图3说明了信道注意力模块和空间注意力模块的具体计算过程。对于信道注意力模块,给定输入特征图,得到两个不同的空间语义描述算子,并在全局平均池化和全局最大池化运算后通过共享感知器。将两个通道注意力特征向量相加以融合。最后,在激活函数后得到通道注意力向量。对于空间注意力模块,给定输入特征图,沿通道维度进行全局平均池化和全局最大池化运算,分别得到两个不同的通道特征描述算子,将两者拼接在一起,用卷积核7*7进行卷积运算。最后,得到激活函数后的空间注意力向量。

作为即插即用的注意力模块,CBAM可以轻松插入YOLOv5型号。在本文中,我们选择将CBAM添加到C3模块中。C3模块是从原来的瓶颈CSP模块改造而来的,该模块包含三个标准卷积层和几个瓶颈模块,该模块作为学习残差特征的主模块。引入注意力机制的 YOLOv5 的骨干结构如图 4 所示。

预测头 P2

       由于 Visdrone 2020 数据集包含许多极小的物体,且 YOLOv5 的下采样乘数较大,因此更深的特征图很难学习小物体的特征信息。如图4所示,原始网络结构具有P3、P4和P5预测头的分辨率低,缺乏低级特征表示,使得原始模型难以学习小物体的特征。因此,我们增加了一个用于小目标检测的预测头P2,它与原有的三个预测头相结合,以减轻目标尺度变化的负面影响。P2预测头的特征信息仅下采样<>次,分辨率更高,特征图信息更完整,对小目标检测更有利。虽然添加额外的预测头后计算工作量增加,导致推理检测速度下降,但小目标检测的性能有所提高。

NWD-NMS

       在目标检测的预测阶段,输出许多候选框,其中许多重叠的预测边界框围绕同一对象,因此我们需要通过非极大抑制(NMS)来抑制冗余预测边界框。IOU 在原始 YOLOv5 模型中直接用作度量。首先,根据其置信水平对所有预测框进行排名,并选择置信水平最高的预测框,并删除所有其他IOU高于预定义阈值的框,即抑制非最大置信边界框。此过程以递归方式执行,直到没有一对边界框太相似。

       但是,IOU 对小对象的敏感性可能导致许多预测框的 IOU 值低于预定义的阈值,从而导致误报预测。如图 5 所示,每个网格表示一个像素,框 A 表示真实边界框,框 B 和 C 表示分别偏离 <> 像素和 <> 个像素的预测边界框。可以看出,对于正常大小的物体,微小的位置变化对IOU的影响并不大。但是,当物体尺寸非常小时,较小的位置偏差会导致IOU显着降低。因此,基于IOU的NMS对于小物体检测并不理想。

       IOU的本质是计算两个样本集的相似性,因此wang等人[5]建议使用Wasserstein距离来测量边界框的相似性,而不是IOU。首先,将边界框建模为二维高斯分布,然后使用提出的归一化瓦瑟斯坦距离(NWD)来度量导出的高斯分布的相似性。与IOU相比,NWD在检测小物体时对不同尺度不敏感,同时能够测量非重叠或相互包含的边界框之间的相似性。因此,对于小物体检测,NWD的性能远高于IOU。

       因此,我们将原YOLOv5s模型中的IOU-NMS改为NWD-NMS,可以有效过滤小目标的预测框,提高小目标检测的性能。

------论文所提出来的模型,以及模型之中各个概念、公式等等的理解。

消融实验

       我们选择Visdrone-2020数据集作为实验数据集,研究无人机视觉中的目标检测问题。根据无人机图像的特点,我们对YOLOv5s模型进行了三点改进:(1)增加CBAM模块,(2)增加P2预测头,(3)采用NWD-NMS。我们通过精度、召回率和mAP对改进的模型进行综合评估。

       我们修改后的方法运行时环境:CPU 是 Intel i7 11800H,GPU 是 Nvidia RTX3080,操作系统是 Windows。本文采用改进的YOLOv5s网络结构进行训练,初始学习率设置为0.01,批量大小设置为16,学习周期数设置为300。

       如表I所示,为了验证三种改进方法的有效性,我们使用消融实验进行测试。实验是通过将每个模块分别添加到原始模型中并依次验证每个模块的影响来进行的。实验结果表明,每种改进方法对原始模型都有一定的改进效果。首先是增加了CBAM注意力模块,与原始模型相比,mAP略有改善,推理速度略有提高。然后是最有效的P2预测头,由于P2预测头保留了更丰富的小物体特征信息,并且可以很好地检测无人机图像中的小物体,因此它大大提高了mAP。虽然增加检测头增加了额外的计算工作量,但它也很好地提高了小物体的检测性能。NWD-NMS的改进也在一定程度上提高了mAP,采用<>种改进方法得到的最终模型与原始模型相比,mAP有了很大的改进。

       实际场景中的检测效果如图6所示。图6a显示了原始YOLOv5s模型的检测结果,可以看出图像中存在明显的遗漏和误检,例如左上角的卡车被误检为汽车,左下角左侧区域中的小物体未被检测到。如图6b所示,在我们改进的模型的检测结果中,一些原本误检的物体被纠正,许多以前未检测到的低清晰度小物体被检测出来。可以看出,我们改进的方法在实际检测中仍然非常有效。

       在表II中,我们将我们的方法与其他方法进行了比较。我们选择了委员会提交的几种基线算法与我们的方法进行比较,毫无疑问,我们修改后的方法比委员会提交的结果具有更好的AP。仔细比较每个类别的AP,我们可以发现几乎每个类别的AP都有所提高。特别是对人、汽车、电机等小物体的检测精度。得到了很大的改进。这表明我们的方法在小目标检测问题中起着重要作用。还可以注意到,对于遮阳篷三轮车、公共汽车等数量较少的物体,我们做得不够好。这也是我们的缺点,如果这个问题解决了,我们的精度将进一步提高。

总结

       本文分析了当前无人机捕捉场景中目标检测算法存在的问题,针对无人机图像中高分辨率、小目标占比大的特点,对YOLOv5s模型进行了三点改进。最终的实验结果表明,我们改进的模型比原来的模型更适用于Visdrone-2020数据集,并且每个模块都能很好地提高该数据集的目标检测精度。与其他方法相比,我们的方法在性能方面也更胜一筹,特别是在小物体检测方面。此外,这项研究还有一些局限性。首先,通过实验对比可以发现,虽然我们的方法对于小物体检测的精度有所提高,但对于一些标签数量较少的类别,如遮阳篷三轮车和公共汽车,我们的精度改进并不令人满意。此外,我们的方法仅在 Visdrone-2020 数据集上进行了验证,这有一些局限性。未来将考虑在更多无人机场景中的适用性。

你可能感兴趣的:(目标检测,计算机视觉,人工智能)