超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!

作者 | 小书童  编辑 | 集智书童

原文链接:https://mp.weixin.qq.com/s/iBp2snTu_4RYcRIh9qGRnQ#rd

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

本文只做学术分享,如有侵权,联系删文

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第1张图片

边界框回归(Bounding Box Regression,BBR)在目标检测和实例分割中被广泛应用,是定位目标的重要步骤。然而,大多数现有的边界框回归损失函数在预测框与实际标注框具有相同的宽高比但宽度和高度值完全不同的情况下无法进行优化。

为了解决上述问题,作者充分探索了水平矩形的几何特征,提出了一种基于最小点距离的边界框相似度比较度量——MPDIoU,其中包含了现有损失函数中考虑的所有相关因素,例如重叠或非重叠面积、中心点距离以及宽度和高度的偏差,同时简化了计算过程。在此基础上,作者提出了一种基于MPDIoU的边界框回归损失函数,称为。

实验结果表明,将MPDIoU损失函数应用于最先进的实例分割(如YOLACT)和目标检测(如YOLOv7)模型,在PASCAL VOC、MS COCO和IIIT5k数据集上优于现有的损失函数。

1、简介

目标检测和实例分割是计算机视觉中两个重要的问题,在过去几年中吸引了大量研究人员的兴趣。大多数最先进的目标检测器(例如YOLO系列,Mask R-CNN,Dynamic R-CNN和DETR)依赖于边界框回归(BBR)模块来确定目标的位置。基于这种模式,设计良好的损失函数对于BBR的成功非常重要。到目前为止,大多数现有的BBR损失函数可分为两类:

  • 基于范数的损失函数

  • 基于交并比(IoU)的损失函数

然而,现有的大多数BBR损失函数在不同预测结果下具有相同的值,这降低了边界框回归的收敛速度和准确性。因此,考虑到现有BBR损失函数的优缺点,并受到水平矩形的几何特征启发,作者尝试设计一种基于最小点距离的新型损失函数,用MPDIoU作为新的度量标准,比较边界框回归过程中预测边界框与实际标注边界框之间的相似性。

作者还提供了一个简单易实现的解决方案,用于计算两个轴对齐矩形之间的MPDIoU,使其可以作为评估指标纳入最先进的目标检测和实例分割算法中,并在一些主流的目标检测、场景文本识别和实例分割数据集(如PASCAL VOC,MS COCO,IIIT5k和MTHv2)上进行测试,以验证作者提出的MPDIoU的性能。

本文的贡献总结如下:

  1. 作者考虑了现有IoU-based损失和损失的优缺点,并提出了一种基于最小点距离的IoU损失,即,来解决现有损失函数的问题,并获得更快的收敛速度和更准确的回归结果。

  2. 作者在目标检测、字符级场景文本识别和实例分割任务上进行了广泛的实验。出色的实验结果验证了提出的MPDIoU损失的优越性。详细的消融研究展示了不同损失函数和参数值设置的效果。

2、最小点距离交并比

在分析了IOU系列损失函数的优势和劣势之后,开始思考如何提高边界框回归的准确性和效率。通常情况下,使用左上角和右下角点的坐标来定义一个唯一的矩形。受到边界框几何特性的启发,作者设计了一种新颖的基于交并比的度量标准,名为MPDIoU,直接最小化预测边界框与实际标注边界框之间的左上角和右下角点距离。

MPDIoU的计算过程总结在算法1中。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第2张图片

通过使用MPDIoU作为新的损失度量,作者期望能够改善边界框回归的训练效果,提高收敛速度和回归精度。

总结一下,提出的MPDIoU简化了两个边界框之间的相似性比较,适用于重叠或非重叠的边界框回归。因此,在2D/3D计算机视觉任务中,MPDIoU可以很好地替代交并比作为所有性能指标的度量。

在本文中,作者仅关注2D目标检测和实例分割,可以将MPDIoU轻松应用为度量和损失函数。

3.1、MPDIoU作为边界框回归的损失函数

在训练阶段,通过最小化以下损失函数,使得模型预测的每个边界框 趋近于其对应的真实标注边界框:

89d9171db3ff5e1ce95a5a5b8685ac4c.png

在上述公式中,表示真实标注边界框的集合,表示用于回归的深度模型的参数。典型的损失函数L采用范数,例如均方误差(MSE)损失和损失,这些损失函数在目标检测、行人检测、场景文本识别、3D目标检测、姿态估计和实例分割等任务中得到广泛应用。

然而,最近的研究表明,基于范数的损失函数与评估指标——交并比(IoU)并不一致,因此提出了基于IoU的损失函数。

基于前面一节中MPDIoU的定义,作者定义基于MPDIoU的损失函数如下:

9c93d7341bd6e79445039fd2589b5b0f.png

因此,现有边界框回归损失函数的所有因素都可以通过4个点的坐标来确定。转换公式如下所示:

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第3张图片

在上述公式中,表示覆盖和的最小外接矩形的面积,和分别表示真实标注边界框和预测边界框的中心点坐标。和表示真实标注边界框的宽度和高度,和表示预测边界框的宽度和高度。

从公式(10)-(12)中可以发现所有现有损失函数中考虑的因素都可以通过左上角点和右下角点的坐标来确定,例如非重叠面积、中心点距离、宽度和高度的偏差,这意味着作者提出的不仅考虑全面,还简化了计算过程。

根据定理3.1,如果预测边界框和真实标注边界框具有相同的宽高比,那么预测边界框位于真实标注边界框内的值低于预测边界框位于真实标注边界框外的情况。这一特性保证了边界框回归的准确性,倾向于提供具有较少冗余的预测边界框。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第4张图片 超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第5张图片

考虑到真实标注边界框是一个面积大于零的矩形,即。算法2中的条件(1)和算法2中的条件(6)确保了预测面积和交集面积为非负值,即和,对于任何。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第6张图片

因此,对于任何预测边界框,其并集面积。这确保了交并比的分母在任何预测输出值下都不会为零。此外,对于任何的值,其并集面积总是大于等于交集面积,即U ≥ I。

因此,始终有界,即0 ≤  < 3,对于任何。当IoU = 0时,的行为:

对于MPDIoU损失,作者有。在和不重叠的情况下,即,MPDIoU损失可以简化为。在这种情况下,通过最小化,作者实际上是在最小化。这一项是一个介于0和1之间的归一化度量,即。

3、实验

3.1、目标检测的实验结果

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第7张图片

根据原始代码的训练方案,作者在数据集的训练集和验证集上使用每种损失函数训练了YOLOv7模型,训练时长为150个epochs。作者将早停机制的patience设置为5,以减少训练时间,并保存在验证集上性能最佳的模型检查点。针对每种损失函数,使用性能最佳的检查点在PASCAL VOC 2007&2012的测试集上评估了它们的性能。结果已在表1中报告。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第8张图片

3.2、字符级场景文本定位的实验结果

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第9张图片 超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第10张图片

正如作者在表2和表3中看到的,使用作为YOLOv7的回归损失进行训练可以显著提高其性能,相比于现有的回归损失,包括、、和。作者提出的在字符级场景文本识别方面表现出色。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第11张图片

3.3、实例分割的实验结果

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第12张图片

正如图8(c)所示,在将、、和作为回归损失纳入YOLACT在MS COCO 2017上的训练后,性能略有提升。然而,与使用训练的情况相比,性能的改进明显。作者在不同的IoU阈值下,即0.5 ≤ IoU ≤ 0.95,可视化了不同值的mask AP。与上述实验类似,使用作为回归损失可以提高检测准确性,超过现有的损失函数。

如表4所示,作者提出的在大多数指标上表现优于现有的损失函数。然而,与前面的实验相比,不同损失之间的改进幅度较小。这可能由几个因素造成。首先,YOLACT上的检测锚点框比YOLOv7更密集,导致在像非重叠边界框这样的场景中具有优势的情况较少。其次,过去几年中已对边界框回归的现有损失函数进行了改进,这意味着准确性的改进非常有限,但效率方面仍有较大的改进空间。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第13张图片

作者还比较了在不同回归损失函数下,YOLACT训练期间bbox损失和AP值的趋势。如图8(a)和(b)所示,使用进行训练比大多数现有的损失函数,如、表现更好,达到更高的准确性和更快的收敛速度。尽管bbox损失和AP值显示出很大的波动,但作者提出的在训练结束时表现更好。

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第14张图片

为了更好地展现不同边界框回归损失函数在实例分割中的性能,作者提供了一些可视化结果,如图5和9所示。正如作者可以看到的,基于的实例分割结果具有较少的冗余和更高的准确性,而不同于、、和。

4、总结

在本文中,作者引入了一种名为MPDIoU的新度量标准,基于最小点距离,用于比较任意两个边界框。作者证明了这个新的度量标准具有现有IoU-based度量标准的所有优点,同时简化了其计算过程。它将成为在所有依赖IoU度量标准的2D/3D视觉任务中更好的选择。

作者还提出了一种名为的损失函数,用于边界框回归。通过将其应用于最先进的目标检测和实例分割算法,作者在流行的目标检测、场景文本识别和实例分割基准数据集(如PASCAL VOC、MS COCO、MTHv2和IIIT5K)上改进了它们的性能,使用了常用的性能度量以及作者提出的MPDIoU。

由于度量标准的最优损失就是度量标准本身,作者的MPDIoU损失可以作为所有需要2D边界框回归的应用程序的最优边界框回归损失。

对于未来的工作,作者希望在基于目标检测和实例分割的一些下游任务上进行进一步的实验,包括场景文本识别、行人重识别等。通过上述实验,作者可以进一步验证作者提出的损失函数的泛化能力。

5、参考

[1].MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression.

6、推荐阅读

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第15张图片

全新ViT Backbone | PLG-ViT 同时具有并行局部和全局自注意力的轻量化视觉Transformer


超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第16张图片

集检测与分类于一身的LVLane来啦 | 正面硬刚ADAS车道线落地的困难点


超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第17张图片

Q-YOLOP来啦 | 一个具有量化感知全景驾驶感知模型

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码学习)

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第18张图片 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第19张图片

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

超越所有类IoU!MPDIoU:让YOLOv7/YOLACT涨点,速度不减!_第20张图片

你可能感兴趣的:(YOLO)