自动驾驶之心

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！

作者 | 小书童编辑 | 集智书童

原文链接：https://mp.weixin.qq.com/s/iBp2snTu_4RYcRIh9qGRnQ#rd

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【目标检测】技术交流群

本文只做学术分享，如有侵权，联系删文

边界框回归（Bounding Box Regression，BBR）在目标检测和实例分割中被广泛应用，是定位目标的重要步骤。然而，大多数现有的边界框回归损失函数在预测框与实际标注框具有相同的宽高比但宽度和高度值完全不同的情况下无法进行优化。

为了解决上述问题，作者充分探索了水平矩形的几何特征，提出了一种基于最小点距离的边界框相似度比较度量——MPDIoU，其中包含了现有损失函数中考虑的所有相关因素，例如重叠或非重叠面积、中心点距离以及宽度和高度的偏差，同时简化了计算过程。在此基础上，作者提出了一种基于MPDIoU的边界框回归损失函数，称为。

实验结果表明，将MPDIoU损失函数应用于最先进的实例分割（如YOLACT）和目标检测（如YOLOv7）模型，在PASCAL VOC、MS COCO和IIIT5k数据集上优于现有的损失函数。

1、简介

目标检测和实例分割是计算机视觉中两个重要的问题，在过去几年中吸引了大量研究人员的兴趣。大多数最先进的目标检测器（例如YOLO系列，Mask R-CNN，Dynamic R-CNN和DETR）依赖于边界框回归（BBR）模块来确定目标的位置。基于这种模式，设计良好的损失函数对于BBR的成功非常重要。到目前为止，大多数现有的BBR损失函数可分为两类：

基于范数的损失函数
基于交并比（IoU）的损失函数

然而，现有的大多数BBR损失函数在不同预测结果下具有相同的值，这降低了边界框回归的收敛速度和准确性。因此，考虑到现有BBR损失函数的优缺点，并受到水平矩形的几何特征启发，作者尝试设计一种基于最小点距离的新型损失函数，用MPDIoU作为新的度量标准，比较边界框回归过程中预测边界框与实际标注边界框之间的相似性。

作者还提供了一个简单易实现的解决方案，用于计算两个轴对齐矩形之间的MPDIoU，使其可以作为评估指标纳入最先进的目标检测和实例分割算法中，并在一些主流的目标检测、场景文本识别和实例分割数据集（如PASCAL VOC，MS COCO，IIIT5k和MTHv2）上进行测试，以验证作者提出的MPDIoU的性能。

本文的贡献总结如下：

作者考虑了现有IoU-based损失和损失的优缺点，并提出了一种基于最小点距离的IoU损失，即，来解决现有损失函数的问题，并获得更快的收敛速度和更准确的回归结果。
作者在目标检测、字符级场景文本识别和实例分割任务上进行了广泛的实验。出色的实验结果验证了提出的MPDIoU损失的优越性。详细的消融研究展示了不同损失函数和参数值设置的效果。

2、最小点距离交并比

在分析了IOU系列损失函数的优势和劣势之后，开始思考如何提高边界框回归的准确性和效率。通常情况下，使用左上角和右下角点的坐标来定义一个唯一的矩形。受到边界框几何特性的启发，作者设计了一种新颖的基于交并比的度量标准，名为MPDIoU，直接最小化预测边界框与实际标注边界框之间的左上角和右下角点距离。

MPDIoU的计算过程总结在算法1中。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第2张图片

通过使用MPDIoU作为新的损失度量，作者期望能够改善边界框回归的训练效果，提高收敛速度和回归精度。

总结一下，提出的MPDIoU简化了两个边界框之间的相似性比较，适用于重叠或非重叠的边界框回归。因此，在2D/3D计算机视觉任务中，MPDIoU可以很好地替代交并比作为所有性能指标的度量。

在本文中，作者仅关注2D目标检测和实例分割，可以将MPDIoU轻松应用为度量和损失函数。

3.1、MPDIoU作为边界框回归的损失函数

在训练阶段，通过最小化以下损失函数，使得模型预测的每个边界框趋近于其对应的真实标注边界框：

在上述公式中，表示真实标注边界框的集合，表示用于回归的深度模型的参数。典型的损失函数L采用范数，例如均方误差（MSE）损失和损失，这些损失函数在目标检测、行人检测、场景文本识别、3D目标检测、姿态估计和实例分割等任务中得到广泛应用。

然而，最近的研究表明，基于范数的损失函数与评估指标——交并比（IoU）并不一致，因此提出了基于IoU的损失函数。

基于前面一节中MPDIoU的定义，作者定义基于MPDIoU的损失函数如下：

因此，现有边界框回归损失函数的所有因素都可以通过4个点的坐标来确定。转换公式如下所示：

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第3张图片

在上述公式中，表示覆盖和的最小外接矩形的面积，和分别表示真实标注边界框和预测边界框的中心点坐标。和表示真实标注边界框的宽度和高度，和表示预测边界框的宽度和高度。

从公式（10）-（12）中可以发现所有现有损失函数中考虑的因素都可以通过左上角点和右下角点的坐标来确定，例如非重叠面积、中心点距离、宽度和高度的偏差，这意味着作者提出的不仅考虑全面，还简化了计算过程。

根据定理3.1，如果预测边界框和真实标注边界框具有相同的宽高比，那么预测边界框位于真实标注边界框内的值低于预测边界框位于真实标注边界框外的情况。这一特性保证了边界框回归的准确性，倾向于提供具有较少冗余的预测边界框。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第4张图片

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第5张图片

考虑到真实标注边界框是一个面积大于零的矩形，即。算法2中的条件（1）和算法2中的条件（6）确保了预测面积和交集面积为非负值，即和，对于任何。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第6张图片

因此，对于任何预测边界框，其并集面积。这确保了交并比的分母在任何预测输出值下都不会为零。此外，对于任何的值，其并集面积总是大于等于交集面积，即U ≥ I。

因此，始终有界，即0 ≤ < 3，对于任何。当IoU = 0时，的行为：

对于MPDIoU损失，作者有。在和不重叠的情况下，即，MPDIoU损失可以简化为。在这种情况下，通过最小化，作者实际上是在最小化。这一项是一个介于0和1之间的归一化度量，即。

3、实验

3.1、目标检测的实验结果

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第7张图片

根据原始代码的训练方案，作者在数据集的训练集和验证集上使用每种损失函数训练了YOLOv7模型，训练时长为150个epochs。作者将早停机制的patience设置为5，以减少训练时间，并保存在验证集上性能最佳的模型检查点。针对每种损失函数，使用性能最佳的检查点在PASCAL VOC 2007&2012的测试集上评估了它们的性能。结果已在表1中报告。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第8张图片

3.2、字符级场景文本定位的实验结果

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第9张图片

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第10张图片

正如作者在表2和表3中看到的，使用作为YOLOv7的回归损失进行训练可以显著提高其性能，相比于现有的回归损失，包括、、和。作者提出的在字符级场景文本识别方面表现出色。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第11张图片

3.3、实例分割的实验结果

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第12张图片

正如图8(c)所示，在将、、和作为回归损失纳入YOLACT在MS COCO 2017上的训练后，性能略有提升。然而，与使用训练的情况相比，性能的改进明显。作者在不同的IoU阈值下，即0.5 ≤ IoU ≤ 0.95，可视化了不同值的mask AP。与上述实验类似，使用作为回归损失可以提高检测准确性，超过现有的损失函数。

如表4所示，作者提出的在大多数指标上表现优于现有的损失函数。然而，与前面的实验相比，不同损失之间的改进幅度较小。这可能由几个因素造成。首先，YOLACT上的检测锚点框比YOLOv7更密集，导致在像非重叠边界框这样的场景中具有优势的情况较少。其次，过去几年中已对边界框回归的现有损失函数进行了改进，这意味着准确性的改进非常有限，但效率方面仍有较大的改进空间。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第13张图片

作者还比较了在不同回归损失函数下，YOLACT训练期间bbox损失和AP值的趋势。如图8(a)和(b)所示，使用进行训练比大多数现有的损失函数，如、表现更好，达到更高的准确性和更快的收敛速度。尽管bbox损失和AP值显示出很大的波动，但作者提出的在训练结束时表现更好。

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第14张图片

为了更好地展现不同边界框回归损失函数在实例分割中的性能，作者提供了一些可视化结果，如图5和9所示。正如作者可以看到的，基于的实例分割结果具有较少的冗余和更高的准确性，而不同于、、和。

4、总结

在本文中，作者引入了一种名为MPDIoU的新度量标准，基于最小点距离，用于比较任意两个边界框。作者证明了这个新的度量标准具有现有IoU-based度量标准的所有优点，同时简化了其计算过程。它将成为在所有依赖IoU度量标准的2D/3D视觉任务中更好的选择。

作者还提出了一种名为的损失函数，用于边界框回归。通过将其应用于最先进的目标检测和实例分割算法，作者在流行的目标检测、场景文本识别和实例分割基准数据集（如PASCAL VOC、MS COCO、MTHv2和IIIT5K）上改进了它们的性能，使用了常用的性能度量以及作者提出的MPDIoU。

由于度量标准的最优损失就是度量标准本身，作者的MPDIoU损失可以作为所有需要2D边界框回归的应用程序的最优边界框回归损失。

对于未来的工作，作者希望在基于目标检测和实例分割的一些下游任务上进行进一步的实验，包括场景文本识别、行人重识别等。通过上述实验，作者可以进一步验证作者提出的损失函数的泛化能力。

5、参考

[1].MPDIoU: A Loss for Efficient and Accurate Bounding Box Regression.

6、推荐阅读

全新ViT Backbone | PLG-ViT 同时具有并行局部和全局自注意力的轻量化视觉Transformer

集检测与分类于一身的LVLane来啦 | 正面硬刚ADAS车道线落地的困难点

Q-YOLOP来啦 | 一个具有量化感知全景驾驶感知模型

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码学习）

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第18张图片

视频官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区，涉及30+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

超越所有类IoU！MPDIoU：让YOLOv7/YOLACT涨点，速度不减！_第19张图片

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、点云处理、端到端自动驾驶、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群，备注：学校/公司+方向+昵称（快速入群方式）

RK3576 Yolo 部署
1.开发背景Ubuntu下实现yolo计算比较常见，现实中我们需要在各种嵌入式板卡上实现yolo模型，在板卡上运行yolo也是常态。主要参考官方github和野火教程。2.开发需求在RK3576上运行yolov8的官方例程3.开发环境Ubuntu20.04+Conda+Yolov8+RK35764.实现步骤4.1PyTorch文件转ONNX4.1.1下载权重文件下载官方权重文件yolov8n.pt
【YOLOv11】ultralytics最新作品yolov11 AND 模型的训练、推理、验证、导出以及使用 Jackilina_Stone #Deep Learning 【改进】YOLO系列 YOLO 人工智能 python 计算机视觉深度学习
目录一ultralytics公司的最新作品YOLOV111yolov11的创新2安装YOLOv113PYTHONGuide二训练三验证四推理五导出模型六使用文档：https://docs.ultralytics.com/models/yolo11/代码链接：https://github.com/ultralytics/ultralyticsPerformanceMetrics
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-split_dota.py 红色的山茶花 YOLO 笔记深度学习
split_dota.pyultralytics\data\split_dota.py目录split_dota.py1.所需的库和模块2.defbbox_iof(polygon1:np.ndarray,bbox2:np.ndarray,eps:float=1e-6)->np.ndarray:3.defload_yolo_dota(data_root:str,split:str="train")->
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-augment.py
augment.pyultralytics\data\augment.py目录augment.py1.所需的库和模块2.classBaseTransform:3.classCompose:4.classBaseMixTransform:5.classCutMix(BaseMixTransform):6.classCopyPaste(BaseMixTransform):7.defv8_transfo
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
yolov11细节图有人给我介绍对象吗 AI论文写作 YOLO python 开发语言
C3kclassC3k(C3):"""C3kisaCSPbottleneckmodulewithcustomizablekernelsizesforfeatureextractioninneuralnetworks."""def__init__(self,c1,c2,n=
YOLOv10 全面升级解析：关键改进点一文掌握要努力啊啊啊计算机视觉 YOLO 目标跟踪人工智能目标检测深度学习
✅YOLOv10改进点详解一、前言YOLOv10是由Ultralytics团队在2024年提出的新一代目标检测模型，在保持高精度的同时进一步优化了部署效率和推理速度。它的核心改进包括：改进方向内容✅非解耦头轻量化设计消除非必要分支，减少冗余计算✅Anchor-Free模式默认启用，无需手动设置anchor✅TAL+DFLLoss提升边界框回归质量✅多任务统一接口detect/segment/pos
YOLOv11性能评估全解析：从理论到实战的指标指南芯作者 D2:YOLO YOLO 计算机视觉
深入剖析目标检测核心指标，掌握模型优化的关键密码为什么需要性能评估指标？在目标检测领域，YOLO系列模型以其卓越的速度-精度平衡成为行业标杆。当我们训练或使用YOLOv11模型时，一个核心问题始终存在：如何量化模型的性能？性能评估指标正是回答这个问题的关键工具，它们不仅衡量模型效果，更是模型优化迭代的导航灯。本文将系统解析YOLOv11的七大核心评估指标，结合理论公式、可视化解释和实战代码，带您深
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-metrics.py 红色的山茶花 YOLO 笔记深度学习
metrics.pyultralytics\utils\metrics.py目录metrics.py1.所需的库和模块2.defbbox_ioa(box1:np.ndarray,box2:np.ndarray,iou:bool=False,eps:float=1e-7)->np.ndarray:3.defbox_iou(box1:torch.Tensor,box2:torch.Tensor,eps
YOLOv12_ultralytics-8.3.145部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.definverse_sigmoid(x,eps=1e-5):4.defmulti_scale_deformable_attn_pytorch(value:torch.Tensor,value_spatial_shapes:t
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-loss.py 红色的山茶花 YOLO 笔记深度学习
loss.pyultralytics\utils\loss.py目录loss.py1.所需的库和模块2.classVarifocalLoss(nn.Module):3.classFocalLoss(nn.Module):4.classDFLoss(nn.Module):5.classBboxLoss(nn.Module):6.classv8DetectionLoss:7.classE2EDetec
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-utils.py 红色的山茶花 YOLO 笔记深度学习
utils.pyultralytics\nn\modules\utils.py目录utils.py1.所需的库和模块2.def_get_clones(module,n):3.defbias_init_with_prob(prior_prob=0.01):4.deflinear_init(module):5.definverse_sigmoid(x,eps=1e-5):6.defmulti_scal
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-predict.py 红色的山茶花 YOLO 笔记深度学习
predict.pyultralytics\models\yolo\detect\predict.py目录predict.py1.所需的库和模块2.classDetectionPredictor(BasePredictor):1.所需的库和模块#UltralyticsAGPL-3.0License-https://ultralytics.com/licensefromultralytics.eng
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-torch_utils.py 红色的山茶花 YOLO 笔记深度学习
torch_utils.pyultralytics\utils\torch_utils.py目录torch_utils.py1.所需的库和模块2.defsmart_inference_mode():3.defautocast(enabled:bool,device:str="cuda"):4.deftime_sync():5.deffuse_conv_and_bn(conv,bn):6.deffu
YOLOv12_ultralytics-8.3.145_2025_5_27部分代码阅读笔记-autobackend.py 红色的山茶花 YOLO 笔记深度学习
autobackend.pyultralytics\nn\autobackend.py目录autobackend.py1.所需的库和模块2.defcheck_class_names(names:Union[List,Dict])->Dict[int,str]:3.defdefault_class_names(data:Optional[Union[str,Path]]=None)->Dict[in
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据郎郎不会飞深度学习目标识别 python 深度学习
深度学习目标检测之YOLOv3实战（二）训练自己的图像数据数据集准备数据集预处理原demo修改数据集训练目标检测补充二零二零年的大年初一，给大家拜个年，祝大家鼠年吉祥，万事如意，趁着喜气，把Yolov3训练自己的数据过程，记录一下，共勉共进。同样，无人机搭载山狗拍摄的视频，目标检测的种类是模型tank和airplane，部分效果图镇贴：数据集准备首先需要将自己的数据集准备好，不同场景下的目标数据尽
YOLOv12 正式发布 | 检测效果超越YOLO11！！
论文地址：YOLOv12:Attention-CentricReal-TimeObjectDetectors代码地址：https://github.com/sunsmarterjie/yolov12提升YOLO框架的网络架构一直至关重要，尽管注意力机制在建模能力方面已被证明具有优越性，但长期以来一直专注于基于CNN的改进。这是因为基于注意力的模型无法与基于CNN的模型的速度相匹配。本文提出了一种以
D-FINE模型详解及代码复现清风AI 目标跟踪人工智能计算机视觉深度学习机器学习 python 神经网络
研究背景在实时目标检测领域的快速发展背景下，D-FINE作为一项突破性的方法应运而生。它超越了现有模型如YOLOv10、YOLO11及RT-DETRv1/v2/v3，重新定义了边界框回归任务，显著提升了实时目标检测的性能上限。D-FINE通过创新的细粒度分布优化(FDR)和全局最优定位自蒸馏(GO-LSD)机制，为目标检测领域带来了新的突破，为未来的研究奠定了基础。创新优势D-FINE模型在创新方
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
YOLOV10的tensorrt C++部署 dddccc1234 YOLO
根据博客进行python版本安装YOLOv10最全使用教程（含ONNX和TensorRT推理）-CSDN博客并将pt转为onnx：yoloexportmodel=yolov10s.ptformat=onnxopset=13simplify然后采用：https://github.com/hamdiboukamcha/yolov10-tensorrt.git进行c++编译配置好cuda11.7tens
YOLOv11: AN OVERVIEW OF THE KEY ARCHITECTURAL ENHANCEMENTS目标检测论文精读（逐段解析）昵称是6硬币 (持续更新)YOLO 深度学习计算机视觉人工智能目标检测图像处理
YOLOv11:ANOVERVIEWOFTHEKEYARCHITECTURALENHANCEMENTS目标检测论文精读（逐段解析）论文地址：https://www.arxiv.org/abs/2410.17725RahimaKhanamandMuhammadHussainUltralytics公司发布CVPR2024论文写的比较简单，比较核心的改进包括：C3K2高效特征提取机制。对C2f模块的改进
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
从入门到实战：YOLOv13 安装与使用全攻略奔跑吧邓邓子必备核心技能 YOLO 目标跟踪人工智能安装使用全攻略
目录一、YOLOv13简介1.1目标检测与YOLO系列1.2YOLOv13核心技术亮点1.3性能优势展现二、前期准备2.1系统环境要求2.2软件依赖安装三、安装流程3.1获取源码3.2环境搭建3.3安装验证四、使用指南4.1模型验证4.2模型训练4.3模型推理4.4模型导出五、应用案例与技巧5.1实际应用场景展示5.2常见问题与解决方法5.3优化技巧分享六、总结与展望6.1YOLOv13回顾6.2
YOLOv13：目标检测的全面攻略与实战指南奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能全攻略实战
目录一、YOLOv13简介1.1YOLO系列发展回顾1.2YOLOv13的特点与优势二、YOLOv13原理剖析2.1HyperACE技术详解2.2FullPAD技术详解2.3轻量级卷积替换技术详解三、YOLOv13性能对比3.1与其他YOLO版本对比3.2实际应用场景对比四、YOLOv13项目结构与使用方式4.1仓库文件结构介绍4.2快速上手步骤五、YOLOv13优化技巧5.1数据增强技巧5.2锚
ss928v100模型的导出、量化和转换 yunken28 python 开发语言
1、yolov8导出为onnxfromultralyticsimportYOLOmodel=YOLO("./best.pt")model.export(format="onnx",imgsz=640,dynamic=False,simplify=True,opset=11,batch=1,half=False)以下是model.export()方法各参数的详细解释：‌format="onnx"‌指
番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能小哥谈 YOLOv8：从入门到实战 YOLO 深度学习人工智能机器学习计算机视觉神经网络
前言：Hello大家好，我是小哥谈。SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。该机制通过建模通道间关系来自适应地重新校准通道特征响应。在遮挡小目标检测中的应用优势包括：1）通道注意力增强：SEAM通过全局平均池化捕获通道级全局信息，帮助网络在遮挡情况下仍能关注关键特征。2）多尺度特
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p