00000cj

YOLO v2原理与代码解析

YOLO v1的缺点

YOLO v2相比于v1做的改进

Darknet-19

Loss

Reference

论文《YOLO9000: Better, Faster, Stronger》

代码 https://github.com/allanzelener/YAD2K

YOLO v1的缺点

定位错误多
召回率低

YOLO v2相比于v1做的改进

Batch Normalization. 作者为所有的卷积层都加上了BN层，得到了2%的mAP提升。
High Resolution Classifer. YOLO v1是先用224 $\times$ 224的输入在ImageNet数据集上进行预训练，然后将输入改成448 $\times$ 448再在检测任务上微调。这样在检测任务上微调时网络既要转而学习物体位置信息同时还要适应新的输入大小。YOLO v2改成先用224 $\times$ 224的输入在ImageNet上训练160个epoch，然后将输入调整到448 $\times$ 448继续在ImageNet上训练10个epoch，然后再用448 $\times$ 448的输入微调检测任务，这样有利于网络顺利适应输入分辨率的改变。这一做法得到了4%的mAP提升。
Convolutional With Anchor Boxes. 作者借鉴Faster RCNN的思想引入anchor。首先删掉了全连接层和最后一个pooling层，使得网络输出有更高的分辨率。然后将网络输入从448 $\times$ 448缩减到416 $\times$ 416，这样做是为了使输出feature map的宽高是奇数，从而feature map只有一个中心点。作者发现待检测的物体尤其是大的物体大都会占据图片的中间位置，用feature map的1个中心点而不是附近的4个来预测这类物体效果会更好。YOLO v2的网络最终输出的下采样步长为32，因此输入为416 $\times$ 416的情况下输出为13 $\times$ 13。YOLO v1直接根据空间位置即每个网格来预测类别和objectness（objectness预测的是ground truth box和proposal box之间的IOU），YOLO v2针对每个anchor都会预测类别和objectness。使用anchor box预测准确度会有微小的下降，但召回率会有大幅提升。不用anchor box的情况下模型会得到69.5的mAP和81%的recall，用anchor box则会得到69.2的mAP和88%的recall，召回率的大幅提升意味着模型还有更多可提升的空间。
Dimension Clusters. 作者在用anchor box的时候遇到两个问题，第一个是anchor的尺寸是手工挑选的，虽然通过训练网络可以学习到anchor box和ground truth box之间的偏差，但如果一开始能选出更合适的尺寸的anchor会更有助于网络的学习，所以作者采用k-means算法对训练集的ground truth box做聚类来自动挑选出更合适的anchor。同时作者发现如果采用以欧式距离衡量差异的标准的k-means算法，大的box相比于小的box会产生更多误差，而实际要选的anchor是希望和ground truth产生更大IOU score而和anchor的大小无关，因此采用如下的距离指标：

通过实验，通过聚类挑选的5个anchor与ground truth的平均IOU就能达到Faster RCNN手工挑选的9个anchor的效果，如果是9个anchor则平均IOU大幅超过后者。因此通过聚类得到的先验框比手动设置的更易于网络学习。
Direct location prediction. 用anchor box遇到的第二个问题是模型不稳定，尤其是训练的开始阶段。作者认为不稳定主要来源于预测box的中心坐标 $\left ( x,y \right )$ 。Region proposal network中预测 $t_{x}$ 和 $t_{y}$ 并通过如下式子得到预测box的真实中心坐标 $\left ( x,y \right )$ 的

（注意论文中是减号是错误的）。当 $t_{x}=1$ 时意味着将anchor box的中心点向右偏移这个anchor box的宽度即得到预测box的真实中心坐标。这个式子对预测位置未加限制导致任意位置的anchor box对应的预测框可以落在图片中的任意位置，随机初始化的网络需要很长时间才能稳定地预测出正确的偏差。因此作者沿用YOLO v1的方法，预测box的中心点相对于对应cell的左上角位置的偏移，这使得ground truth的值在0到1之间，作者使用了sigmoid激活函数使得网络的最终预测结果也在0到1之间。网络最终输出13 $\times$ 13的feature map即有13 $\times$ 13个cell，每个cell有5个anchor box来预测5个bounding box，每个bounding box预测 $t_{x},t_{y},t_{w},t_{h},t_{o}$ 共5个值。如果某个cell相对于图片左上角的偏移为 $\left ( c_{x},c_{y} \right )$ ，这个cell的其中1个anchor的宽高为 $p_{w},p_{h}$ ，则根据网络的预测值由如下转换可得到预测box的实际位置和大小

相比于直接使用anchor box，dimension clusters结合direct location prediction获得了5%的mAP提升。
Fine-Grained Features. 修改后的YOLO v2是在13 $\times$ 13的输出feature map上做预测，这对于预测大目标足够了，但如果能融合网络浅层的特征则更有利于小目标的检测。Faster R-CNN和SSD是通过在不同层的feature map上做预测来得到不同大小的proposal，YOLO v2则是通过层实现浅层与深层特征的拼接。具体是将 $26\times 26\times 512$ 的特征图在spatial方向进行隔点采样分为4个 $13\times 13\times 512$ 的特征图，并在channel方向进行拼接得到 $13\times 13\times 2048$ 的特征图然后再与 $13\times 13\times 1024$ 的浅层特征图进行拼接得到 $13\times 13\times 3072$ 的输出，然后在该特征图上进行预测。通过passthrough层模型得到了1%的提升。
Multi-Scale Training. 由于网络只有卷积和池化层，网络的输入不用固定，可以在训练中进行改变。为了使模型对不同尺寸的输入图片检测效果更加鲁棒，作者引入了多尺度训练，即每迭代一定次数就改变网络的输入大小。由于网络输出下采样了32倍，因此选用32的倍数作为输入大小，共{320, 352, ..., 608}10种尺寸，即最小 $320\times 320$ ，最大 $608\times 608$ 。（紧接着作者又说在 $288\times 288$ 的输入上能超过90FPS）

Darknet-19

为了使模型更快，作者设计了一个新的网络Darknet-19，由19个卷积层和5个maxpooling层组成。对于1张224 $\times$ 224大小的图片，VGG-16一次前向推导需要30.69 billion次浮点运算，YOLO v1需要8.52 billion次浮点运算，而Darknet-19只需要5.58 billion次浮点运算。用于分类训练的Darknet-19结构如下图所示

用于目标检测训练的网络在Darket-19的基础上移除了最后一层卷积层并添加了3个3 $\times$ 3 $\times$ 1024的卷积层以及1层num_out $\times$ 1 $\times$ 1的卷积层，对于VOC数据集每个cell预测5个box，每个box包含5个坐标值和20个类别score，则num_out = 5 $\times$ (5+20) = 125。同时从最后一个3 $\times$ 3 $\times$ 512的卷积层到倒数第二层之间添加了一个passthrough层，具体结构如下图所示

Loss

论文里并没有提到loss，对C语言不熟也没去看官方darknet框架的实现，只能通过看别人的博客来做个整理。大多采用的是以下两个版本

首先应该明确哪些预测框需要计算损失，对于网络输出的所有预测框，每个预测框都与各个ground truth计算IOU值，在这些IOU值中取最大值就是Max IOU。然后根据Max IOU和是否匹配ground truth可以把预测框分为三类并计算损失。

如果某一个预测框的Max IOU小于0.6(说明它预测背景)且不匹配ground truth, 则这个预测框计算置信度损失。
如果某一个预测框的Max IOU大于0.6，但是不和ground truth匹配，我们忽略其损失。
如果某一个预测框匹配ground truth。那么我们就要对这个预测框计算坐标、置信度和类别概率损失。

首先看一下这里的匹配ground truth的意思，和YOLO v1一样ground truth box的中心点落入哪个cell，那个cell就负责这个目标的检测。找到负责的cell后，每个cell有5个anchor分别与这个目标计算IOU，最大的那个anchor即和这个目标匹配。每个anchor会输出一个对应的预测框，网络最终会输出13 $\times$ 13 $\times$ 5个预测框，假设一张图片中有4个ground truth，那么这13 $\times$ 13 $\times$ 5个输出中只有4个预测框与这4个ground truth匹配。注意在找匹配anchor的过程中计算IOU时只考虑形状而不考虑具体位置，即先将anchor和ground truth box的中心对齐后（比如代码中是将中心都移到坐标原点）再进行计算。

detectors_mask, matching_true_boxes = preprocess_true_boxes(boxes, anchors, [416, 416])  # (4,5),(5,2)
# (13,13,5,1),(13,13,5,5)

YAD2K中上面这行代码即是找匹配anchor的，这里输入boxes的shape为(4,5)，即这张图片中有4个待检测目标，5是归一化后的每个目标中心点的坐标、宽高和类别。anchors的shape为(5,2)，即5个anchor在13 $\times$ 13的输出特征图上对应的宽高。输出detectors_mask和matching_true_boxes的shape分别为(13,13,5,1)、(13,13,5,5)，这里的detectors_mask中只有4个位置值为1其余全为0，这4个位置即为上面所说的匹配的anchor，matching_true_boxes在这对应的4个位置处放着anchor与ground truth中心点坐标和宽高的偏差以及类别。

每个cell中的每个anchor都会输出一个预测框，网络最终会输出13 $\times$ 13 $\times$ 5个预测框，每个预测框都会与所有ground truth计算IOU，然后取最大的Max IOU，注意这里计算IOU时要考虑位置，即直接按实际位置计算，因此IOU可能会小于0。

object_detections = K.cast(best_ious > 0.6, K.dtype(best_ious))
no_object_weights = (no_object_scale * (1 - object_detections) * (1 - detectors_mask))
no_objects_loss = no_object_weights * K.square(-pred_confidence)

上面best_ious即为每个预测框和4个ground truth最大的Max IOU，1 - object_detection即为预测框的Max IOU小于0.6，1 - detectors_mask即为不匹配ground truth，- pred_confidence实际为0 - pred_confidence，这里计算的是no object的置信度，对应上面所说的三类预测框的第一点。

第三点所说的如果一个预测框匹配ground truth，那么我们就要对这个预测框计算坐标、置信度和类别概率损失。也就是说只有4个预测框会参与计算，只要乘以detectors_mask就可以了。

if rescore_confidence:
    objects_loss = (object_scale * detectors_mask *
                    K.square(best_ious - pred_confidence))
else:
    objects_loss = (object_scale * detectors_mask *
                    K.square(1 - pred_confidence))

这里计算的是匹配ground truth的预测框的置信度误差，YOLO v2中有一个控制参数rescore，如果rescore是False，那么target取1。如果rescore为True，target取预测框与ground truth的IOU值。

上面两个版本的loss中，版本1的第一行计算的是no object的置信度loss，第四行计算的是object的置信度loss。版本2的第一行计算的是no object和object的置信度loss。

接下来分类Loss和坐标Loss都比较简单，采用的都是均方误差

# Classification loss for matching detections.
# NOTE: YOLO does not use categorical cross-entropy loss here.
matching_classes = K.cast(matching_true_boxes[..., 4], 'int32')  # (?,13,13,5)
matching_classes = K.one_hot(matching_classes, num_classes)  # (?,13,13,5,20)
classification_loss = (class_scale * detectors_mask *
                       K.square(matching_classes - pred_class_prob))

# Coordinate loss for matching detection boxes.
matching_boxes = matching_true_boxes[..., 0:4]
coordinates_loss = (coordinates_scale * detectors_mask *
                    K.square(matching_boxes - pred_boxes))
# 这里缺了coordinate_scale * (2 - true_w * true_h)，起到类似于yolo v1平方根的作用

但需要注意的是在计算box的坐标误差时，YOLO v1中采用的是平方根以降低boxes的大小对误差的影响，而YOLO v2是直接计算，但是根据ground truth的大小对权重系数进行修正 coord_scale $\times$ (2 - truth_w $\times$ truth_h)，这样对于尺度较小的box其权重会更大一些，起到和YOLO v1计算平方根相似的效果。但是YAD2K这个实现中并没有加上这个权重系数。

还有一点需要注意，Loss函数版本1中的第二行和版本2中的最后一行是计算不负责预测物体的anchor的坐标损失，回归目标是anchor本身的中心位置和宽高，且只在前12800步计算。这个Loss看了很多博客还是没有搞清楚，引用其它博客的一个讲解，感觉这个讲的是最详细的一个了

YAD2K中也没有加上这个Loss。

Reference

https://blog.csdn.net/lwplwf/article/details/82895409

https://www.leiphone.com/news/201708/7pRPkwvzEG1jgimW.html

https://www.jianshu.com/p/e6582dfa6bb3

https://zhuanlan.zhihu.com/p/82099160

目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
【如何打包docker大镜像】青柚~ docker 容器运维
项目场景：需要将容器服务部署到离线服务器上；方案：本机的镜像进行打包，然后拷贝到服务器上部署问题描述提示：这里描述项目中遇到的问题：docker中镜像太大，以至于打包时电脑卡死解决方案：压缩打包dockersavemmyolo:v8|gzip>mmyolo.tar.gz拷贝到服务器上后先解压再加载#解压缩gunzipmmyolo.tar.gz#加载dockerload-immyolo.tar
计算机视觉总结 Trank-Lw 计算机视觉深度学习人工智能
以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络
YOLOV11|YOLO12改进系列指南魔鬼面具 YOLO
基于Ultralytics的YOLO11|YOLO12改进目前自带的一些改进方案(持续更新)为了感谢各位对本项目的支持,本项目的赠品是yolov5-PAGCP通道剪枝算法.具体使用教程专栏改进汇总YOLO11系列二次创新系列ultralytics/cfg/models/11/yolo11-RevCol.yaml使用(ICLR2023)ReversibleColumnNetworks对yolo11主
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
OCR提取+识别方案 ocr
1.内容提取通过YOLO提取需要识别的区域1.1安装ultralytics创建虚拟环境(可选)#创建虚拟环境python-mvenv.venv#激活虚拟环境###激活虚拟环境将更改shell的提示以显示您正在使用的虚拟环境，并修改环境，以便运行时python可以获得特定版本和安装的Python。例如：source.venv/bin/activate#显示虚拟环境中安装的所有软件包：python-m
【YOLOv8】YOLOv8改进系列（9）----替换主干网络之RepViT HABuo YOLOv8入门+改进 YOLO 目标检测深度学习计算机视觉人工智能
主页：HABUO主页：HABUOYOLOv8入门+改进专栏如果再也不能见到你，祝你早安，午安，晚安【YOLOv8改进系列】：【YOLOv8】YOLOv8结构解读YOLOv8改进系列（1）----替换主干网络之EfficientViTYOLOv8改进系列（2）----替换主干网络之FasterNetYOLOv8改进系列（3）----替换主干网络之ConvNeXtV2YOLOv8改进系列（4）----
CBNet--一种新的目标检测的复合骨干网体系结构 weixin_45963617 深度学习系列
一、Introduction一般来说，在一个典型的基于CNN的目标检测器中，使用主干网络来提取检测对象的基本特征，该网络通常是为图像分类任务而设计的，并在ImageNet上预训练。毫无疑问，更强大的主干网可以带来更好的检测性能。尽管最先进的基于深度的大骨干网络的探测器取得了很好的结果，但仍有很大改进空间。此外，通过设计一个新的更强大的主干网络并在ImageNet上预训练来获取好的检测性能是十分昂贵
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测计算机C9硕士_算法工程师人工智能 YOLO 目标检测遥感
如何使用YOLOv8在AI-TOD数据集上进行遥感目标检测，从安装依赖项、准备数据集、配置YOLOv8、训练和评估模型以及构建GUI应用程序展示检测文章目录1.安装依赖2.数据准备3.配置YOLOv83.1加载预训练模型或自定义模型4.训练模型5.评估模型6.构建GUI应用程序（可选）以下文字及代码仅供参考。遥感目标检测，AI-TOD数据集aitod，训练集11214张，测试集集14018，验证集
YOLO算法全面改进指南（二） niuTaylor YOLO改进 YOLO 算法
以下是为YOLO系列算法设计的系统性改进框架，结合前沿技术与多领域创新，提供可支持高水平论文发表的详细改进思路。本方案整合了轻量化设计、多模态融合、动态特征优化等创新点，并给出可验证的实验方向。一、多模态提示驱动的开放场景检测系统1.核心创新三模态提示机制：文本提示编码器：基于RepRTA（可重参数化区域文本对齐）构建轻量级文本编码网络，将自然语言描述映射为128维语义向量。视觉提示编码器：采用S
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
yolov8实战第七天——pyqt5-yolov8实现车牌识别系统（参考论文（约7000字）+环境配置+完整部署代码+代码使用说明+训练好的模型）学术菜鸟小晨 yolov8实战100天 python YOLO pyqt5 车牌识别毕业设计论文
基于pyqt5-yolov8实现车牌识别系统，包括图片车牌识别，视频车牌识别，视频流车牌识别。效果展示（图片检测，检测到的内容添加到历史记录）：效果展示（视频检测，视频车辆只会添加一条记录，下文更多实际应用中的优化策略）：新增功能：批量图片检测（2024/5/7更新代码）
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
目标检测中归一化的目的？林语微光 kaggle 目标检测目标跟踪人工智能
在目标检测任务中，归一化坐标和尺寸时需要除以图像的宽度和高度，主要有以下几个原因：1.统一尺度不同图像可能具有不同的宽度和高度。通过将坐标和尺寸除以图像的宽度和高度，可以将所有图像的标注信息统一到相同的尺度范围（[0,1]）。这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得
YOLOv12优化：图像去噪 | AAAI2025 Transformer |一种基于Transformer的盲点网络（TBSN）架构，结合空间和通道自注意力层来增强网络能力 AI小怪兽 YOLOv12魔术师 YOLO transformer 深度学习人工智能 python
提出了一种基于Transformer的盲点网络（TBSN）架构，通过分析和重新设计Transformer运算符以满足盲点要求。TBSN遵循扩张BSN的架构原则，并结合空间和通道自注意力层来增强网络能力。如何使用：1）结合C3k2二次创新使用；2）结合A2C2f二次创新使用；亮点包括：1.提出了一种新的基于Transformer的盲点网络（TBSN）架构；2.引入了知识蒸馏策略来提高计算效率；3.在
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
智慧城市道路防护栏破损缺陷检测数据集VOC+YOLO格式6939张3类别 FL1623863129 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：6939标注数量(xml文件个数)：6939标注数量(txt文件个数)：6939标注类别数：3标注类别名称(注意yolo格式类别顺序不和这个对应，而以labels文件夹classes.txt为准):["body","cr
将 VOC 格式 XML 转换为 YOLO 格式 TXT JeJe同学 xml YOLO
目录1.导入必要的模块2.定义类别名称3.设置文件路径完整代码1.导入必要的模块importosimportxml.etree.ElementTreeasETos：用于文件和目录操作，例如创建目录、遍历文件等。xml.etree.ElementTree：用于解析XML文件，从中提取信息。2.定义类别名称class_names=['nest','balloon','kite','trash']这是一
Yolov8训练自己的数据集(脱离ultralytics库) 爱吃肉的鹏 YOLO
最近在整理关于yolov8的相关内容，有个很大的问题，抛开yolov8性能不谈，yolov8代码的使用灵活性不如yolov5，尤其是对于一些新手或者对yolo框架不是很熟悉的人(这也是因人而异，有些人可能会喜欢v8代码的使用方式)。比如在使用v8的时候需要安装ultralytics库，然后再调用YOLO进行训练或者预测，那么就有这几个问题：问题1：安装了ultralytics库后如何使用YOLO呢
标签转换脚本 - VOC格式转COCO格式，即voc2coco，xml2json 附VOC及COCO标签格式详解 Limiiiing YOLO训练/写作脚本 YOLO 计算机视觉目标检测深度学习
前言本文的脚本功能为将VOC数据集的标签文件xml转成COCO的标签文件，指定自己的VOC数据集的标签文件路径后，可一键运行转成COCO的标签文件。专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！文章目录前言一、VOC数据集介绍1.1总体结构1.2各标
标签转换脚本 - VOC格式转YOLO格式，即voc2yolo，xml2txt 附VOC及YOLO标签格式详解 Limiiiing YOLO训练/写作脚本 YOLO 深度学习计算机视觉目标检测
前言本文的脚本功能为将VOC数据集的标签文件xml转成YOLO的标签文件，指定自己的VOC数据集的标签文件路径后，可一键运行转成YOLO的标签文件。专栏目录：YOLO训练/写作脚本目录一览|涉及标签转换、数据扩充、热力图、感受野、精度曲线、数量统计等近百个脚本文件专栏地址：YOLO训练/写作脚本——丰富文章内容，增强实验信服力，助力发文！！！文章目录前言一、VOC数据集介绍1.1总体结构1.2各标
log4j对象改变日志级别 3213213333332132 java log4j level log4j对象名称日志级别
log4j对象改变日志级别可批量的改变所有级别，或是根据条件改变日志级别。 log4j配置文件： log4j.rootLogger=ERROR,FILE,CONSOLE,EXECPTION #log4j.appender.FILE=org.apache.log4j.RollingFileAppender log4j.appender.FILE=org.apache.l
elk+redis 搭建nginx日志分析平台 ronin47 elasticsearch kibana logstash
elk+redis 搭建nginx日志分析平台 logstash,elasticsearch,kibana 怎么进行nginx的日志分析呢？首先，架构方面，nginx是有日志文件的，它的每个请求的状态等都有日志文件进行记录。其次，需要有个队列，redis的l
Yii2设置时区 dcj3sjt126com PHP timezone yii2
时区这东西，在开发的时候，你说重要吧，也还好，毕竟没它也能正常运行，你说不重要吧，那就纠结了。特别是linux系统，都TMD差上几小时，你能不痛苦吗？win还好一点。有一些常规方法，是大家目前都在采用的1、php.ini中的设置，这个就不谈了，2、程序中公用文件里设置，date_default_timezone_set一下时区3、或者。。。自己写时间处理函数，在遇到时间的时候，用这个函数处理（比较
js实现前台动态添加文本框，后台获取文本框内容 171815164 文本框
<%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://w
持续集成工具 g21121 持续集成
持续集成是什么？我们为什么需要持续集成？持续集成带来的好处是什么？什么样的项目需要持续集成？... 持续集成(Continuous integration ,简称CI)，所谓集成可以理解为将互相依赖的工程或模块合并成一个能单独运行
数据结构哈希表(hash)总结永夜-极光数据结构
1.什么是hash 来源于百度百科: Hash，一般翻译做“散列”，也有直接音译为“哈希”的，就是把任意长度的输入，通过散列算法，变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。
乱七八糟程序员是怎么炼成的
eclipse中的jvm字节码查看插件地址： http://andrei.gmxhome.de/eclipse/ 安装该地址的outline 插件后重启，打开window下的view下的bytecode视图 http://andrei.gmxhome.de/eclipse/ jvm博客： http://yunshen0909.iteye.com/blog/2
职场人伤害了“上司” 怎样弥补 aijuans 职场
由于工作中的失误，或者平时不注意自己的言行“伤害”、“得罪”了自己的上司，怎么办呢？　　在职业生涯中这种问题尽量不要发生。下面提供了一些解决问题的建议：　　一、利用一些轻松的场合表示对他的尊重　　即使是开明的上司也很注重自己的权威，都希望得到下属的尊重，所以当你与上司冲突后，最好让不愉快成为过去，你不妨在一些轻松的场合，比如会餐、联谊活动等，向上司问个好，敬下酒，表示你对对方的尊重，
深入浅出url编码 antonyup_2006 应用服务器浏览器 servlet weblogic IE
出处：http://blog.csdn.net/yzhz 杨争 http://blog.csdn.net/yzhz/archive/2007/07/03/1676796.aspx 一、问题：编码问题是JAVA初学者在web开发过程中经常会遇到问题，网上也有大量相关的
建表后创建表的约束关系和增加表的字段百合不是茶标的约束关系增加表的字段
下面所有的操作都是在表建立后操作的,主要目的就是熟悉sql的约束,约束语句的万能公式 1,增加字段(student表中增加姓名字段) alter table 增加字段的表名 add 增加的字段名增加字段的数据类型 alter table student add name varchar2(10); &nb
Uploadify 3.2 参数属性、事件、方法函数详解 bijian1013 JavaScript uploadify
一.属性属性名称默认值说明 auto true 设置为true当选择文件后就直接上传了，为false需要点击上传按钮才上传。 buttonClass ” 按钮样式 buttonCursor ‘hand’ 鼠标指针悬停在按钮上的样子 buttonImage null 浏览按钮的图片的路
精通Oracle10编程SQL(16)使用LOB对象 bijian1013 oracle 数据库 plsql
/* *使用LOB对象 */ --LOB(Large Object)是专门用于处理大对象的一种数据类型，其所存放的数据长度可以达到4G字节 --CLOB/NCLOB用于存储大批量字符数据，BLOB用于存储大批量二进制数据，而BFILE则存储着指向OS文件的指针 /* *综合实例 */ --建立表空间 --#指定区尺寸为128k,如不指定，区尺寸默认为64k CR
【Resin一】Resin服务器部署web应用 bit1129 resin
工作中，在Resin服务器上部署web应用，通常有如下三种方式：配置多个web-app 配置多个http id 为每个应用配置一个propeties、xml以及sh脚本文件配置多个web-app 在resin.xml中,可以为一个host配置多个web-app <cluster id="app&q
red5简介及基础知识白糖_ 基础
简介 Red5的主要功能和Macromedia公司的FMS类似，提供基于Flash的流媒体服务的一款基于Java的开源流媒体服务器。它由Java语言编写，使用RTMP作为流媒体传输协议，这与FMS完全兼容。它具有流化FLV、MP3文件，实时录制客户端流为FLV文件，共享对象，实时视频播放、Remoting等功能。用Red5替换FMS后,客户端不用更改可正
angular.fromJson boyitech AngularJS AngularJS 官方API AngularJS API
angular.fromJson 描述: 把Json字符串转为对象使用方法: angular.fromJson(json); 参数详解: Param Type Details json string JSON 字符串返回值: 对象, 数组, 字符串或者是一个数字示例: <!DOCTYPE HTML> <h
java-颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I bylijinnan java
public class ReverseWords { /** * 题目：颠倒一个句子中的词的顺序。比如： I am a student颠倒后变成：student a am I.词以空格分隔。 * 要求： * 1.实现速度最快,移动最少 * 2.不能使用String的方法如split,indexOf等等。 * 解答：两次翻转。 */ publ
web实时通讯 Chen.H Web 浏览器 socket 脚本
关于web实时通讯，做一些监控软件。由web服务器组件从消息服务器订阅实时数据，并建立消息服务器到所述web服务器之间的连接，web浏览器利用从所述web服务器下载到web页面的客户端代理与web服务器组件之间的socket连接，建立web浏览器与web服务器之间的持久连接；利用所述客户端代理与web浏览器页面之间的信息交互实现页面本地更新，建立一条从消息服务器到web浏览器页面之间的消息通路
[基因与生物]远古生物的基因可以嫁接到现代生物基因组中吗? comsci 生物
大家仅仅把我说的事情当作一个IT行业的笑话来听吧..没有其它更多的意思如果我们把大自然看成是一位伟大的程序员,专门为地球上的生态系统编制基因代码,并创造出各种不同的生物来,那么6500万年前的程序员开发的代码,是否兼容现代派的程序员的代码和架构呢?
oracle 外部表 daizj oracle 外部表 external tables
oracle外部表是只允许只读访问，不能进行DML操作，不能创建索引，可以对外部表进行的查询，连接，排序，创建视图和创建同义词操作。 you can select, join, or sort external table data. You can also create views and synonyms for external tables. Ho
aop相关的概念及配置 daysinsun AOP
切面(Aspect): 通常在目标方法执行前后需要执行的方法（如事务、日志、权限），这些方法我们封装到一个类里面，这个类就叫切面。连接点（joinpoint） spring里面的连接点指需要切入的方法，通常这个joinpoint可以作为一个参数传入到切面的方法里面（非常有用的一个东西）。通知（Advice）通知就是切面里面方法的具体实现，分为前置、后置、最终、异常环
初一上学期难记忆单词背诵第二课 dcj3sjt126com english word
middle 中间的，中级的 well 喔，那么；好吧 phone 电话，电话机 policeman 警察 ask 问 take 拿到；带到 address 地址 glad 高兴的，乐意的 why 为什么 China 中国 family 家庭 grandmother (外)祖母 grandfather (外)祖父 wife 妻子 husband 丈夫 da
Linux日志分析常用命令 dcj3sjt126com linux log
1.查看文件内容 cat -n 显示行号 2.分页显示 more Enter 显示下一行空格显示下一页 F 显示下一屏 B 显示上一屏 less /get 查询"get"字符串并高亮显示 3.显示文件尾 tail -f 不退出持续显示 -n 显示文件最后n行 4.显示头文件 head -n 显示文件开始n行 5.内容排序 sort -n 按照
JSONP 原理分析 fantasy2005 JavaScript jsonp jsonp 跨域
转自 http://www.nowamagic.net/librarys/veda/detail/224 JavaScript是一种在Web开发中经常使用的前端动态脚本技术。在JavaScript中，有一个很重要的安全性限制，被称为“Same-Origin Policy”（同源策略）。这一策略对于JavaScript代码能够访问的页面内容做了很重要的限制，即JavaScript只能访问与包含它的
使用connect by进行级联查询 234390216 oracle 查询父子 Connect by 级联
使用connect by进行级联查询 connect by可以用于级联查询，常用于对具有树状结构的记录查询某一节点的所有子孙节点或所有祖辈节点。来看一个示例，现假设我们拥有一个菜单表t_menu，其中只有三个字段：
一个不错的能将HTML表格导出为excel,pdf等的jquery插件 jackyrong jquery插件
发现一个老外写的不错的jquery插件，可以实现将HTML 表格导出为excel,pdf等格式，地址在： https://github.com/kayalshri/ 下面看个例子，实现导出表格到excel,pdf <html> <head> <title>Export html table to excel an
UI设计中我们为什么需要设计动效 lampcy UI UI设计
关于Unity3D中的Shader的知识首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，
如何禁止页面缓存 nannan408 html jsp cache
禁止页面使用缓存~ ------------------------------------------------ jsp:页面no cache： response.setHeader("Pragma","No-cache"); response.setHeader("Cache-Control","no-cach
以代码的方式管理quartz定时任务的暂停、重启、删除、添加等 Everyday都不同定时任务管理 spring-quartz
【前言】在项目的管理功能中，对定时任务的管理有时会很常见。因为我们不能指望只在配置文件中配置好定时任务就行了，因为如果要控制定时任务的 “暂停” 呢？暂停之后又要在某个时间点 “重启” 该定时任务呢？或者说直接 “删除” 该定时任务呢？要改变某定时任务的触发时间呢？ “添加” 一个定时任务对于系统的使用者而言，是不太现实的，因为一个定时任务的处理逻辑他是不
EXT实例 tntxia ext
（1）增加一个按钮 JSP: <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); Stri
数学学习在计算机研究领域的作用和重要性 xjnine Math
最近一直有师弟师妹和朋友问我数学和研究的关系，研一要去学什么数学课。毕竟在清华，衡量一个研究生最重要的指标之一就是paper,而没有数学，是肯定上不了世界顶级的期刊和会议的，这在计算机学界尤其重要！你会发现，不论哪个领域有价值的东西，都一定离不开数学！在这样一个信息时代，当google已经让世界没有秘密的时候，一种卓越的数学思维，绝对可以成为你的核心竞争力. 无奈本人实在见地

YOLO v2原理与代码解析

YOLO v1的缺点

YOLO v2相比于v1做的改进

Darknet-19

Loss

Reference

你可能感兴趣的:(目标检测,YOLO)