芦花似雪

YOLOv4: Optimal Speed and Accuracy of Object Detection论文学习

1. 概述

论文地址：https://arxiv.org/abs/2004.10934
github地址：https://github.com/AlexeyAB/darknet

1.1 文章主要改进

开发了一个efﬁcient并且powerful的目标检测模型，让每个人都可以使用1080Ti或2080TI GPU来训练一个fast并且accurate的目标检测模型；
验证了SOTA的BoF和BoS trick对目标检测模型训练的影响；
验证了SOTA的包括CBN，PAN，SAM等单GPU训练方法。

1.2 算法效果

2.相关工作

2.1 目标检测模型

通常来说，目标检测模型由以下4部分组成：

输入：图像、图像金字塔
骨干网络：VGG16，ResNet50，ResNeXt-101，Darknet53等
Neck： FPN，PAN，BiFPN等
Head：
Dense Prediction(One Stage Detector)：{RPN，YOLO，SSD，RetinaNet，FCOS}
Sparse Prediction(Two Stage Detector)：{Faster R-CNN，R-FCN}

2.2 Bag of Freebies

freebies的意思是提高模型的检测精度但不增加模型推理消耗的trick。

数据增强：

random erase和CutOut，与之类似的概念有 DropOut，DropConnect，DropBlock方法；
MixUp，CutMix，style transfer GAN方法。

类别不平衡：

hard negative example mining和online hard example mining一般用于two-stage目标检测模型；
focal loss，label smoothing， knowledge distillation。

损失函数：

MSE，IoU，GIoU，CIoU，DIoU

2.3 Bag of Specials

specials的意思是提高模型的检测精度也增加了推理消耗的trick。

增加感受野：

SPP，ASPP，RFB

注意力模块：

Squeeze-and-Excitation(SE)和Spatial Attention Module(SAM)

特征融合：

skip connection，hyper-column，FPN，SFAM，ASFF，BiFPN

激活函数：

ReLU，LReLU，PReLU，ReLU6，SELU，Swish，hard-Swish，Mish

NMS后处理：

NMS，greedy NMS，soft NMS，DIoU NMS

以上列出的Bag of Freebies和Bag of Specials在这里不做详细解释，想详细了解的请查看相应的论文。

3 实现方法

作者认为检测网络的基本目标是在系统中的快速运行和优化并行计算，而不是低计算量理论指标(BFLOP)。作者提出了两种实时神经网络方案：

对于GPU，作者在卷积层中使用少量groups(1-8)：CSPResNeXt50/CSPDarknet53
对于VPU，作者使用分组卷积，但不使用SE模块，具体包括以下模型：Efficientnet-lite/MixNet/GhostNet/MobileNetV3

3.1 选择网络结构

        选择网络结构的目标是找到网络输入分辨率、卷积层数、参数量( $ﬁlter size^2 * ﬁlters * channel / groups$ )和层输出数(ﬁlters)之间的最佳平衡。例如，经过作者的实验，就ILSVRC2012(ImageNet)数据集上的分类任务而言，CSPResNext50比CSPDarknet53要好得多。然而，在MS-COCO数据集上的目标检测任务，CSPDarknet53比CSPResNext50要好。
        另一个目标是选择额外的模块增加网络的感受野，并对不同的检测层级从骨干网络的不同层级选择最佳的参数聚集方法：例如FPN、PAN、ASFF、BiFPN。
        所以对于检测模型来说，分类最佳的参考模型并不总是最优的。与分类模型不同的是，检测模型的要求如下：

更高的输入分辨率——用于检测多个小尺寸目标；
更多层——用于更高的感受野，以覆盖增大尺寸的输入网络；
更多参数——使模型能够在单个图像中检测多个不同大小的目标。

Table1 图像分类神经网络参数

Backbone model	Input network resolution	Receptive ﬁeld size	Parameters	Average size of layer output( $W\times H\times C$ )	BFLOPs ( $512\times 512$ network resolution)	FPS(GPU RTX 2070)
CSPResNext50	512x512	425x425	20.6M	1058K	31(15.5 FMA)	62
CSPDarknet53	512x512	725x725	27.6M	950K	52(26.0 FMA)	66
EfﬁcientNet-B3 (ours)	512x512	1311x1311	12.0M	668K	11(5.5 FMA)	26

假设一个具有更大的感受野大小（具有更大数量的卷积层3×3）和更大数量的参数的模型应该被选为骨干网络。上表中显示了CSPResNeXt50，CSPDarknet53，Efficientnet B3的信息。CSPResNext50仅包含16个3×3卷积层、425×425的感受野和20.6M参数，而CSPDarknet53包含29个3×3卷积层、725×725的感受野和27.6M参数。理论上的证明，加上作者的大量实验，表明CSPDarknet53神经网络是两者结合最佳的检测模型骨干网络。

不同大小的感受野的影响总结如下：
- 大到目标大小——允许观察整个目标；
- 大到网络大小——允许观察目标周围的背景；
- 超过网络大小——增加图像点和最终激活之间的连接数。

        作者通过在CSPDarknet53添加了SPP模块来增加感受野，分离出了最重要的背景特征，并且几乎不会降低网络运行速度。使用了PANet代替YOLOv3中的FPN，从骨干网络的不同层级对的主干层对不同层的检测器层进行参数融合。
        最后，YOLOv4选择CSPDarknet53作为骨干网络，SPP作为附加模块，PANet作为特征融合的Neck，YOLOv3检测器作为Header。
        作者没有使用CGBN或SyncBN或昂贵的专用设备。目的是允许任何人在普通的GPU（如GTX 1080Ti或RTX 2080Ti）上复现论文最新成果。

3.2 选择BoF和BoS

为了提高目标检测训练效果，卷积神经网络通常使用下列方法：

激活函数：ReLU，leaky-ReLU，parametric-ReLU，ReLU6，SELU，Swish or Mish
边框回归：MSE，IoU，GIoU，CIoU，DIoU
数据增强：CutOut，MixUp，CutMix
正则化方法：DropOut，DropPath，Spatial DropOut，DropBlock
网络激活归一化方法：Batch Normalization，Cross-GPU Batch Normalization(CGBN or SyncBN)，Filter Response Normalization (FRN)，Cross-Iteration Batch Normalization (CBN)
跳跃连接：Residual connections，Weighted residual connections，Multi-input weighted residual connections，Cross stage partial connections (CSP)

对于训练激活函数来说，PReLU和SELU训练困难，ReLU6用来训练量化网络，故以上函数不予考虑；而DropBlock的作者详细比较了他们的方法和其他人的方法，DropBlock方法好很多，于是直接选择了DropBlock方法作为正则化方法；对于归一化方法的选择，因为作者的目标是单GPU训练，故syncBN不予考虑。

3.3 其他提升

为了让设计的检测模型更适合单GPU训练，作者增加了补充的设计和提高如下：

新的数据增强方法：Mosaic和自对抗训练(SAT)

自对抗训练包含两个阶段：在第一阶段，神经网络改变原始图像而不是网络权值。通过这种方式，神经网络对自身进行了一次对抗性攻击，改变原始图像，从而制造出图像上没有目标的欺骗。在第二阶段中，训练神经网络以正常方式检测该修改图像上的目标。
基于遗传算法选择训练超参数
详见https://github.com/ultralytics/yolov3/issues/392
修改了一些存在的方法，使得对训练和检测更有效，改进SAM, 改进PAN和Cross mini-Batch Normalization (CmBN)

3.4 YOLOv4

YOLOv4由以下模块组成：
- 骨干网络: CSPDarknet53
- Neck：SPP，PAN
- Head：YOLOv3
YOLOv4使用了一下方法：
- 对骨干网络的BoF: CutMix和Mosaic data augmentation, DropBlock regularization, Class label smoothing
- 对骨干网络的BoS：Mish activation, Cross-stage partial connections (CSP), Multi-input weighted residual connections (MiWRC)
- 对检测器的BoF: CIoU-loss, CmBN, DropBlock regularization, Mosaic data augmentation, Self-Adversarial Training, Eliminate grid sensitivity, Using multiple anchors for a single ground truth, Cosine annealing scheduler, Optimal hyperparameters, Random training shapes
- 对检测器的BoS：Mish activation, SPP-block, SAM-block, PAN path-aggregation block, DIoU-NMS

4 实验

作者在ImageNet(2012 val)和COCO 2017(test-dev 2017)数据集上分别验证了了各种trick对分类网络和检测网络准确率的提高效果。

4.1 实验设置

ImageNet图像分类实验中，迭代步数为8000000步；batch size和mini-batch size分别为128和32；采用了polynomial decay学习率下降方法，初始学习率为0.1；warm-up迭代步数为1000；momentum和weight decay分别为0.9和0.005。验证BoS时，hyper-parameter使用默认设置，验证BoF时，增加了50%训练步数。BoF实验验证了MixUp，CutMix，Mosaic，Bluring data数据增强方法，以及label smoothing方法；BoS实验验证了LReLU，Swish和Mish激活函数。
MS COCO目标检测实验中，默认hyper-parameters如下：迭代步数为500500；学习率下降策略为初始学习率为0.01，在400000步和450000步时，学习率乘以0.1，momentum和weight decay分别为0.9 and 0.0005。使用单GPU进行multi-scale训练，batch size为64，mini-batch size为8或者4，根据GPU架构和GPU显存大小决定。除了使用遗传算法进行hyper-parameter搜索，其他实验都使用默认设置。遗传算法实验使用了YOLOv3 SPP网络训练GIOU损失函数，在min-val 5k测试集上进行验证，采用了搜索到的学习率为0.00261，momentum为0.949，对ground truth的IoU threshold为0.213，loss normalizer为0.07。验证了大量的BoF，包括grid sensitivity elimination，mosaic数据增强，IoU threshold，遗传算法，class label smoothing, CmBN，自对抗训练，cosine annealing学习策略，动态mini-batch size, DropBlock, Optimized Anchors, 不同的IoU losses。验证了大量的BoS，包括Mish，SPP，SAM，RFB，BiFPN以及Gaussian YOLO。所有实验都基于单GPU训练，syncBN优化并没有使用。

4.2 不同feature对分类网络训练的影响

上图介绍了不同的数据增强方法及数据增强的效果。

Table2 BoF和Mish对CSPResNeXt-50分类结果的影响

MixUp	CutMix	Mosaic	Bluring	Label Smoothing	Swish	Mish	Top-1	Top-5
							77.9%	94.0%
x							77.2%	94.0%
	√						78.0%	94.3%
		√					78.1%	94.5%
			x				77.5%	93.8%
				√			78.1%	94.4%
					x		64.5%	86.0%
						√	78.9%	94.5%
	√	√		√			78.5%	94.8%
	√	√		√		√	79.8%	95.2%

从上表中可以看出，对CSPResNeXt-50分类结果有提高的trick是CutMix，Mosaic，Label Smoothing和Mish激活函数，四项结合分类准确率达到了最高。

Table3 BoF和Mish对CSPDarknet-53分类结果的影响

CutMix	Mosaic	Label Smoothing	Mish	Top-1	Top-5
				77.2%	93.6%
√	√	√		77.8%	94.4%
√	√	√	√	78.7%	94.8%

同CSPResNeXt-50分类结果一致，CutMix，Mosaic，Label Smoothing和Mish激活函数对分类效果有提高，并且四项结合分类准确率达到了最高，但是CSPDarknet-53的分类效果不如CSPResNeXt-50好，TOP1和TOP5的准确率均稍低一点。

4.3 检测网络训练

检测网络验证了以下BoF提高了检测的准确率并且没有影响检测模型的FPS。

S：消除网格敏感性。公式 $b_x$ = $\sigma$ ( $t_x$ ) + $c_x$ , $b_y$ = $\sigma$ ( $t_y$ ) + $c_y$ , $c_x$ 和 $c_y$ 为整数，被YOLOv3用来评估目标坐标，那么，绝对值特别高的 $t_x$ 会使得 $b_x$ 接近 $c_x$ 或者 $c_x + 1$ 的值。解决网络敏感性问题通过对sigmoid函数乘以一个大于1.0的常数来解决，以解决一些目标因网格敏感而不可检测的问题；
M：Mosaic数据增强，在训练中使用4张图片组成mosaic代替单张图片；
IT：IoU阈值，对于一个ground truth使用IoU (truth, anchor) > IoU threshold的多个anchor进行检测；
GA：遗传算法，在训练的前10%步数，使用遗传算法选择最优超参数；
LS：Class label smoothing，对sigmoid激活函数使用class label smoothing算法；
CBN：CmBN，使用Cross mini-Batch Normalization在整个batch中进行统计而不是单个mini-batch中；
CA：Cosine annealing学习策略，在sinusoid训练中调整learning rate
DM：动态mini-batch size，在random training shapes中，小分辨率时自动增加mini-batch size大小；
OA：优化Anchors，使用512x512分辨率训练时，使用优化的anchors；
GIoU, CIoU, DIoU, MSE：边框回归时，使用不同的损失函数。

验证了对于不同Bag-of-Specials，包括 PAN，RFB，SAM，Gaussian YOLO(G)，及ASFF对检测精度的影响，认为SPP，PAN，和SAM对检测精度有提高。

Table4 BoF对检测精度的影响(CSPResNeXt50-PANet-SPP，512x512)

S	M	IT	GA	LS	CBN	CA	DM	OA	loss	AP	AP50	AP75
									MSE	38.0%	60.0%	40.8%
x									MSE	37.7%	59.9%	40.5%
	√								MSE	39.1%	61.8%	42.0%
		x							MSE	36.9%	59.7%	39.4%
			√						MSE	38.9%	61.7%	41.9%
				x					MSE	33.0%	55.4%	35.4%
					√				MSE	38.4%	60.7%	41.3%
						√			MSE	38.7%	60.7%	41.9%
							x		MSE	35.3%	57.2%	38.0%
√									GIoU	39.4%	59.4%	42.5%
√									DIoU	39.1%	58.8%	42.1%
√									CIoU	39.6%	59.2%	42.6%
√	√	√	√						CIoU	41.5%	64.0%	44.8%
	x		x						CIoU	36.1%	56.5%	38.4%
√	√	√	√					√	MSE	40.3%	64.0%	43.1%
√	√	√	√					√	GIoU	42.4%	64.4%	45.9%
√	√	√	√					√	CIoU	42.4%	64.4%	45.9%

从上表的前9行可以看出，训练使用的trick，单独的消除网格敏感性，IoU阈值，label smoothing和动态mini-batch size对检测mAP的提高没有帮助，label smoothing这个方法对图像分类的准确率有提高，而对目标检测并没有效果；从第10到第12行可以看出，使用GIOU、DIOU、CIOU损失函数对0.5mAP没有提高，但是对0.5:0.95mAP和0.75mAP有所提高；从第13和第14行可以看出，单独使用CIOU损失函数对mAP的提高没有帮助，加上消除网格敏感性，Mosaic数据增强，IoU阈值和遗传算法后，CIOU损失函数可以提高mAP；从第15到第17行可以看出消除网格敏感性，Mosaic数据增强，IoU阈值、遗传算法和优化Anchors几个tirck结合，即使使用MSE函数对检测mAP也是有提高的，加上GIOU和CIOU损失函数，对mAP提高的效果更明显，CIOU和GIOU对mAP提高的结果相同(PS：这两个结果完全相同，未免有点儿太巧了，悄咪咪地说。。。)。

Table5 BoS对检测精度的影响(分辨率：512x512)

Model	AP	AP50	AP75
CSPResNeXt50-PANet-SPP	42.4%	64.4%	45.9%
CSPResNeXt50-PANet-SPP-RFB	41.8%	62.7%	45.1%
CSPResNeXt50-PANet-SPP-SAM	42.7%	64.6%	46.3%
CSPResNeXt50-PANet-SPP-SAM-G	41.6%	62.7%	45.0%
CSPResNeXt50-PANet-SPP-ASFF-RFB	41.1%	62.6%	44.4%

在表5中表明，以表4中加了BoF的最佳结果为baseline，加了SAM结构的网络对检测mAP有提高，而同时使用SAM和Gaussian YOLO时对CSPDarknet53-PANet-SPP网络检测的mAP并没有提高，对CSPDarknet53-PANet-SPP的mAP作者还在实验中，见https://github.com/AlexeyAB/darknet/issues/5341。

4.4 不同骨干网络和预训练模型对检测的影响

Table6 不同骨干网络和预训练模型对检测的影响
(所有模型训练参数相同)

Model (with optimal setting)	Size	AP	AP50	AP75
CSPResNeXt50-PANet-SPP	512x512	42.4	64.4	45.9
CSPResNeXt50-PANet-SPP(BoF-backbone)	512x512	42.3	64.3	45.7
CSPResNeXt50-PANet-SPP(BoF-backbone+Mish)	512x512	42.3	64.2	45.8
CSPDarknet53-PANet-SPP(BoF-backbone)	512x512	42.4	64.5	46.0
CSPDarknet53-PANet-SPP(BoF-backbone+Mish)	512x512	43.0	64.9	46.5

从上表中可以看出，在相同分辨率条件下，使用了BoF训练的CSPResNeXt50-PANet-SPP的ImageNet预训练模型对检测效果的提高没有帮助，反而使得检测效果有所下降。而使用了BoF训练的CSPDarknet53-PANet-SPP预训练模型对检测精度的提高有所帮助，加上Mish激活函数后，在512x512分辨率下，检测效果达到了最好。作者认为，虽然CSPDarknet53在ImageNet分类上不如CSPResNeXt50的效果好，加了各种trick后CSPDarknet53的检测效果比CSPResNeXt50效果好，说明CSPDarknet53是一个适合检测的网络。

4.5 不同mini-batch size对检测的影响

Table7 不同mini-batch size对检测的影响

Model (without OA)	Size	AP	AP50	AP75
CSPResNeXt50-PANet-SPP(without BoF/BoS, mini-batch 4)	608	37.1	59.2	39.9
CSPResNeXt50-PANet-SPP(without BoF/BoS, mini-batch 8)	608	38.4	60.6	41.6
CSPDarknet53-PANet-SPP(with BoF/BoS, mini-batch 4)	512	41.6	64.1	45.0
CSPDarknet53-PANet-SPP(with BoF/BoS, mini-batch 8)	512	41.7	64.2	45.2

从上表中可以看出，CSPResNeXt50-PANet-SPP在不使用BoF和BoS时，mini batch为4和mini batch为8最终得到的mAP结果是有差别的，mini batch越大，检测效果越好；而CSPDarknet53-PANet-SPP在使用了BoF和BoS后，mini batch为4和mini batch为8的检测精度接近，说明mini batch的大小对检测精度的没有影响，作者认为，这样任何人都可以使用一张GPU来训练一个完美的检测模型。(PS：突然觉得作者可以试一下Group Norm，因为训练Faster RCNN时一张卡上的batch size是2)

5 结果

经过实验，与其他最新目标检测模型的结果比较，YOLOv4位于帕累托的最优曲线上，在速度和精度方面都优于最快和最精确的目标检测模型。
由于不同的算法使用不同架构的GPU进行推理时间验证，作者在Maxwell、Pascal和Volta架构的常用GPU上运行了YOLOv4，并与其他最新方法进行了比较，结果列在了论文的表8~表10中。

6 结论

作者提出了一个在COCO数据集上的又快又准的检测模型，检测模型可以在8~16GB的GPU上进行训练，并且验证了很多深度学习的训练trick对分类网络和检测网络的影响。

7 致谢

感谢Glenn Jocher提供了mosaic数据增强算法，使用遗传算法选择超参数以及解决了grid sensitivity问题，Glenn Jocher的代码位置在https://github.com/ultralytics/yolov3。

参考文献

见论文原文

labelme转YOLOv8、YOLOv5 标签格式标注数据一颗小树x YOLO目标检测实践应用 labelme YOLOv8 YOLOv5 标签格式标注数据
前言本文分析将labelme的标签，转为YOLOv8、YOLOv5的格式，实现模型训练。首先了解YOLOv8和YOLOv5标签格式，然后了解labelme标签格式，最近实现数据格式转换。1、YOLOv8和YOLOv5标签格式YOLOv8的标签格式与YOLOv5基本相同，使用一种简单的txt文本格式，来存储每个图像的标注数据。每个图像对应一个文本文件，这些文本文件与图像文件位于同一目录并且具有相同的
yolov8(8.2.10)+deepsort（demo） fengsongdehappy YOLO
只需要训练好yolov8的检测模型然后调用：results=model.track(frame,persist=True)#执行跟踪，persist=True表示持续跟踪。保持同一个人在多帧画面的id一就可以完整代码：importcv2importnumpyasnpfromultralyticsimportYOLOfromcollectionsimportdefaultdict#框的中心点的历史轨
YOLOv8中Bottleneck模块详解王了了哇 YOLO 计算机视觉深度学习 pytorch python
1.Bottleneck模块介绍Bottleneck模块在YOLOv8中的作用是进行特征提取和增强，是网络中的核心构建模块之一。它的主要功能是通过卷积操作来处理输入特征图，并在适当情况下应用残差连接，使得信息能够有效地通过网络层进行传播。2.Bottleneck模块的位置和作用在YOLOv8的网络结构中，Bottleneck模块被多次使用，主要出现在以下几个部分：Backbone部分：在多个层次上
使用 YOLOv8 模型分析摄像头的图像欣然～ YOLO
在Python中使用YOLOv8模型分析摄像头的图像并进行分类。1.安装依赖库首先，你需要安装ultralytics库，它提供了YOLOv8的PythonAPI。可以使用以下命令进行安装：bashpipinstallultralytics2.编写Python代码以下是一个使用YOLOv8模型对摄像头图像进行分类的示例代码：importcv2fromultralyticsimportYOLO#加载预
【YOLO】常用脚本我才是真正的17号脚本 YOLO 人工智能深度学习
目录VOC转YOLO划分训练集、测试集与验证集VOC转YOLOimportosimportxml.etree.ElementTreeasETdefconvert(size,box):dw=1./size[0]dh=1./size[1]x=(box[0]+box[1])/2.0y=(box[2]+box[3])/2.0w=box[1]-box[0]h=box[3]-box[2]x=x*dww=w*d
yolo使用的一些脚本一休哥※ YOLO 深度学习 python
合并yolo标注label输入两个路径的labels，可以特定的32类别的标注合并到target_dir目录中的txt中#-*-coding:utf-8-*-#@Time:2024/6/1917:57#@Author:sjh#@Site:#@File:python_txt.py#@Comment:importos#定义源目录和目标目录source_dir=r"E:\Download\Dataset
yolo数据增强攀神 YOLO python 开发语言
importosimportcv2importnumpyasnpimportalbumentationsasA#定义数据增强的变换，可以根据需要自定义transform=A.Compose([A.HorizontalFlip(p=0.5),#水平翻转A.RandomBrightnessContrast(p=0.5),#随机亮度和对比度A.Rotate(limit=15,p=0.5),#随机旋转A.
Python深度学习代做目标检测NLP计算机视觉强化学习 matlabgoodboy 计算机视觉 python 深度学习
了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。1.Python深度学习代做概述目标检测：目标检测是计算机视觉中的一个重要任务，旨在识别图像或视频中的特定对象，并确定它们的位置。Python中的深度学习框架（如TensorFlow、PyTorch）和计算机视觉
基于深度学习YOLOv5的活体人脸检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 人工智能目标跟踪计算机视觉开发语言
一、前言随着人工智能技术的快速发展，计算机视觉（ComputerVision）已广泛应用于各种实际场景中，特别是在安全、金融、医疗等领域。人脸识别作为计算机视觉的一个重要应用，已经成为很多身份验证、安防监控、智能门禁等系统的核心技术。近年来，随着深度学习的突破，YOLO（YouOnlyLookOnce）系列算法因其高效、准确、实时的特点，广泛应用于物体检测任务。在实际的人脸识别应用中，活体人脸检测
【深度学习】计算机视觉（CV）-目标检测-SSD（Single Shot MultiBox Detector）—— 单次检测多框检测器 IT古董深度学习人工智能计算机视觉深度学习目标检测
SSD（SingleShotMultiBoxDetector）——单次检测多框检测器1️⃣什么是SSD？SSD(SingleShotMultiBoxDetector)是一种用于目标检测（ObjectDetection）的深度学习模型，由WeiLiu等人在2016年提出。它采用单阶段（SingleStage）方法，能够直接从图像中检测多个对象，并输出类别和边界框，比传统的两阶段方法（如FasterR
【深度学习】YOLO-World: Real-Time Open-Vocabulary Object Detection，目标检测 XD742971636 深度学习机器学习深度学习 YOLO 目标检测
介绍一个酷炫的目标检测方式：论文：https://arxiv.org/abs/2401.17270代码：https://github.com/AILab-CVC/YOLO-World文章目录摘要Introduction第2章相关工作2.1传统目标检测2.2开放词汇目标检测第3章方法3.1预训练公式：区域-文本对3.2模型架构3.3可重参数化的视觉-语言路径聚合网络（RepVL-PAN）3.4预训练
目标检测代码示例（基于Python和OpenCV） matlab_python22 计算机视觉
引言目标检测是计算机视觉领域中的一个核心任务，其目标是在图像或视频中定位和识别特定对象。随着技术的发展，目标检测算法不断演进，从传统的基于手工特征的方法到现代的深度学习方法，再到基于Transformer的架构，目标检测技术已经取得了显著的进步。本文将总结和对比几种主要的目标检测算法，探讨它们的优势、劣势和适用场景。1.目标检测算法分类1.1单阶段检测（One-Stage）与双阶段检测（Two-S
Python知识点：基于Python技术，如何使用YOLO进行实时物体检测超哥同学 Python系列 python YOLO 开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！使用YOLO进行实时物体检测的Python技术详解实时物体检测是计算机视觉中的一个关键任务，它要求算法能够快速且准确地识别和定位图像或视频流中的物体。YOLO（YouOnlyLookOnce）算法因其速度快、性能高而受到广泛关注。在本文中，我们将详细介绍如何使用Python和YOLO
基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）深度学习&目标检测实战项目深度学习 YOLO python 目标检测人工智能开发语言
引言近年来，计算机视觉技术在各行各业中得到了广泛的应用，特别是在智能监控、自动驾驶、医疗诊断等领域。深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。在这一领域，YOLO（YouOnlyLookOnce）系列模型以其高效且准确的目标检测能力，成为了当下最为流行的深度学习模型之一。在海洋生物保护、海洋环境监测等应用中，快速识别和检测海洋动物种类对于科学研究和保护工
基于YOLOv5深度学习的木材表面缺陷检测系统：UI界面 + YOLOv5 + 数据集详细教程深度学习&目标检测实战项目 YOLO 深度学习 ui YOLOv5 人工智能计算机视觉
随着工业自动化的发展，木材加工行业对产品质量的要求日益提高。木材表面缺陷的检测是确保产品质量的重要环节。传统的人工检测方式不仅费时费力，而且容易受到人为因素的影响。基于深度学习的目标检测技术，尤其是YOLOv5，凭借其优越的实时性和准确性，成为木材表面缺陷检测的有效工具。本博客将详细介绍如何构建一个基于YOLOv5的木材表面缺陷检测系统，包括数据集准备、模型训练、UI界面开发及完整代码实现。目录目
还没搞懂YOLO v7，YOLO v8已经来了！沃恩智慧目标检测深度学习计算机视觉
YOLO系列又双叒更新！只能说，YOLO系列发展地真快，已经有点跟不上了！YOLOv1-YOLOv8系列回顾YOLOv1：2015年JosephRedmon和AliFarhadi等人（华盛顿大学）YOLOv2：2016年JosephRedmon和AliFarhadi等人（华盛顿大学）YOLOv3：2018年JosephRedmon和AliFarhadi等人（华盛顿大学）YOLOv4：2020年Al
焦损函数（Focal Loss）与RetinaNet目标检测模型详解人工智能
焦损函数（FocalLoss）与RetinaNet目标检测模型详解阅读时长：19分钟发布时间：2025-02-14近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容LLM架构专栏知乎LLM专栏知乎【柏企】公众号【柏企科技说】【柏企阅文】目前，精度最高的目标检测器大多基于由R-CNN推广的两阶段方法，即对稀疏的候选目标位置集应用分类器。相比之下，在规则、密集的可
【深入探讨 ResNet：解决深度神经网络训练问题的革命性架构】机器学习司猫白深度学习人工智能 resnet 神经网络残差
深入探讨ResNet：解决深度神经网络训练问题的革命性架构随着深度学习的快速发展，卷积神经网络（CNN）已经成为图像识别、目标检测等计算机视觉任务的主力军。然而，随着网络层数的增加，训练深层网络变得愈加困难，主要问题是“梯度消失”和“梯度爆炸”问题。幸运的是，ResNet（ResidualNetworks）通过引入“残差学习”概念，成功地解决了这些问题，极大地推动了深度学习的发展。本文将详细介绍R
【git-hub项目：YOLOs-CPP】本地实现01：项目构建认识祂 CV计算机视觉 git cpp YOLOs-CPP 模型部署人工智能
目录写在前面项目介绍最新发布说明Segmentation示例功能特点依赖项安装克隆代码仓库配置构建项目写在前面前面刚刚实现的系列文章：【Windows/C++/yolo开发部署01】【Windows/C++/yolo开发部署02】【Windows/C++/yolo开发部署03】【Windows/C++/yolo开发部署04】【Windows/C++/yolo开发部署05】必须用nividia显卡的
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-patches.py 红色的山茶花 YOLO 笔记深度学习
patches.pyultralytics\utils\patches.py目录patches.py1.所需的库和模块2.defimread(filename:str,flags:int=cv2.IMREAD_COLOR):3.defimwrite(filename:str,img:np.ndarray,params=None):4.defimshow(winname:str,mat:np.nda
模型实战（19）之从头搭建yolov9环境+tensorrt部署+CUDA前处理 -＞实现目标检测明月醉窗台 #深度学习实战例程目标检测人工智能计算机视觉图像处理 YOLO
从头搭建yolov9环境+tensorrt部署实现目标检测yolov9虚拟环境搭建实现训练、推理与导出导出onnx并转为tensorrt模型Python\C++-trt实现推理，CUDA实现图像前处理文中将给出详细实现源码python、C++效果如下：output_video_11.搭建环境拉下官方代码根据配置下载虚拟环境所需包详细步骤如下：
计算机视觉四大任务模型汇总 Zero_one_ws 《神经网络与深度学习》理论计算机视觉人工智能深度学习图像分类图像目标检测目标分割关键点检测
计算机视觉中有四大核心任务：1-分类任务、2-目标检测任务、3-目标分割任务和4-关键点检测任务文章1：一文读懂计算机视觉4大任务文章2：图像的目标分割任务：语义分割和实例分割不同任务之间相关但不完全相同，因此不同的任务最好选择相应的模型，话不多说，看表：（注：表中github链接并不一定是模型的正式版本，只是本文用于展示模型的网络结构和应用）1-分类任务模型序号模型ipynb模型的github链
计算机视觉（Computer Vision，CV）四大基本任务--分类、检测、定位、分割明月光舞计算机视觉计算机视觉目标检测深度学习
文章目录前言一、计算机视觉任务一：目标分类常用数据集常见网络结构二、计算机视觉任务二：目标定位三、计算机视觉任务三：目标检测常用数据集常见网络结构四、计算机视觉任务四：目标分割常用数据集常见网络结构前言计算机视觉（ComputerVision，CV）是一门研究如何让机器具备“看”的能力的学科，以人或动物的视觉能力为参照，通过计算机对视觉数据（图像、视频等）的处理、学习、推理判断，复现出、模拟出甚至
rk3588部署yolov8视频目标检测教程今夕是何年，视觉算法部署 YOLO 目标检测人工智能
目录1.环境配置1.1训练和导出onnx环境（电脑端执行）1.2导出rknn环境（电脑端执行）2.训练部分（电脑端执行）2.1训练脚本（电脑端执行）3.onnx转rknn（电脑端执行）1.环境配置1.1训练和导出onnx环境（电脑端执行）#使用conda创建一个python环境condacreate-ntorchpython=3.9#激活环境condaactivatetorch#安装yolov8p
计算机视觉核心任务飞瀑 AI yolo
1.计算机视频重要分类计算机视觉的重要任务可以大致分为以下几类：1.图像分类（ImageClassification）识别图像属于哪个类别，例如猫、狗、汽车等。应用场景：物品识别、人脸识别、医疗影像分类。代表模型：ResNet、EfficientNet、ViT（VisionTransformer）。2.目标检测（ObjectDetection）识别图像中目标的位置（边界框）及类别。应用场景：自动驾
YOLO各版本原理和优缺点解析 Ash Butterfield 计算机视觉
YOLO（YouOnlyLookOnce）是一种实时目标检测算法，以其高速度和较高精度著称。以下是各版本的详细介绍及优缺点分析：1.YOLOv1（2016年）原理：将输入图像划分为S×SS\timesSS×S的网格，每个网格预测多个边界框和类别置信度。使用单个神经网络直接对图像进行前向传播预测边界框和类别标签。优点：速度快，适合实时应用。模型结构简单，易于实现和训练。缺点：对小目标检测效果差，容易
图像分类与目标检测算法 BugNest AI 算法分类目标检测 ai 人工智能图像处理
在计算机视觉领域，图像分类与目标检测是两项至关重要的技术。它们通过对图像进行深入解析和理解，为各种应用场景提供了强大的支持。本文将详细介绍这两项技术的算法原理、技术进展以及当前的落地应用。一、图像分类算法图像分类是指将输入的图像划分为预定义的类别之一。这一过程的核心在于特征提取和分类器的设计。1.特征提取特征提取是图像分类的第一步，其目标是从图像中提取出能够区分不同类别的关键信息。传统的特征提取方
学习系列二：常用目标检测的格式转换脚本文件txt,json等小啊磊_Vv 目标检测 YOLO 人工智能计算机视觉 json
常用目标检测的格式转换脚本文件txt,json等文章目录常用目标检测的格式转换脚本文件txt,json等前言一、json格式转yolo的txt格式二、yolov8的关键点labelme打的标签json格式转可训练的txt格式三、yolo的目标检测txt格式转coco数据集标签的json格式四、xml格式转yolo数据集标签的txt格式五、根据yolo的目标检测训练的最好权重推理图片六、根据yolo
【目标检测】YOLO格式数据集txt标注转换为COCO格式JSON ericdiii 目标检测目标检测 YOLO json
YOLO格式数据集：images|--train|--test|--vallabels|--train|--test|--val代码：importosimportjsonfromPILimportImage#设置数据集路径dataset_path="path/to/your/dataset"images_path=os.path.join(dataset_path,"images")labels_
目标检测:yolo格式txt转换成COCO格式json 詹姆斯德格式转换目标检测 YOLO json
修改对应文件路径即可,其他根据txt或者希望生成的json做轻微调整#-*-coding:utf-8-*-importosimportjsonfromPILimportImagecoco_format_save_path="/home/admin1/data/LVIS"#要生成的标准coco格式标签所在文件夹yolo_format_classes_path="/home/admin1/data/L
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name