lzrrrrr

目标检测综述

文章目录

目标检测综述
- 深度目标检测算法进程
- - 双阶段目标检测器
  - - RCNN
    - SPPNet
    - Fast RCNN
    - FasterRCNN
    - FPN
  - 单阶段目标检测器
  - - YOLO
    - SSD
    - RetinaNet
- 目标检测最新进展
- - 更好的特征提取网络
  - 定位损失函数的改进
  - 基于无锚框的网络设计
  - - FSAF用于尺度选择
    - FCOs
- 总结与展望
- - 总结
  - 展望

目标检测综述

目标检测是一项重要的计算机视觉任务，用于检测数字图像中某一类视觉对象（如人、动物或汽车）的实例。作为一个计算机视觉领域的一个基本问题（如实例分割、图像捕捉、目标跟踪等等），目标检测已经形成了一定的基础。在近几年，深度学习技术的快速发展给目标检测带来了生机，导致了显著的突破并且成为了当下的研究热点。目标检测也被广泛应用于真实世界中，例如自动驾驶、机器人视觉、视频监控等等。所以本文将对从深度学习引入目标检测开始，直到现在state-of-art的目标检测算法进行介绍。然后针对近期提出的新颖算法中的思路进行分析。最后，进行总结与对未来目标检测方向的展望。

深度目标检测算法进程

在深度学习流行之前，目标检测都是基于人工特征进行的。由于缺乏有效的图像表示方法，研究者们只能通过设计复杂而精致的特征表示（比如颜色特征）[1]和一系列加速技巧（比如滑动窗口机制[2]）来满足当时缺乏的计算资源。
而当人工特征的性能逐渐饱和，目标检测的发展在2010年后陷入了瓶颈。直至2012年AlexNet的诞生，研究者们看到了卷积神经网络能够在图像上学习到鲁棒的特征表示。从那时起，目标检测开始以前所未有的速度发展。
在深度学习邻域，目标检测可以被分为两个类别：“two-stage detection”和“one-stage detection”，前者将检测定义为一个“由粗到细“的过程，而后者将其定义为”一步完成“的过程。

双阶段目标检测器

RCNN

RCNN（Regions with CNN features）[3]作为第一个基于深度学习的目标检测器在2014年被提出。其背后的原理很简单：先对一系列目标候选框进行提取（由selective search[4]完成）。然后把每个候选框修正到固定大小送入训练好的ImageNet模型中（比如AlexNet）来提取出特征。最终，用线性SVM分类器来预测物体时候出现在候选框中以及其类别。

图1-1 RCNN 网络架构图
RCNN在在VOC07数据集上取得了极佳的表现，把在该数据集上的平均准确率(mAP)从33.7%提升到了58.5%（前者为效果最好的传统目标检测算法DPM-v5）。

表1-1RCNN在VOC 2007上的精度
尽管RCNN取得了如此的进步，然仍留下了如下缺陷：其在大量的重叠候选目标（一张图片超过2000个候选框）上存在冗余的特征计算，这导致了检测速度极慢（在GPU上每检测一张图片需要14s）。而这一问题在同年何凯明提出的SPPNet[5]中得到了解决。

SPPNet

在2014年，在微软亚洲研究院的何凯明提出了Spatial Pyramid Pooling Networks（SPPNet）[5]。之前的CNN模型需要把输入图像的大小固定为224×224来作为AlexNet的输入。SPPNet的主要贡献为提出了一个空间金字塔池化层（Spatial Pyramid Pooling，SPP），这使得CNN可以生成固定长度的表示形式，而与感兴趣的图像/区域的大小无关，而无需对其进行重新缩放。当使用SPPNet进行目标检测时，只需要在原始图像上计算一次特征图，然后可以生成任意区域的固定长度表示形式以训练检测器，从而避免了重复计算卷积特征。SPPNet能在不牺牲任何检测精度的情况下速度比RCNN快20倍以上。
简单来说，其空间池化层的具体做法是：将不同大小的特征图进行三次不同尺寸的池化，分别为4×4，2×2，1×1。那么最终卷积得到了三个长度分别为16，4，1的特征向量，然后将这三个向量拼接为一个16+4+1即21维的向量来作为全连接层的输入。

图1-2 SPPNet网络架构图
尽管SPPNet有效的提高了检测速度，但仍有一些缺陷：首先，训练仍是多阶段的（仍然要采用selective search找出候选项）。其次，SPPNet只对RCNN的全连接层进行了微调而忽略了之前的网络结构。在接下来的一年，研究者提出了Fast RCNN[6]来解决以上问题。

Fast RCNN

在2015年，R.Girshick 提出了Fast RCNN检测器[6]，这是继RCNN和SPPNet之后的又一大进步。Fast RCNN使得我们能在同样的网络配置下同时训练一个检测器和一个边界框的回归器。在VOC07数据集上，Fast RCNN把平均准确率从58.5%（RCNN）提升到了70.0%，且其检测速度比RCNN要快200倍。

图1-3 Fast RCNN网咯架构图
由上图可知，在卷积网络的最后一层，FastRCNN采用了Rol pooling代替了之前的Max pooling，具体做法是把最后一层的特征图分为H×W个小格，然后对每个小格做Max pooling，最后得到的特征图则都是H×W大小。另外Fast RCNN去除了SVM分类器，而是用softmax分类实现了端到端的多任务训练（候选框生成除外，所以整个网络不是端到端的）。
虽然FastRCNN整合了RCNN和SPPNet的优势，但是其速度仍然受限于候选框的生成。所以我们能不能使用CNN模型来获得候选框呢？Faster RCNN回答了这一问题。

FasterRCNN

在2015年，S.Ren在FastRCNN提出后不久提出了Faster RCNN检测器。FasterRCNN[7]是第一个真正意义上的端到端的目标检测模型，并且能做到接近实时检测（在COCO数据集上mAP=42.7%，VOC07 Map=73.2% 17fps）Faster RCNN的主要贡献在于对区域候选网络的提出（Region Proposal Network ，RPN），这使得候选框的生成几乎不耗费时间。

图1-4 区域候选网络RPN
上图即为RPN的实现做法，可以看到RPN是通过滑动窗口的中心生成k个不同尺寸、不同大小的锚框（anchor box）作为候选框。这使得候选框的生成也被整合到了整个网络结构中。锚框也成为了主流目标检测器的必备组件。但是随着基于锚框的网络性能逐渐饱和，如今也有研究者开始基于无锚框的网络提出了一些思路（如FASF、FCOs，详情请看第2.4章节）。
尽管Faster RCNN突破了Fast RCNN的速度瓶颈，但是其对一些尺度相差较大的物体取得了较低的召回率。

FPN

在2017年，特征金字塔网络（Feature Pyramid Networks, FPN）[8]在Faster RCNN的架构上被提出。在FPN被提出之前，大多的检测器只对主干网络的最后一层进行检测。尽管层数越深的特征图包含的语义信息越丰富，但其不利于对目标的定位。为此，在FPN中开发了具有横向连接的自上而下的体系结构，用于构建各种规模的高级语义。

图1-5 各种主干网络图
上图为目标检测中常用的主干网络结构，其中（d）为FPN的结构。可以看到FPN中每一层的特征图都是由上一层的特征图的上采样与对原始图像的同一层进行1×1卷积而成。这使得整个网络能获得不同尺度上的语义信息而不用对原图像进行多次采样（比如a）。自从在主干网络上采用了金字塔结构，FPN展现了其在尺度变化较大的目标中的优势。现在，FPN已经成为了许多最新检测器的基本模块。

单阶段目标检测器

YOLO

YOLO（You Only Look Once）[10]是由R.Joseph等人在2015提出的。这是在深度学习领域第一个单阶段检测器。其特点是速度极快，在VOC上保证mAP=52.7%时能跑到155fps。作者摒弃了此前“候选检测+验证”的基本框架。相反，使用了一个新的思路：将一个单神经网络应用在一整张图片上。该网络将图像划分为多个区域，并同时预测每个区域的边界框和概率。随后，作者又提出了YOLO的v2和v3版本，进一步提高了检测精度且保持了其检测速度。
尽管YOLO的检测速度有了很大的提高，但与两级检测器相比，它的定位精度却下降了，特别是对于一些小物体。 YOLO的后续版本和后者提出的SSD更加关注了这个问题。

SSD

SSD[11]由W. Liu在2015年提出。它是深度学习时代的第二个一级检测器。 SS的主要贡献是引入了多参考和多分辨率检测技术（将在2.3.2节中介绍），从而显着提高了一级检测器的检测精度，尤其是对于某些小物体。SSD的优点是检测速度和准确性均达到了中间水平（VOC07 mAP = 76.8％）。，VOC12 mAP = 74.9％，COCO mAP @ .5 = 46.5％，快速版本的运行速度为59fps）。 SSD与以前的探测器之间的主要区别在于，前者可探测在网络的不同层上具有不同的规模的物体，而后者仅在其顶层上运行检测。

RetinaNet

尽管其速度快，操作简便，但多年来，一级检测器一直困扰于相比于二级检测器的准确性。T.-Y.Linetal在2017年发现了背后的原因并提出了RetinaNet[12]。他们声称，在密集探测器的训练过程中遇到的前景-背景类别极度失衡是主要原因。为此，通过重塑标准的交叉熵损失，在RetinaNet中引入了一个名为“Focal loss”的新损失函数，以便检测器在训练过程中将更多的注意力放在困难的，分类错误的示例上。Focal loss使一级检测器可以达到两级检测器相当的精度，同时保持非常高的检测速度。（COCO mAP @ .5 = 59.1％，mAP @ [。5，.95] = 39.1％）。

上式即为Retinanet在损失函数上的贡献，CE为普通的交叉熵函数，可以看到Focal loss加上了一个权重，这个权重在样本为正样本（前景）时大，样本为负样本（背景）时较小。以此缓解了单阶段检测器中前景-背景极度不均衡的问题。

目标检测最新进展

在上一章节，我们介绍了目标检测历程发展中里程碑式的算法，在这一章节我们将介绍一部分近三年在该领域上的一些state-of-art的算法和新思路。

更好的特征提取网络

近年来，深层CNN在许多计算机视觉任务中发挥了核心作用。由于检测器的精度在很大程度上取决于其特征提取网络，因此在本文中，我们指的是骨干网络，例如 ResNet和VGG，作为检测器的“引擎”。在本节中，我们将介绍深度学习时代的一些重要检测引擎。
AlexNet[16]：AlexNet是八层深度网络，是第一个CNN模型，它引发了计算机视觉的深度学习革命。 AlexNet赢得了2012年ImageNet LSVRC-2012竞赛的冠军[15.3％VS 26.2％（第二名）的错误率]。截至2019年2月，Alexnet论文已被引用超过30,000次。
VGG[17]：VGG由牛津视觉几何小组（VGG）于2014年提出。 VGG将模型的深度增加到16-19层，并使用了非常小的（3x3）卷积过滤器，而不是以前在AlexNet中使用的5x5和7x7。 VGG在当时的ImageNet数据集上达到了最先进的性能。
GoogLeNet[18]：GoogLeNet，又名Inception，是Google Inc.自2014年以来提出的CNN模型大家族。GoogLeNet增加了CNN的宽度和深度（最多22层）。 Inception系列的主要贡献是引入了分解卷积和批量归一化。
ResNet[19]：深度残留网络（ResNet），由K. He等人提出。是2015年推出的一种新型卷积网络架构，比以前使用的卷积网络架构要深得多（最多152层）。 ResNet旨在通过重新构造网络的层以参考层输入来学习残差函数，从而简化网络的培训。 ResNet在2015年赢得了多个计算机视觉竞赛，包括ImageNet检测，ImageNet本地化，COCO检测和COCO分割。
DenseNet[20]：DenseNet由G. Huang和Z. Liu等人提出。在2017年.ResNet的成功表明CNN中的快捷连接使我们能够训练更深，更准确的模型。作者接受了这一观察，并引入了紧密连接的块，该块以前馈的方式将每一层连接到其他每一层。
SENet[21]：挤压和激发网络（SENet）由J. Hu和L. Shen等人提出。它的主要贡献是集成了全局池化和转换，以学习特征图在通道方面的重要性。 SENet在ILSVRC 2017分类竞赛中获得第一名。
2.2更好的定位方法
为了提高定位精度，最近的检测器有两种方法：1）边界框优化，以及2）设计新的损失函数以进行精确定位。
2.2.1 边界框优化
提高定位精度的最直观的方法是边界框优化，可以将其视为检测结果的后处理。尽管边界框回归已集成到大多数现代对象检测器中，但是仍然存在一些具有意外比例的对象，这些对象无法通过任何预先定义的锚点很好地捕获。这将不可避免地导致对其位置的不准确预测。由于这个原因，“迭代边界框修正”最近被引入，方法是将检测结果迭代地馈入边界框回归器，直到预测收敛到正确的位置和大小。但是，也有研究者声称这种方法不能保证定位精度的单调性，换言之，如果边界框回归多次使用，可能会使定位退化。

定位损失函数的改进

在大多数现代检测器中，对象定位被视为坐标回归问题。但是，这种范例有两个缺点。首先，回归损失函数与定位的最终评估不符。例如，我们无法保证降低回归误差将始终产生更高的IoU预测，尤其是当对象具有较大的观测比时。其次，传统的边界框回归方法没有提供本地化的信心。当多个BB之间相互重叠时，这可能会导致非最大抑制失败。通过设计新的损耗函数可以缓解上述问题。最直观的设计是直接使用IoU作为定位损失函数。其他一些研究人员进一步提出了IoU指导的NMS，以改善训练和检测阶段的定位。此外，一些研究者还尝试在概率推断框架下改善定位。与直接预测框坐标的先前方法不同，此方法可预测边界框位置的概率分布。

基于无锚框的网络设计

自从锚框在2015年的Faster RCNN中被提出，便逐渐成为了所有检测器的必备组件。但基于锚框的网络也有一些缺点：锚框的超参数太多（锚框大小、尺寸、数量等）难以调参，锚框带来的交并比计算代价是巨大的。所以有不少学者钻研于基于无锚框的研究，以下两篇论文都出自于今年的CVPR，他们在取得了较高准确率的情况下为我们提供了一些新思路。

FSAF用于尺度选择

FSAF（Feature Selective Anchor-Free Module for Single-Shot Object Detection）[13]是一个基于无锚框的模块，可以在所有基于FPN的目标检测网络中使用（在论文中使用在了Retinanet上）。由前面章节可知，在FPN网络中把特征图分成了多层，然后根据真实框的大小来确定该框要被送往哪一层。这样的选择是启发式的，根据经验来选择并不科学。于是作者提出了如下问题：为什么不让网络自己选择合适的层来进行训练呢？基于此，作者设计了一个基于无锚框的分支网络来让网络自己选择每一个锚框应该处在的层。

图2-1 FSAF网络的分支网络结构
由上图可知，作者在原来Retinanet的结构上增加了两个无锚框分支来模拟特征图尺度的选择。在反向传播时，选择损失最小的特征图进行反向传播。这样，在检测时，最适合的特征图所得到的目标框的置信度就会越高。
在实验中，该模块能显著的增加小目标被检测出来的概率，但是在精度表现上没有显著的提高（COCO mAP=42.8%）。

FCOs

不同于FSAF，FCOs（Fully Convolutional One-Stage Object Detection）[14]是一个完全脱离了锚框限制的基于全卷积的目标检测网络。其与锚框网络最大的不同之处在于，FCOs是基于像素进行检测（回归的是四条边离像素的距离和像素的类别）。

图2-2 FCOs网络结构图
如图，该架构还是保留了目标检测中最流行的特征金字塔主干网络+分支网络的架构。为了解决离目标中心过远的像素造成的低精度问题，作者平行于分类分支设计了center-ness分支使得离中心越近的点置信度越高，最终取得了不错的精度（COCO 44.7%）。

总结与展望

总结

在过去的20年中，在目标检测方面取得了显著成就。本文不仅广泛回顾了一些里程碑式检测器（例如Faster-RCNN，YOLO，SSD等），关键技术，加速方法，还探讨了关于一些近年论文的新思路、社区当前面临的挑战，以及如何进一步扩展和改进这些检测器。

展望

目标检测的未来研究可能集中在但不限于以下几个方面：
轻量级物体检测：加快检测算法，使其能够在移动设备上平稳运行。一些重要的应用包括移动增强现实，智能相机，人脸检测等。尽管近年来已付出很大的努力，但机器和人眼之间的速度差距仍然很大，尤其是在检测一些小物体时。
弱监督检测：基于深度学习的检测器的训练通常依赖于大量标注良好的图像。注释过程耗时，昂贵且效率低下。开发弱监督检测技术，其中仅对检测器进行图像级注释训练，或者对检测器仅进行边界框注释训练，这对降低人工成本和提高检测灵活性非常重要。
小物体检测：在大型场景中检测小物体将面临长期挑战。该研究方向的潜在应用包括利用遥感图像对野生动物的种群进行计数并检测一些重要军事目标的状态。其他一些方向可能包括视觉注意机制的集成和高分辨率轻量级网络的设计。
视频中的检测：高清视频中的实时对象检测/跟踪对于视频监控和自动驾驶至关重要。传统的物体检测器通常设计用于图像检测，而只是忽略了视频帧之间的相关性。通过探索时空相关性来改善检测是重要的研究方向。
多模态融合的检测：具有多种数据源/模态（例如RGB-D图像，3d点云，LIDAR等）的对象检测对于自动驾驶和无人机应用非常重要。
一些悬而未决的问题包括：如何将训练有素的检测器迁移到不同的数据形式，如何进行信息融合以改善检测等。站在技术发展的高速路上，我们相信本文将帮助读者大致了解物体检测以及该快速发展研究领域的未来方向。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
深度学习交互式图像分割技术演进与突破 wang1776866571 深度学习交互式分割深度学习人工智能交互式分割
说明本文为作者读研期间基于交互式图像分割领域公开文献的系统梳理与个人理解总结，所有内容均为原创撰写（ai辅助创作），未直接复制或抄袭他人成果。文中涉及的算法、模型及实验结论均参考自领域内公开发表的学术论文（具体文献见文末参考文献列表）。本文旨在为交互式图像分割领域的学习者提供一份结构化的综述参考，内容涵盖技术演进、核心方法、关键技术优化及应用前景，希望能为相关研究提供启发。摘要：本文系统综述了基于
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
万字长文详解YOLOv8 yaml 文件，结合模型输出的网络结构图分析Parameters /backbone/head以及三者的数学关联 YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例之前写过一篇YOLOv8yaml配置文件逐层的解析：结合YOLOv8源码逐层解读yaml文件的配置，本文主要从整体的角度去解析yaml。YOLOv8模型YOLOv8提供了非常多的模型，详见：https:
万字长文带你搞懂yolov5和yolov8以及目标检测相关面试起个别名 C++YOLO 目标检测目标跟踪
一、与yoloV4相比，yoloV5的改进输入端：在模型训练阶段，使用了Mosaic数据增强、自适应锚框计算、自适应图片缩放基准网络：使用了FOCUS结构和CSP结构Neck网络：在Backbone和最后的Head输出层之间插入FPN_PAN结构Head输出层：训练时的损失函数GIOU_Loss，预测筛选框的DIOU_nms二、yolov5网络结构预处理在模型预处理阶段，使用了Mosaic数据增强
YOLOv11模型轻量化挑战技术文章大纲程序猿全栈の董（董翔） github YOLOv11
模型轻量化的背景与意义目标检测模型YOLOv11的性能与应用场景轻量化的必要性：边缘设备部署、实时性需求、计算资源限制轻量化面临的挑战：精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化：深度可分离卷积、分组卷积、瓶颈设计模型剪枝：结构化剪枝与非结构化剪枝策略知识蒸馏：教师-学生模型框架与特征匹配方法量化与低比特压缩：FP16/INT8量化与二值化网络轻量化实现的具体方
NanoDet 深度学习物料自动分类系统 YOLO实战营深度学习分类人工智能数据挖掘 NanoDet
引言随着工业自动化和物料管理的不断发展，物料的自动分类在仓储、物流、生产线等场景中的应用越来越广泛。传统的物料分类方式往往依赖人工操作，效率低下且容易出错，而基于深度学习的自动分类系统能够大大提高工作效率、降低错误率并实现高效管理。在众多深度学习技术中，物体检测算法被广泛应用于自动分类系统。NanoDet作为一款轻量级的目标检测算法，凭借其出色的速度与准确性，成为解决物料自动分类问题的一种理想选择
机器学习算法：核心原理与前沿发展综述 fmvrj34202 机器学习算法人工智能
机器学习算法作为人工智能的核心驱动力，正在重塑我们解决问题的范式。本文将系统性地探讨机器学习算法的分类体系、数学基础、优化方法以及最新发展趋势，为从业者提供技术参考。一、算法分类体系根据学习范式，机器学习算法可分为三大类：监督学习：基于标注数据的建模方法线性回归：最小化平方误差的闭式解θ=(XᵀX)⁻¹Xᵀy支持向量机：通过核技巧实现非线性分类，优化目标为max(0,1-yᵢ(w·xᵢ+b))决策
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
大型语言模型中的提示工程系统综述：技术与应用 AI专题精讲 Paper阅读语言模型人工智能自然语言处理
摘要提示工程已成为扩展大型语言模型（LLMs）和视觉语言模型（VLMs）能力的不可或缺的技术。这种方法利用任务特定的指令（称为prompt），在不修改核心模型参数的情况下增强模型效能。与更新模型参数不同，prompt仅通过给定指令即可引出所需的模型行为，从而实现预训练模型在下游任务中的无缝集成。prompt可以是提供上下文以引导模型的自然语言指令，也可以是激活相关知识的学习向量表示。这一新兴领域已
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）林聪木目标检测 YOLO 深度学习
目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础2.1引言2.2人工神经网络2.3FCOS目标检测算法2.4复杂交通场景下的目标检测难点与FCOS改进方案基于FCOS的目标检测算法改进3.1引言3.2Re
rk3566开发之rknn npu 部署三十度角阳光的问候 rknn npu rk3566 目标检测
目录NPU使用RKNN模型非RKNN模型RKNN-Toolkit2工具RKNNNPU测试代码如下main.ccssd.cc调用ssd模型进行目标检测测试ssd.hqt中调用rknnnpu接口NPU使用RK3566内置NPU模块。使用该NPU需要下载RKNNSDK，RKNNSDK为带有NPU的RK3566/RK3568芯片平台提供编程接口，能够帮助用户部署使用RKNN-Toolkit2导出的RKNN
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
YOLOv11模型轻量化挑战的技术黑客飓风 YOLO 目标跟踪人工智能
YOLOv11模型轻量化挑战的技术文章大纲背景与意义YOLOv11在目标检测领域的地位与优势轻量化需求的实际应用场景（移动端、嵌入式设备等）轻量化面临的挑战：精度与速度的权衡YOLOv11模型结构分析整体架构设计特点（如主干网络、特征融合模块等）参数量与计算量分布的关键瓶颈现有轻量化改进的局限性轻量化技术路线网络结构优化深度可分离卷积替代传统卷积注意力机制的高效嵌入设计冗余模块的剪枝与删除量化与压
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

目标检测综述

文章目录

目标检测综述

深度目标检测算法进程

双阶段目标检测器

RCNN

SPPNet

Fast RCNN

FasterRCNN

FPN

单阶段目标检测器

YOLO

SSD

RetinaNet

目标检测最新进展

更好的特征提取网络

定位损失函数的改进

基于无锚框的网络设计

FSAF用于尺度选择

FCOs

总结与展望

总结

展望

你可能感兴趣的:(目标检测,目标检测综述)