XJTU_Bugdragon

论文笔记——RefineDet

会议：CVPR 2018

标题：《Single-Shot Refinement Neural Network for Object Detection》

论文链接：https://arxiv.org/abs/1711.06897

代码链接：https://github.com/sfzhang15/RefineDet

主要思想

引入two stage类型的object detection算法中对box的由粗到细的回归思想（由粗到细回归其实就是先通过RPN网络得到粗粒度的box信息，然后再通过常规的回归支路进行进一步回归从而得到更加精确的框信息，这也是two stage类型的object detection算法效果优于one stage类型的一个重要原因）。
引入类似FPN网络的特征融合操作用于检测网络，可以有效提高对小目标的检测效果，检测网络的框架还是SSD。

Abstract

对于目标检测，two-stage方法（例如Faster R-CNN）可以获得最高精度，而one-stage方法（例如SSD）具有高效率的优点。继承两者的优点且克服其缺点，本文提出了一种新的单次目标探测器，名为RefineDet，它比two-stage方法更精准，同时保持了one-stage方法的效率。 RefineDet由两个相互连接的模块组成，即anchor refinement module和object detection module。具体来说，ARM旨在（1）过滤掉negative anchors，以减少分类器的搜索空间，（2）粗略调整anchors的位置和大小，为后续的回归提供更好的初始化。ODM将refined anchors作为输入，进一步改善回归和预测多级标签。同时，我们设计transfer connection block来传输ARM的特征，用于ODM中预测目标的位置，大小和类别标签。Multi-task loss function使我们能够以端到端的方式训练整个网络。 PASCAL VOC 2007，PASCAL VOC 2012和MS COCO的实验，证明了RefineDet实现了state-of-the-art的检测精度和高效率。

1.Introduction & 2.Related Work

Classical Object Detectors：Haar+AdaBoost，DPM等

基于滑动窗口方法手工制造特征和分类器，在密集图像网格上的目标寻找。

Two-Stage Approach：R-CNN，SPPNet，Fast R-CNN，Faster R-CNN，R-FCN，FPN，Mask R-CNN等

两阶段方法包括两部分：第一部分（例如，Selective Search，EdgeBoxes，DeepMask，RPN ）生成一个稀疏的候选对象提议集，第二部分进一步分类和回归，使用卷积网络确定准确的对象区域和相应的类别标签。进一步改进性能，如架构图，训练策略，上下文推理和多层利用。

两阶段相比一阶段有三个优点：

(1)采用带采样启发式的两阶段结构处理类不平衡问题；

(2)使用两步级联回归对象框参数；

(3)使用两阶段特征描述对象。

One-Stage Approach：OverFeat，YOLO，YOLOv2，SSD，DSSD，DSOD，RetinaNet等

通过对位置、比例和纵横比进行定期密集采样来检测目标，主要优点是计算效率高，但是，检测精度通常落后于两阶段方法。OverFeat方法基于端对端的深度ConvNets来分类、定位和检测。YOLO使用单个前馈卷积网络直接预测对象类和位置，非常快速。之后，YOLOv2改进了YOLO的几个方面：添加所有卷积层上的批量标准化，使用高分辨率分类器，使用带anchor boxes的卷积层替代全连接层来预测bounding boxes等。SSD方法在多个ConvNet层扩展了不同尺度的anchors，强制每个层专注于预测确定的尺寸对象。 DSSD在SSD中引入了额外的上下文，通过反卷积来提高准确性。 DSOD在SSD结构的基础上，设计了一个有效的框架和一套原则来从头开始学习目标检测器。

一阶段方法检测精度低的一个主要原因是类不平衡问题。为了提高准确性，一些新方法通过重新设计损失函数或分类来解决类不平衡问题。 RetinaNet重塑标准交叉熵损失，来聚焦训练在一组稀疏的hard examples，降低分配给分类良好的例子的损失权重。虽然一阶段检测器取得了良好的进展，但准确性仍然落后于两阶段方法。

Two-Stage和One-Stage方法的结合：RON，RefineDet等

RON研究设计了反向连接，使网络能够检测多层 CNN 中的对象；提出了 objectness prior 来引导搜索目标对象，在卷积特征图上显着减少对象的搜索空间；利用多任务损失函数优化整个网络，这样网络就能直接预测最终检测结果。

RefineDet继承了一阶段和两阶段方法的优点，并克服它们的缺点。它使用两个相互连接的模块，即ARM和ODM，来改进一阶段方法的体系结构。

ARM识别并删除negative anchors，以减少分类器的搜索空间；粗略调整anchors的位置和大小，为后续提供更好的初始化回归。这部分类似Faster R-CNN算法中的RPN网络，主要用来得到bbox（类似Faster R-CNN中的ROI或proposal）和去除一些负样本（这是因为负样本数量远大于正样本）。因此基于4层特征最后得到的还是两条支路，一个bbox的坐标回归支路，另一个是bbox的二分类支路。我们知道在Faster R-CNN算法中RPN网络存在的意义就是生成proposal（或者叫ROI），这些proposal会给后续检测网络提供较好的初始信息，这也是one stage的object detection算法和two stage的object detection算法的重要区别，这里的ARM基本上扮演了RPN网络的角色，如果一定要说不同点的话，那应该就是这里的输入利用了多层特征，而RPN网络的输入是单层特征。

ODM采用ARM产生的refined anchors作为输入，进一步改善回归和预测多类标签。这两个互连模块模仿两阶段结构，因此继承了其三个优点来产生准确的检测结果，效率也高。这部分就基本上是SSD了，也是融合不同层的特征，然后做multi class classification和regression。主要的不同点一方面在于这部分的输入anchors是ARM部分得到的refined anchors，类似RPN网络输出的proposal。另一方面和FPN算法类似，这里的浅层feature map（size较大的蓝色矩形块）融合了高层feature map的信息，然后预测bbox是基于每层feature map（每个蓝色矩形块）进行，最后将各层结果再整合到一起。而在SSD中浅层的feature map是直接拿来用的（并没有和高层的feature map融合），也就是对bbox的预测是在每一层上进行的，预测得到结果后再将各层结果整合在一起，这是非常重要的区别。这样做的好处就是对小目标物体的检测效果更好，这在FPN和RON等算法中已经证明过了。

TCB将ARM中的特征传输到ODM中用以预测位置、大小和类别标签。这部分是做特征的转换操作，也就是将ARM部分的输出feature map转换成ODM部分的输入，这部分其实和FPN算法的特征融合很像，FPN也是这样的upsample后融合的思想。

主要贡献：

（1）提出了一个新颖的一阶段框架用于目标检测，由两个相互连接的模块组成，即ARM和ODM。性能比两阶段方法更好，同时保持一阶段方法的高效率。

（2）为确保有效性，设计了TCB来传输ARM的特征，来处理更具挑战性的任务，即预测ODM中准确的对象位置、大小和类别标签。

（3）实现了最新的state-of-the-art通用目标检测（PASCAL VOC 2007，PASCAL VOC 2012和MS COCO）。

3.Network Architecture

图1 RefineDet结构

与SSD类似，RefineDet基于前馈卷积网络生成bounding boxes和目标的不同类的预测分数，通过非最大值抑制来产生最终结果。RefineDet由两个相互连接的模块组成，即ARM和ODM。删除VGG-16和ResNet-101的分类层并添加辅助结构来构建ARM，它们在ImageNet上进行了预训练来满足我们的需求。

网络结构构建，以ResNet101，输入图像大小为320为例，在Anchor Refinement Module部分的4个灰色矩形块（feature map）的size分别是40*40,20*20,10*10,5*5，其中前三个是ResNet101网络本身的输出层，最后5*5输出是另外添加的一个residual block。有了特征提取的主网络后，就要开始做融合层操作了，首先是5*5的feature map经过一个transfer connection block得到对应大小的蓝色矩形块（P6）,transfer connection block后面会介绍，对于生成P6的这条支路而言只是3个卷积层而已。接着基于10*10的灰色矩形块（feature map）经过transfer connection block得到对应大小的蓝色矩形块（P5），此处的transfer connection block相比P6增加了反卷积支路，反卷积支路的输入来自于生成P6的中间层输出。P4和P3的生成与P5同理。

因此，整体来看该网络和two stage的结构很像（都可以概括为two-step cascaded regression），一个子模块做RPN的事，另一个子模块做SSD的事。因此SSD是直接在default box的基础上进行回归的，而在RefineDet中是先通过ARM部分生成refined anchor boxes（类似RPN网络输出的propsoal），然后在refined anchor boxes基础上进行回归，所以能有更高的准确率，而且得益于特征融合，该算法对于小目标物体的检测更有效。

以下解释RefineDet的三个核心组件：（1）传输连接块（TCB），传输ARM的特征到ODM进行检测; （2）两步级联回归，准确地回归物体的位置和大小; （3）负锚过滤，在早期拒绝分类良好的负锚，缓解类不平衡问题。

Transfer Connection Block

图2 TCB结构

为了建立ARM和ODM的联系，我们引入TCB来将ARM中的特征图转换到ODM中，这样ODM可以共享ARM的特征。值得注意的是，从ARM中，我们只在与anchors有联系的特征图上使用TCBs。 TCB通过添加高级特征来整合大规模上下文，以改善检测精度。要匹配它们之间的尺寸，我们使用反卷积操作来扩大高级特征图，并以元素方式对它们求和。然后，我们在求和后添加卷积层以确保检测特征的可辨性。

Two-Step Cascaded Regression

目前的一阶段方法依靠基于具有不同尺度的特征图层的一步回归来预测位置和物体的大小，在某些场景中相当不准确，尤其是小目标检测。因此，我们提出了一个两步级联回归策略回归对象的位置和大小。我们先使用ARM调整anchors的位置和大小，为ODM中的回归提供更好的初始化。我们将n个anchor boxes和在特征图上划分的单元格关联起来。最初的位置每个anchor boxes相对于其对应的单元是固定的。在每个特征映射单元格中，我们预测refined anchors的四个偏移量相对于原始anchors和指示前景存在的两个置信度分数。因此，我们可以在每个特征图单元格产生n个refined anchors。获得refined anchors后，我们将其传到ODM相应的特征图中，进一步生成对象类别和准确的对象位置、尺寸。ARM和ODM中相应的特征图具有相同的维度。我们计算refined anchors的c个类别分数和四个准确的偏移量，产生c + 4的输出以完成检测任务。此过程类似于SSD 中的默认框。但是，与SSD 不同，RefineDet使用两步策略，即ARM生成refined anchor boxes，ODM采取其作为输入进一步检测，因此检测结果更精准，特别适用于小物体。

Negative Anchor Filtering

One-stage精度落后于two-stage的一个主要原因是类别不平衡问题。为了解决这种问题，作者采用了negative anchor过滤。在训练阶段，针对ARM中的anchor，如果negative confidence大于一个阈值θ（θ=0.99，经验值），那么在训练ODM时将它舍弃。也就是通过hard negative anchor和refined anchor来训练ODM。与此同时，在预测阶段，如果refined anchor box负置信度大于θ，则在ODM进行检测时丢弃。

4.Training and Inference

Data Augmentation

使用了几种数据扩充方法生成训练样本，来构建一个强大的模型来适应对象的变化，包括随机扩展，随机剪裁，随机光度失真和翻转。

Backbone Network

使用在ILSVRC CLS-LOC数据集上预训练的VGG-16和ResNet-101作为RefineDet中的骨干网络。RefineDet也可以在其他预训练网络上工作，如Inception v2 ，Inception ResNet和ResNeXt101。与DeepLab-LargeFOV类似，通过子采样参数，将VGG-16的fc6和fc7转换成卷积层conv_fc6和conv_fc7。与其他层相比，conv4_3和conv5_3具有不同的特征尺度，所以使用L2正则化来扩展特征到10和8中，然后在反向传播中学习尺度。同时，为了捕捉高层次多种尺度的信息和引导对象检测，还分别在剪裁的VGG-16和ResNet101的末尾添加了额外的卷积层（即conv6_1和conv6_2）和额外的剩余块（即res6）。

Anchors Design and Matching

处理不同的规模对象，在VGG-16和ResNet101上选择尺寸分别为8,16,32和64像素步幅大小的特征层，与几种不同尺度的anchor相关联进行预测。每个特征图层都与一个特定特征anchor的尺度（尺度是相应层步幅的4倍）和三个比率（0.5,1.0和2.0）相关联。我们遵循不同层上的anchor尺度设计，确保了不同尺度的anchor在图像上具有相同的平铺密度。同时，在训练期间阶段，我们确定之间的对应关系基于anchors和ground truth boxes的jaccard重叠率（IoU），并端到端地训练整个网络。具体来说，我们首先将每个ground truth boxes与具有最佳重叠分数的anchor boxes相匹配，然后匹配anchor重叠高于0.5的任何ground truth boxes。

Hard Negative Mining

关于正负样本界定的标准基本上和其他object detection类似，比如和ground truth的IoU超过阈值0.5的box为正样本，也就是label是1。显然这样做后很多box的标签都是背景标签，也就是所谓的负样本，通过前面说的ARM部分可以过滤掉一些负样本，但接下来还是要采用类似SSD算法中的hard negative mining来设定正负样本的比例（一般设定为1:3），当然负样本不是随机选的，而是根据box的分类loss排序来选的，按照指定比例选择loss最高的那些负样本即可。

Loss Function

损失函数方面主要包含ARM和ODM两方面。在ARM部分包含binary classification损失Lb和回归损失Lr；同理在ODM部分包含multi-class classification损失Lm和回归损失Lr。需要注意的是虽然本文大致上是RPN网络和SSD的结合，但是在Faster R-CNN算法中RPN网络和检测网络的训练可以分开也可以end to end，而这里的训练方式就纯粹是end to end了，ARM和ODM两个部分的损失函数都是一起向前传递的。

图3 损失函数

其中i表示一个batch中的第几个anchor， $l_{i}^{*}$ 表示anchor_i的ground truth的类别， $g_{i}^{*}$ 表示anchor_i的ground truth位置和大小， $p_{i}b$ 表示置信度， $x_{i}$ 表示ARM中anchor的坐标。 $c_{i}$ 表示预测类别， $t_{i}$ 表示ODM中的预测框坐标信息。 $N_{arm}$ 和 $N_{odm}$ 分别表示ARM和ODM中的positive anchor数量。 $L_{b}$ 表示二值分类损失（有目标\没有目标）， $L_{m}$ 表示多类别损失， $L_{r}$ 表示回归损失。 $[l^{_{i}^{*}}\geqslant 1]$ 就表示如果negative confidence大于一个阈值θ，那么返回1，否则返回0。如果 $N_{arm}$ =0，设置 $L_{b}(p_{i},[l^{_{i}^{*}}\geqslant 1])$ =0和 $L_{r}(x_{i},g_{i}^{*})$ =0；如果 $N_{odm}$ =0，那么设置 $L_{m}(c_{i},l_{i}^{*})$ =0和 $L_{r}(t_{i},g_{i}^{*})$ =0。

Optimization

用“xavier”方法随机初始化基于VGG-16的RefineDet的两个添加的卷积层中（conv6_1和conv6_2）的参数。对于基于ResNet-101的RefineDet，绘制参数来自具有标准的零均值高斯分布，额外残余块（res6）的偏差为0.01。

default batch size：32
momentum：0.9（加速收敛）
weight decay：0.0005（防止过拟合）
initial learing rate： $10^{-3}$
different learning rate decay

Inference

在预测阶段，首先，ARM过滤掉负置信度分数大于阈值θ的anchors，refine剩余anchors的位置和大小。然后， ODM输出每个检测图像前400名高置信度的anchors。最后，应用NMS，jaccard重叠率限定为0.45 ，并保留前200名高置信度anchors，产生最终的检测结果。

5.Experiments

Table1是非常详细的实验结果对比，测试数据包括VOC2007和VOC2012数据集。以VGG-16为特征提取网络的RefineDet320在达到实时的前提下能在VOC 2007测试集上达到80以上的mAP，这个效果基本上是目前看到过的单模型在相同输入图像情况下的最好成绩了。表格中最后两行在算法名称后面多了+，表示采用multi scale test，因此效果会更优一些。

6.Conclusion

在本文中，提出了一种新的单次目标检测器，由两个相互连接模块组成，即ARM和ODM。使用multi-task loss对整个网络进行end-to-end训练。在PASCAL VOC 2007，PASCAL VOC 2012和MS COCO数据集上进行了几次实验，结果表明RefineDet实现了目标最先进的检测精度和高效率。

将来，计划使用RefineDet来检测一些其他特定类型的物体，例如行人，车辆和面部，并在RefineDet中引入注意机制以进一步改善性能。

Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
目标检测中归一化的目的？林语微光 kaggle 目标检测目标跟踪人工智能
在目标检测任务中，归一化坐标和尺寸时需要除以图像的宽度和高度，主要有以下几个原因：1.统一尺度不同图像可能具有不同的宽度和高度。通过将坐标和尺寸除以图像的宽度和高度，可以将所有图像的标注信息统一到相同的尺度范围（[0,1]）。这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
【保姆级视频教程（一）】YOLOv12环境配置：从零到一，手把手保姆级教程！| 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO YOLOv12 flash attention GPU 计算能力算力
【2025全站首发】YOLOv12环境配置：从零到一，手把手保姆级教程！|小白也能轻松玩转目标检测！文章目录1.FlashAttentionWindows端WHL包下载1.1简介1.2下载链接1.3国内镜像站1.4安装方法2.NVIDIAGPU计算能力概述2.1简介2.2计算能力版本与GPU型号对照表2.2.1CUDA-EnabledDatacenterProducts2.2.2CUDA-Enab
yolov8的第一次实验报告算法宇宙 YOLO 人工智能计算机视觉
1.实验概述实验名称:占道经营目标检测模型实验目标:提高模型的精确率（Precision）和召回率（Recall），使其接近1。实验日期:[2025-01-16]2.数据集数据集名称:[datasets]数据集大小:[2.68Gb]数据集描述:[数据集主要分两个类别：zdjy_ld,zdjy_gd]注释：占道经营流动，占道经营固定3.模型配置3.1基础配置·模型类型:YOLOv8·预训练模型:YO
YOLOv8 的简介及C#中如何简单应用YOLOv8 码上有潜 YOLOv8 YOLO
YOLOv8是YOLO（YouOnlyLookOnce）系列中的最新版本，是一种用于目标检测和图像分割的深度学习模型。YOLO模型以其快速和准确的目标检测性能而著称，广泛应用于实时应用程序中。主要特点高效性：YOLOv8在保持高检测速度的同时，进一步提高了检测精度。端到端训练：可以直接从图像输入端到分类结果输出，简化了训练和部署过程。改进的架构：包括更深的网络结构、更复杂的特征提取方法以及更高效的
Yolov11目标检测(ultralytics) @M_J_Y@ 目标检测 YOLO 目标检测人工智能
Yolov11目标检测（ultralytics）1.克隆仓库2.安装环境依赖3.训练、验证、推理以及onnx模型导出1.克隆仓库从官网下载Yolov11到本地。[email protected]:ultralytics/ultralytics.git2.安装环境依赖pipinstall-e.-ihttps://pypi.mirrors.ustc.edu.cn/simple/3.训练、验证
使用 labelImg 制作YOLO系列目标检测数据集（ 2401_89791028 YOLO 目标检测人工智能
文章转载自K同学，谨防原文失效可参考link1和link2和link3LabelImg介绍LabelImg支持文件夹的导入，在标完一张后，在左侧选择NextImage就可以切换到下一张继续了。输出格式部分，目前LabelImg支持YOLO和PascalVOC2种格式，前者标签文件后缀是.txt件，而后者标签文件后缀是.xml件。标签保存在对应的labels文件夹下，与images中的图片文件名一一
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
YOLOv8 改进：添加 GAM 注意力机制鱼弦人工智能时代 YOLO
YOLOv8改进：添加GAM注意力机制引言在目标检测领域，YOLO（YouOnlyLookOnce）网络因其速度和准确性被广泛应用。然而，随着场景的复杂化，仅仅依靠卷积特征可能不足以捕捉图像中的重要信息。引入注意力机制，如GAM（GlobalAttentionMechanism），可以有效提高模型对关键区域的关注，从而提升检测性能。技术背景GAM是一种全局注意力机制，通过全局信息聚合和自适应权重分
【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试? 努力毕业的小土博^_^ AI算法题库人工智能计算机视觉算法深度学习神经网络目标检测
【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?【北上广深杭大厂AI算法面试题】计算机视觉篇…详解目标检测中的多尺度训练和测试?文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...详解目标检测中的多尺度训练和测试?前言多尺度训练核心思想：优点与注意点：多尺度测试核心思想：优点与注意点：综合作用参考示例总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上
从0到1构建AI深度学习视频分析系统--基于YOLO 目标检测的动作序列检查系统：（2）消息队列与消息中间件 shiter 人工智能系统解决方案与技术架构人工智能深度学习音视频
文章大纲原始视频队列Python内存视频缓存优化方案（4GB以内）一、核心参数设计二、内存管理实现三、性能优化策略四、内存占用验证五、高级优化技巧六、部署建议检测结果队列YOLO检测结果队列技术方案一、技术选型矩阵二、核心实现代码三、性能优化策略四、可视化方案对比五、部署建议逻辑判定队列时间片图论时间序列大模型引入参考文献原始视频队列想要在单机内存中缓存1-5分钟的视频片段，python技术栈的话
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
YOLOv5+UI界面在车辆检测中的应用与实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪人工智能
1.引言随着智能交通系统（ITS）的快速发展，车辆检测已成为计算机视觉领域的重要研究方向。车辆检测技术广泛应用于交通流量监控、车辆违章抓拍、无人驾驶等场景中。近年来，深度学习技术的突破，特别是卷积神经网络（CNN）的崛起，使得目标检测技术取得了显著进展。其中，YOLO（YouOnlyLookOnce）系列模型以其高效的实时检测能力和出色的性能成为车辆检测领域的首选方法之一。在本文中，我们将基于YO
YOLO优化之扫描融合模块（SimVSS Block）清风AI 人工智能计算机视觉 YOLO 目标检测深度学习目标跟踪
研究背景在自动驾驶技术快速发展的背景下，目标检测作为其核心组成部分面临着严峻挑战。驾驶场景中目标尺度和大小的巨大差异，以及视觉特征不显著且易受噪声干扰的问题，对辅助驾驶系统的安全性构成了潜在威胁。传统的卷积神经网络（CNN）虽然在目标检测领域取得了显著进展，但仍存在局限性，如局部关注性导致难以有效检测不同尺度的目标。为克服这些问题，研究人员开始探索将状态空间模型（SSM）引入目标检测领域，以期提高
深入探究YOLO系列的骨干网路编码实践 YOLO 深度学习计算机视觉
深入探究YOLO系列的骨干网路YOLO系列是目标检测领域中非常知名的算法。其通过将整个图像作为输入，并且直接在图像上通过一个单独的神经网络输出每个检测框的类别预测和边界框信息。为了更好地理解YOLO系列，我们需要先了解它所使用的骨干网路。骨干网络是深度学习模型中的核心部分，负责提取图像的特征。如今常用的骨干网络有VGG、ResNet和MobileNet等。YOLO系列算法采用的是Darknet骨干
《Hello YOLOv8从入门到精通》4，模型架构和骨干网络Backbone调优实践 Jagua YOLO
YOLOv8是由Ultralytics开发的最先进的目标检测模型，其模型架构细节包括骨干网络（Backbone）、颈部网络（Neck）和头部网络（Head）三大部分。一、骨干网络（Backbone）Backbone部分负责特征提取，采用了一系列卷积和反卷积层，同时使用了残差连接和瓶颈结构来减小网络的大小并提高性能。YOLOv8的Backbone参考了CSPDarkNet结构，的增强版本，并结合了其
NPU的应用场景：从云端到边缘绿算技术 NPU架构介绍缓存人工智能科技深度学习
NPU的应用场景非常广泛，主要包括以下几个方面：1.云计算与数据中心AI推理服务：在云端提供高效的AI推理服务，例如图像识别、语音识别。模型训练加速：在大规模训练任务中，NPU可以作为加速单元，提升训练效率。2.边缘计算智能摄像头：在安防监控中，NPU可以实时处理视频流，实现目标检测和跟踪。智能音箱：在语音助手中，NPU可以加速语音识别和自然语言处理任务。3.自动驾驶实时感知：NPU可以加速自动驾
目标检测中衡量模型速度和精度的指标：FPS和mAP asdfg1258963 目标检测_ai 目标检测人工智能
“FPS”和“mAP”分别衡量了模型的速度和精度。FPS（FramesPerSecond）定义：FPS是“每秒传输帧数”的缩写，用于衡量计算机视觉系统（如目标检测、图像识别等）的实时性能。它表示系统每秒钟能够处理的图像或视频帧的数量。重要性：在实时应用中，如自动驾驶、视频监控等，FPS是一个关键指标。高FPS意味着系统能够快速处理输入的图像数据，实现实时响应。计算方式：FPS可以通过以下公式计算：
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
3.13 YOLO V3 不要不开心了机器学习 pytorch 深度学习
今天的内容为YOLO-V3YOLO系列-YOLO-V3，最大的改进就是网络结构，使其更适合小目标检测。-特征做得更细致，融入多持续特征图信息来预测不同规格物体。-先验框更丰富了，3种scale，每种3个规格，一共9种。-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s