一颗苹果OAOA

Faster R-CNN 完整详解【论文笔记】

写在前面
0 Abstract
1 Introduction
2 FASTER R-CNN

2.1 RPN(Region Proposal Networks)

2.1.1 Anchor
2.1.2 损失函数

2.2 RPN和Fast R-CNN共享特征
2.3 实现细节

3 汇总网络执行过程

3.1 Conv layers
3.2 Region Proposal Networks
3.3 RoI pooling
3.4 Classification

写在前面

Ren, Shaoqing, Kaiming He, Ross Girshick, and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. arXiv.org. June 4..

在R-CNN、SPPNet、Fast R-CNN基础上，创新的Faster R-CNN可以简单地看做“区域生成网络+fast RCNN”的系统，用区域生成网络代替Fast RCNN中的Selective Search方法，进而可以得到一种端到端训练方法。本篇论文着重解决了这个系统中的三个问题：

如何设计区域生成网络
如何训练区域生成网络
如何让区域生成网络和Fast RCNN网络共享特征提取网络

0 Abstract

之前提出的SPPnet和Fast R-CNN网络已经极大地减少了网络的运行时间，但是候选区域计算仍然是一个对于网络运算时间的瓶颈，本篇论文旨在解决该问题。作者引入了一个候选区域网络（RPN），该网络与原来的检测网络(即Fast R-CNN)共享全图像的卷积特征，从而使得候选区域的计算成本降到最低。
RPN是一个全卷积网络，可以同时在每个特征图位置预测目标边界和目标分数。由于使用Fast R-CNN网络用于检测，RPN通过端到端的训练，可以生成高质量的候选区域，故作者将RPN和Fast R-CNN通过共享卷积特征进一步合并为一个单一的网络。

1 Introduction

Fast R-CNN首先生成图片的卷积图，之后再通过Search Selective选择候选区域。在生成的卷积图之上，可以通过添加一些额外的卷积层来构建RPN，这些卷积层同时在特征图上的每个位置上回归区域边界和目标分数。由于RPN是一种全卷积网络，可以针对生成检测候选区域的任务进行端到端的训练。下图是Faster R-CNN结构的整体框图。

RPN可以高效预测具有很大范围的图片尺寸和长宽比的候选区域。

不同于改变原始图像的尺寸大小或者是改变过滤器的尺寸，作者引入新的“锚”盒(anchor boxes)作为多种尺寸和长宽比的参考，该方案避免了枚举多种比例或长宽比的图像或滤波器。这个模型在使用单尺度图像进行训练和测试时运行良好，从而有利于运行速度。

2 FASTER R-CNN

目标检测系统Faster R-CNN由两个模块组成。第一个模块是提出候选区域的PRN，第二个模块是使用候选区域作为输入的的Fast R-CNN模型。

RPN模块告诉Fast R-CNN模块在哪里寻找需检测的目标，即代替了Fast RCNN中的Selective Search方法。在2.1节中，介绍候选区域网络的设计和属性。在2.2节中，开发了用于训练具有共享特征模块的算法。

2.1 RPN(Region Proposal Networks)

RPN以任意大小的图像作为输入，输出一组矩形的候选区域，每个区域都有一个目标得分。因为最终目标是RPN与Fast R-CNN目标检测网络共享计算，所以假设两个网络共享一组共同的卷积层。

为了生成候选区域框，在最后一个共享的卷积层输出的卷积特征图上滑动mini网络，这个mini网络在输入卷积特征图上取出n×n大小的空间窗口（在论文中取n=3）。每一个滑动窗口被映射为一个低维度的特征。这个特征被输入到两个并行的全连接层中，一个是边界框回归层，一个是框分类层。这个mini网络如下图所示。

在每一个候选窗口的位置，同时预测k个候选区域，所以reg层有4k个输出（4个参数定义一个矩形）；cls层输出2k个得分，即对每个优选区域是目标/非目标的估计概率（为简单起见，使用二类的softmax层实现的cls层，还可以用logistic回归来生成k个得分）。

这里注意：由于mini网络以滑动窗口的方式进行操作，故全连接层是在全部空间位置共享的。可以通过一个nxn的卷积网络后跟两个1×1的卷积网络层（分别是reg和cls）来实现，ReLU应用于nxn卷积层的输出。具体请看下图红框部分。（整个流程请看第三部分）

2.1.1 Anchor

对于得到的特征图的每一个位置，考虑9个可能的候选窗口：三种面积{128²,256²,512²}×三种比例{1:1,1:2,2:1}。这些候选窗口称为anchors。每个anchor以当前候选窗口的中心为中心，并对应一种尺度和长宽比，这样在每一个滑动位置就有k=9个anchor。对于大小为WxH的卷积特征图，总共有WHk个anchor。

下面这张图更好的展示了论文中anchor的位置及大小。

anchor的平移不变性

作者的方法保证了平移不变性，且无论是anchor还是相对anchor计算候选区域的函数都有这个特性。平移不变性指的是如果在一张图片上移动一个物体，那么候选区域也应该平移并且相同的函数应该能够在新的位置也计算出该候选区域来。平移不变特性也减小了模型的大小。

多尺度anchor作为回归参照物
锚点的设计解决了多尺度（和长宽比）的问题。目前多尺度预测有两种流行的方法，第一种方法是基于图像/特征金字塔，即图像在多个尺度上进行缩放，并且针对多个尺寸的同一图片计算特征图，但该方法非常耗时；第二种方法是在特征图上使用多尺度（和/或长宽比）的过滤器。

锚盒通过考虑9个可能的候选窗口：三种面积{128²,256²,512²}×三种比例{1:1,1:2,2:1}，参照多尺度和长宽比的锚盒来分类和回归边界框，它只依赖单一的图像尺寸、特征图和滤波器（特征图上的滑动窗口）。

2.1.2 损失函数

在训练RPN过程中，给每个anchor标记一个二进制的标签(positive/negative)。符合下面两类情况之一的anchor则标记为positive：

与真实边界框有最高的IoU的anchor（也许不到0.7）
与任意真实边界框的IoU>0.7的anchor。（注意到对于同一个真实边界框可能有多个positive标签的anchor）

对于与任意真实边界框的IoU<0.3的anchor标记为negative；非正非负的anchor对训练目标没有任何作用。

在这些定义的基础上，结合遵循Fast R-CNN中的多任务损失来最小化目标函数。对一个图像的损失函数定义为

其中i为每一个mini-batch中的anchor的索引；p_i为预测anchor i 是positive的概率；如果anchor为positive，则真实标签p^*_i为1，如果anchor为hegative，p^*_i为0；

t_i是包含预测边界框的4个参数化坐标的向量；同理，t^*_i表示anchor为positive时的真实边界框。

分类损失L_cls是两个类别上（目标或不是目标）的对数损失。

对于回归损失，使用L_reg(t_i,t^*_i)=R(t_i - t^*_i)，其中R是鲁棒损失函数（平滑L1）。

其中 P~i~ ×L~reg~这一项意味着只有anchor为positive时即（Pi* =1）才有回归损失，其他情况则没有（Pi* =0）；

公式中N_cls和N_reg用于归一化，N_cls为#mini-batch(N_cls = 256)，N_reg为anchor的个数(N_reg~2400)。默认设置λ = 10，这样使得两部分的权重大致相等。

对于边界框回归，采用的4个坐标参数为：

其中，x，y，w和h表示边界框的中心坐标及其宽和高。变量x，x_a和x^*分别表示预测边界框、anchor和实际边界框，该公式可以理解为anchor到邻近的真实边界框的回归。如下图所示，其中红色的A框是生成的anchor box,而蓝色的G’框是经过RPN网络训练后得到的较精确的预测框，绿色的G是ground truth box。

在SPPNet和Fast R-CNN中，通过对于任意尺寸的RoIs进行特征池化，并且回归权重由所有区域大小共享；而在Faster R-CNN中，用于回归的特征在特征图上具有相同的空间大小（3×3）。

考虑到候选区域的不同大小，需要学习一系列k(k=9)个边界框回归器。每一个回归器对应于一个尺度和长宽比，且k个回归量之间不共享权重。因此，由于anchor的设计，即使用于回归的特征具有固定的尺度/比例，仍然可以预测各种尺寸的边界框。

####2.1.3 训练RPNs

RPN可以通过反向传播和随机梯度下降（SGD）进行端对端的训练。采用“以图像为中心”的采样策略来训练这个网络，即每个小批量数据都从包含许多positive和negative锚点的单张图像中产生。

随机采样一张图片中的256个anchors去计算一个mini-batch的损失函数，其中采样的positive anchor和negative anchor的比率可达1:1。如果一个图像中的正样本数小于128，就用负样本填补这个mini-batch。

将模型中的所有新层（所有共享卷积层之后的层）的权值初始化为均值为0、标准差为0.01的高斯分布，所有其他层（即共享的卷积层）是通过对ImageNet分类预训练的模型来初始化的。

对于前60k个mini-batch，学习率为0.001；对于之后的20k个mini-batch，学习率是0.0001；momentum为0.9，权重衰减为0.0005。

2.2 RPN和Fast R-CNN共享特征

独立训练RPN和Fast R-CNN将以不同的方式修改卷积层权重，因此需要开发一种允许在两个网络之间共享卷积层的技术，而不是训练两个独立的网络。作者提出三种方法来训练具有共享特征的网络：

交替训练。首先训练RPN，并使用这些候选区域来训练Fast R-CNN。将微调Fast R-CNN网络后的结果用于初始化RPN，并且重复这个过程。这是本文所有实验中使用的解决方案。
近似联合训练。将RPN和Fast R-CNN网络在训练期间合并成一个网络。在每次SGD迭代中，前向传递生成候选区域，在训练Fast R-CNN检测器时，将RPN生成的候选区域看作是固定的、预计算的区域。反向传播像往常一样进行，其中对于共享层，将来自RPN损失和Fast R-CNN损失的反向传播信号结合起来。但是这个解决方案忽略了关于RPN响应的导数，因此是近似的。
非近似联合训练。需要一个关于边界框坐标可微分的RoI池化层，这个方法在论文中仅仅简单提了一下。

接下来着重阐述一下论文使用的四步交替训练：

将RPN网络用ImageNet预训练的模型初始化，对于候选区域任务进行端到端微调；
将Fast R-CNN网络用ImageNet预训练的模型初始化，将第一步得到的候选区域输入到Fast R-CNN网络中用于训练；
使用训练后的Fast R-CNN网络初始化RPN模型，将共享卷积层固定，仅仅微调RPN网络独立的卷积层；
保持共享卷积层参数不变，微调Fast R-CNN网络独立的卷积层。

2.3 实现细节

RPN生成的某些候选区域和其他候选区域大量重叠，为了减少冗余，采用基于候选区域的cls得分的非极大值抑制（non-maximum suppression, NMS），固定对NMS的IoU阈值为0.7，这样使得每张图像只剩2k个候选区域。NMS不会影响最终的检测准确率，并且大幅地减少了候选区域的数量，进而减少了训练时间。
注意并不是将这2k个候选区域全部检测，而是在NMS之后，将候选区域中的top-N个送入分类器和回归器，所以Faster-RCNN和RCNN、Fast-RCNN一样，都属于two-stage的检测算法。

3 汇总网络执行过程

这里以VGG16模型为例，来阐述Faster R-CNN的具体执行过程。首先下图该模型的Faster R-CNN框架。

这里将Faster R-CNN模型算法共分为四个颜色不同的框图，对应着四个步骤：

１．Conv layers（绿框）。作为一种cnn网络目标检测的方法，faster_rcnn首先使用一组基础conv+relu+pooling层提取image的feture map。该feature map被共享用于后续的RPN层和全连接层；
２．Region Proposal Networks（蓝框）。RPN网络用于生成region proposcals。该层通过softmax判断anchors属于foreground或者background，再利用box regression修正anchors获得精确的propocals；
３．Roi Pooling（红框）。该层收集输入的feature map 和 proposcal，综合这些信息提取proposal feature map，送入后续的全连接层判定目标类别；
４．Classification（橙框）。利用proposal feature map计算proposal类别，同时再次bounding box regression获得检验框的最终精确位置。

下面结合上图对于任意一张图片经过该网络的处理过程进行阐述：

3.1 Conv layers

对于Faster R-CNN网络输入一张P×Q大小的图像，首先网络将图像resize为M×N大小，之后经过13个conv层、13个relu层和4个pooling层得到该图像的特征图（上图中的feature map）；这里需注意：

所有的conv层参数为：kernel_size=3，pad=1，stride=1
所有的pooling层参数为：kernel_size=2，pad=0，stride=2
故在进行卷积时，输入与输出的大小相同，而经过4个pooling后的特征图大小应为（M/16, N/16）；
记得之前讲到对于特征图上的每一个位置有9个anchor，而这9个anchor则对应原图中16×16的图像区域。

3.2 Region Proposal Networks

得到的feature map作为RPN网络的输入。首先经过3×3卷积层和relu层，相当于feature map上的每个点又融合了周围3x3的空间信息，增加网络的鲁棒性；其结果并行输出两路，一路用于给anchor标记positive/ negative；另一路用于修正anchor框的位置。最后的Proposal层则负责综合positive anchors和边界框偏移量获取proposals，同时剔除太小和超出实际原图像边界的proposals。

对于这条路，首先通过1×1卷积对输入特征计算scores进而标记每个anchor；这里使用了18个1×1卷积核，故输出大小为M/16 x N/16x 18，刚好对应了feature maps每一个点都有9个anchors，且每个anchor有两种标记(positive/ negative)；而后面接softmax层用于获得positive anchors。
而softmax前后接一个reshape层的目的是为了便于softmax分类，主要是caffe框架的softmax实现形式所需要，且第二个Reshape将M/16 x N/16的尺寸大小变为M × N大小，用于Proposal层剔除超出实际原图像边界的proposals。

对于这条路，首先通过1×1卷积用于对输入计算anchor相对于真实边界框的变换量；这里使用了36个1×1卷积核，故输出大小为M/16 x N/16x 36，因为共有9个anchor，每个anchor的位置有四个变量确定。

Proposal层结合输入的positive anchors和回归后的边界框，首先剔除尺寸非常小的positive anchors和超出实际原图像边界的proposals，之后对剩余的positive anchors进行NMS（nonmaximum suppression），最后取top-N个结果作为Proposal层的输出。

3.3 RoI pooling

RoI pooling层的输入为feature map和Proposal层的输出，由于Proposal层的输出尺寸大小是相对于M × N的，故本层首先将其resize为M/16 x N/16，然后对于每个输入的候选区域分为m×m(m=7)的网格,对网格的每一份进行max pooling处理。

3.4 Classification

Classification部分利用获得的候选区域特征图，通过全连接层与softmax层对每个proposal进行分类；同时再次利用边界框回归获得每个proposal的位置偏移量，用于回归更加精确的目标检测框。

经过这4步则完成了对于一张图片的目标检测。

参考知乎博客，文中图片部分来自源论文，部分来自该知乎博客。（强推）

欢迎关注【OAOA】

Python机器学习与深度学习：决策树、随机森林、XGBoost与LightGBM、迁移学习、循环神经网络、长短时记忆网络、时间卷积网络、自编码器、生成对抗网络、YOLO目标检测等 WangYan2022 机器学习/深度学习 Python 机器学习深度学习随机森林迁移学习
融合最新技术动态与实战经验，旨在系统提升以下能力：①掌握ChatGPT、DeepSeek等大语言模型在代码生成、模型调试、实验设计、论文撰写等方面的实际应用技巧②深入理解深度学习与经典机器学习算法的关联与差异，掌握其理论基础③熟练运用PyTorch实现各类深度学习模型，包括迁移学习、循环神经网络（RNN）、长短时记忆网络（LSTM）、时间卷积网络（TCN）、自编码器、生成对抗网络（GAN）、YOL
YOLOv11模型轻量化挑战的技术黑客飓风 YOLO 目标跟踪人工智能
YOLOv11模型轻量化挑战的技术文章大纲背景与意义YOLOv11在目标检测领域的地位与优势轻量化需求的实际应用场景（移动端、嵌入式设备等）轻量化面临的挑战：精度与速度的权衡YOLOv11模型结构分析整体架构设计特点（如主干网络、特征融合模块等）参数量与计算量分布的关键瓶颈现有轻量化改进的局限性轻量化技术路线网络结构优化深度可分离卷积替代传统卷积注意力机制的高效嵌入设计冗余模块的剪枝与删除量化与压
语言大模型综述
Paper:ASurveyofLargelanguageModels目录Paper:ASurveyofLargelanguageModels综述概要LLM关键技术规模定律（ScalingLaws）预训练与微调对齐调优（AlignmentTuning）外部工具集成GPT系列模型的技术演进模型检查点和APIPre-Training数据准备和处理数据准备数据预处理数据调度架构EmergentArchit
Halcon学习之select_shape（）算子参数介绍
一、算子介绍select_shape()是HALCON中用于基于形状特征筛选区域的关键算子，广泛应用于图像分割、目标检测和工业质检等领域。它允许用户根据指定的几何特征从输入区域集合中选择符合条件的区域。至于为什么单独介绍这个算子呢，因为他筛选特征的方式有太多种了，如果可以熟练的掌握这些特征，那在后面的例程学习以及实际应用中，可谓是得心应手了。二、算子参数select_shape(Regions:S
bounding box 回归
【目标检测】基础知识：IoU、NMS、Boundingboxregression-知乎(zhihu.com)
Aurora中插入伪代码的字体设置
中文：宋体英文：TimesNewRoman公式：LatinModernMath，跟包newtxmath有关word里面插入对象-->选择AuroraEquation-->Properties-->Packages，复制以下代码：%!TEXprogram=xelatex%强制使用XeLaTeX引擎\documentclass[a4paper]{article}%\usepackage{mathptm
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
mediapipe流水线分析三江太翁 Android NDK 人工智能 mediapipe android
目标检测Graph一流水线上游输入处理1TfLiteConverterCalculator将输入的数据转换成tensorflowapi支持的TensorTfLiteTensor并初始化相关输入输出节点，该类的业务主要通过interpreterstd::unique_ptrtflite::Interpreterinterpreter_=nullptr;实现类完成数据在cpu/gpu上的推理1.1Tf
初始CNN(卷积神经网络) 超龄超能程序猿机器学习 cnn 人工智能神经网络
卷积神经网络（ConvolutionalNeuralNetwork，简称CNN）作为深度学习的重要分支，在图像识别、目标检测、语义分割等领域大放异彩。无论是手机上的人脸识别解锁，还是自动驾驶汽车对道路和行人的识别，背后都离不开CNN的强大能力一、CNN诞生的背景与意义在CNN出现之前，传统的图像识别方法主要依赖人工提取特征，例如使用SIFT（尺度不变特征变换）、HOG（方向梯度直方图）等算法。这些
深度学习相关指标工作笔记 Victor Zhong AI 框架深度学习笔记人工智能
这里写目录标题检测指标iou/Ｇou/Ｄiou/ＣiouMSE(MeanSquaredError)(均方误差)(回归问题)交叉熵损失函数(CrossEntropyErrorFunction)(分类问题)检测指标iou/Ｇou/Ｄiou/ＣiouIntersectionoverUnion(IoU)是目标检测里一种重要的评价值交并比令人遗憾的是IoU无法优化无重叠的bboxes如果用IoU作为loss
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
水下目标检测：突破与创新加油吧zkf 目标跟踪人工智能计算机视觉
水下目标检测技术背景水下环境带来独特挑战：光线衰减导致对比度降低，散射引发图像模糊，色偏使颜色失真。动态水流造成目标形变，小目标（如10×10像素海胆）检测困难。声呐与光学数据融合可提升精度，但多模态对齐仍是技术难点。核心算法实现要点图像预处理直方图均衡化与Retinex算法结合改善对比度和色偏：defsingle_scale_retinex(img,sigma):retinex=np.log10
YOLOv11 改进策略 | GFPN：超越 BiFPN，跳层与跨尺度连接重塑特征金字塔
YOLOv11改进策略|GFPN：超越BiFPN，跳层与跨尺度连接重塑特征金字塔！介绍颈部网络（Neck）在目标检测任务中扮演着至关重要的角色，它负责有效地融合来自骨干网络（Backbone）不同层级的特征图，为检测头部（Head）提供包含丰富语义和空间信息的多尺度特征。FPN、PANet和BiFPN等结构是特征金字塔融合的代表。BiFPN作为其中的佼佼者，通过双向连接和加权融合取得了优异的性能。
超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解
因为yolo的检测/分割/姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分；【YOLOv8/11-detect目标检测全流程教程】超详细yolo8/11-detect目标检测全流程概述：配置环境、数据标注、训练、验证/预测、o
创新引入HAttention模块：提升YOLOv8小目标检测精度【YOLOv8】程序员Gloria YOLOv8 YOLO 目标跟踪人工智能目标检测
文章目录创新引入HAttention模块：提升YOLOv8小目标检测精度【YOLOv8】引言1.YOLOv8模型概述1.1YOLOv8架构1.2YOLOv8小目标检测的挑战2.HAttention模块：原理与设计2.1HAttention模块的动机2.2HAttention模块的结构3.HAttention模块在YOLOv8中的应用3.1引入HAttention模块3.2YOLOv8架构修改3.3
YOLOv11深度解析：Ultralytics新一代目标检测架构创新与实战指南芯作者 D2:YOLO YOLO 神经网络计算机视觉
2024年Ultralytics重磅推出YOLOv11**：在精度与速度的平衡木上再进一步，参数减少22%，推理速度提升2%，多任务支持全面升级！一、YOLOv11核心创新：轻量化与注意力机制的完美融合YOLOv11并非颠覆性重构，而是通过模块级优化实现“少参数、高精度、快推理”的目标。其三大创新点如下：1.1C3k2模块：动态卷积核的灵活设计取代YOLOv8的C2f模块，C3k2通过参数c3k动
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
目标检测新纪元：DETR到Mamba实战解析加油吧zkf 图像处理 python 分类人工智能目标检测
【实战分享】目标检测的“后DEⱯ”时代：DETR/DINO/RT-DETR及新型骨干网络探索（含示例代码）目标检测从YOLO、FasterR-CNN到Transformer结构的DETR，再到DINO、RT-DETR，近两年出现了许多新趋势：更高效的端到端结构、更少的手工设计（比如不再需要NMS）、以及新型轻量化骨干网络（比如Mamba、ConvNeXt、ViT等）被引入检测任务中。作为从事目标检
OpenCV中DPM（Deformable Part Model）目标检测类cv::dpm::DPMDetector 村北头的码农 OpenCV opencv 目标检测人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV中用于基于可变形部件模型（DPM）的目标检测器，主要用于行人、人脸等目标的检测。它是一种传统的基于特征的目标检测方法，不依赖深度学习，而是使用HOG特征+部件模型来进行检测。示例代码#include#include#includeusingnamesp
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
YOLOv5Lite模型量化与TFLite转换全流程指南神经网络15044 仿真模型深度学习神经网络 YOLO 神经网络人工智能深度学习网络机器学习
YOLOv5Lite模型量化与TFLite转换全流程指南1.引言在边缘计算和移动设备上部署目标检测模型时，模型大小和推理速度是关键考量因素。YOLOv5Lite作为YOLO系列的轻量级变种，专为资源受限环境设计。然而，要进一步优化模型性能，量化(Quantization)和转换为TFLite格式是必不可少的步骤。本文将详细介绍从训练好的YOLOv5Lite模型到量化TFLite模型的完整转换流程，
YOLOv7 技术详解（Real-Time Dynamic Label Assignment + Model Scaling）要努力啊啊啊计算机视觉 YOLO 人工智能深度学习计算机视觉目标跟踪
✅YOLOv7技术详解（Real-TimeDynamicLabelAssignment+ModelScaling）一、前言YOLOv7是AlexeyBochkovskiy团队后续维护者提出的一种高性能目标检测模型，在YOLOv5基础上引入了多项结构优化和训练策略改进：✅模型集成（ModelIntegration）✅动态标签分配（ExtendAssigner）✅支持重参数化模块（ReparamBlo
RT‑DETR 系列发展时间顺序要努力啊啊啊计算机视觉深度学习计算机视觉目标检测人工智能
RT‑DETR系列发展时间顺序RT‑DETR系列是由百度提出的一系列基于Transformer的实时端到端目标检测器，以下列出了从提出到演化的主要milestone：时间线概览版本时间主要改进/特点DETR2020–05（论文）oai_citation:0‡labellerr.comoai_citation:1‡arxiv.orgTransformer架构首次用于端到端检测，无需NMSRT‑DET
Mamba-YOLOv8深度解析：基于状态空间模型的下一代目标检测架构（含完整代码与实战部署）文末含资料链接！博导ai君深度学习教学-附源码 YOLO 目标检测架构
文章目录前言一、技术背景与动机1.1传统架构的局限性1.2Mamba的创新优势二、Mamba-YOLOv8架构详解2.1整体架构设计2.2核心模块：VSSblock2.3SS2D模块工作原理三、完整实现流程3.1环境配置3.2代码集成步骤3.3训练与微调四、性能分析与优化4.1精度提升策略4.2推理加速方案4.3硬件适配技巧五、实战案例：无人机航拍检测5.1数据集准备5.2模型训练与评估六、未来研
目标检测在国防和政府的应用实例 MzKyle 计算机视觉目标检测人工智能计算机视觉
一、目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer）、多模态融合（视觉+红外+雷达）、边缘计算实时处理二、国防领域核心应用实例（一）军事侦察与监控系统无人机侦察与目标识别应用场景：战术无人
Python机器学习实战——逻辑回归（附完整代码和结果）小白熊XBX 机器学习机器学习 python 逻辑回归
Python机器学习实战——逻辑回归（附完整代码和结果）关于作者作者：小白熊作者简介：精通c#、Halcon、Python、Matlab，擅长机器视觉、机器学习、深度学习、数字图像处理、工业检测识别定位、用户界面设计、目标检测、图像分类、姿态识别、人脸识别、语义分割、路径规划、智能优化算法、大数据分析、各类算法融合创新等等。联系邮箱：[email protected]科研辅导、知识付费答疑、个性化定制
红外小目标检测算法RIPI hie98894 目标检测目标跟踪机器学习
红外小目标检测算法RIPI，基于红外块图像，张量加权，PCADENTIST-master/algorithms/detection/NIPPS/demo_generate_nipps_data.m,1244DENTIST-master/algorithms/detection/NIPPS/nipps.m,2649DENTIST-master/algorithms/detection/NIPPS/R
YOLOv11安全检测项目_人员、安全帽、安全服、普通服装、头部、模糊服装、模糊头部目标检测 qq1309399183 计算机视觉实战项目集合 YOLO 目标检测人工智能深度学习计算机视觉
YOLOv10与YOLOv11安全检测项目项目概述Safety本项目基于SF数据集（50,559张图像/7类别）对YOLOv10和YOLOv11模型进行对比研究，重点优化安全帽、安全服及模糊目标的工业场景检测性能。核心要素组件配置说明模型架构YOLOv10vsYOLOv11双模型对比数据集[SF)检测类别人员、安全帽、安全服、普通服装、头部、模糊服装、模糊头部训练参数•迭代周期：100epochs
python图像识别哪些库_利用ImageAI库只需几行python代码实现目标检测 weixin_39667398 python图像识别哪些库
什么是目标检测目标检测关注图像中特定的物体目标，需要同时解决解决定位(localization)+识别(Recognition)。相比分类，检测给出的是对图片前景和背景的理解，我们需要从背景中分离出感兴趣的目标，并确定这一目标的描述(类别和位置)，因此检测模型的输出是一个列表，列表的每一项使用一个数组给出检出目标的类别和位置(常用矩形检测框的坐标表示)。通俗的说，ObjectDetection的目
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo