SSSlasH

目标检测正负样本区分和平衡策略（anchor-based）

最近看了一篇大佬写关于正负样本区分和平衡策略的博文，研究了一下并且查了一下资料进行了补充，加上个人的见解和解读，在此做个总结，欢迎大家补充指正，侵权必删。

大佬博文：目标检测正负样本区分策略和平衡策略总结(一) - 知乎

目标检测正负样本区分策略和平衡策略总结（anchor-based）

本文抛弃网络具体结构，仅仅从正负样本区分和正负样本平衡策略进行分析，大体可以分为 正负样本定义、正负样本采样和平衡loss设计三个方面 ，主要是网络预测输出和loss核心设计即仅涉及网络的head部分。本文是第一部分anchor-base，主要包括faster rcnn、libra rcnn、retinanet、ssd和yolo一共5篇文章。

关于正负样本的概念：

——正样本指属于某一类别的样本；负样本指不属于某一类别的样本，如背景。

为什么要进行正负样本采样？

——在ROI、RPN等过程中，整个图像中正样本区域少，大部分是样本，因此要处理好正负样本不平衡问题。

对于目标检测算法，主要需要关注的是对应着真实物体的 正样本 ，在训练时会根据其loss来调整网络参数。相比之下， 负样本对应着图像的背景，如果有大量的负样本参与训练，则会淹没正样本的损失，从而降低网络收敛的效率与检测精度。

anchor-free和anchor-base：

——二者的区别在于是否利用anchor提取候选框

从anchor回归属于anchor-based类，代表如faster rcnn、retinanet、YOLOv2 v3、ssd等
从point回归属于anchor-free类，代表如cornernet、extremenet、centernet等
二者融合代表如fsaf、sface、ga-rpn等

anchor-based:

Two Stage：例如Faster-RCNN算法。第一级专注于proposal的提取，第二级对提取出的proposal进行分类和精确坐标回归。两级结构准确度较高，但因为第二级需要单独对每个proposal进行分类/回归，速度上就打了折扣

One Stage：例如SSD，YOLO算法。此类算法摒弃了提取proposal的过程，只用一级就完成了识别/回归，虽然速度较快但准确率远远比不上两级结构

1.two-stage

1.1 faster-RCNN

RPN结构：

rpn的作用是从图像中提取proposals，也就是预测框

faster rcnn总体结构：

对于每个中心点（anchors）我们创建3个anchor box，也就是矩形框

anchor box：

每个位置（每个滑动窗口）在原图上对应九个anchor

(1) head结构

faster rcnn包括两个head：rpn head和rcnn head。其结构如下：

RPN结构主要用于生产候选框

——use_sigmoid (_cls)= True 是否使用sigmoid来进行分类，如果False则使用softmax来分类

rcnn head：

class-specific （class-aware ）方式： 很多地方也称作class-aware的检测，是早期Faster RCNN等众多算法采用的方式。它利用每一个RoI特征回归出所有类别的bbox坐标，最后根据classification 结果索引到对应类别的box输出。
class-agnostic 方式： 只回归2类bounding box，即前景和背景，结合每个box在classification 网络中对应着所有类别的得分，以及检测阈值条件，就可以得到图片中所有类别的检测结果。当然，这种方式最终不同类别的检测结果，可能包含同一个前景框，但实际对精度的影响不算很大，最重要的是大幅减少了bbox回归参数量。

(2) 正负样本定义

rpn：

在RPN网络中，对每一个Anchor分配标签。正例：对于每一gt box，交并比最大的Anchor，或与任一gt box的最大交并比大于0.7。负例：与所有gt boxes交并比小于0.3。交并比在（0.3，0.7）区间的Anchor忽略。从而保证每一个gt box都有一个Anchor与之对应。

rcnn：

在fast rcnn中，对输出的proposal分配标签。 正例：与某一gt box交并比超过0.5。负例：与gt boxes的最大交并比在（0[或者0.1],0.5)之间

——初始化时候假设每个anchor的mask都是-1，表示都是忽略anchor

总结：

1.如果anchor和gt的最大iou低于neg_iou_thr的，那就是 负样本 ，其应该包括大量数目；

2.如果某个anchor和其中一个gt的最大iou大于pos_iou_thr，那么该anchor就负责对应的gt，定义为 正样本 ；

3.如果某个gt和所有anchor的iou中最大的iou会小于pos_iou_thr，但是大于min_pos_iou，则依然将该anchor负责对应的gt；

4.其余的anchor全部当做忽略区域，不计算梯度。

该最大分配策略，可以尽最大程度的保证每个gt都有合适的高质量anchor进行负责预测。

(3) 正负样本采样

步骤2可以区分正负和忽略样本，但是依然存在大量的正负样本不平衡问题， 解决办法可以通过正负样本采样或者loss上面一定程度解决。faster rcnn的rpn和rcnn都采用随机采样， 阈值不一样

rpn head采样器：

取256个ROI送去训练

正负样本的比例为1:1，不够的话用负样本代替

rcnn head采样器：

—————— 正负样本比为 1:3

add_gt_as_proposals是为了放在正样本太少而加入的； 将 gt_box 认定为一个 proposal，默认是 True

由于rcnn head的输入是rpn head的输出，在网络训练前期，rpn无法输出大量高质量样本，故为了平衡和稳定rcnn训练过程，通常会对rcnn head部分添加gt作为proposal。

loss： 由于原始faster rcnn采用的loss是ce和SmoothL1Loss，不存在loss层面解决正负样本不平衡问题 。

1.2 libra rcnn

libra主要是分析faster rcnn训练过程中的不平衡问题，并提出解决方案。 ibra rcnn的head部分和正负样本定义没有修改。仅分析正负样本采样和平衡loss设计部分。

(1) 正负样本采样

仅修改了rcnn的采样部分：

作者采用了ioubalancedNegSampler。

作者觉得当采用随机采样后，会出现难负和易负样本不平衡，导致后面性能不好。

具体做法：例如假设总共有1000个候选负样本(区间1:800个，区间2:120个，区间3:80个)，分为3个区间，总共想取333个，那么理论上每个区间是111个，首先第一次在不同区间均匀采样，此时区间1可以采样得到111个，区间2也可以得到111个，区间3不够，所以区间三全部采样；然后不够的样本数，在剩下的(800-111)+(120-111)+0个里面随机取31个，最终补齐333个。

(2) 平衡回归loss

原始的faster rcnn的rcnn head，使用的回归loss是smooth l1

作者在smooth l1的基础上进行重新设计，得到 Balanced L1 Loss 。核心操作就是想要得到一个当样本在 |x|<1 附近产生稍微大点的梯度的函数。

左边是梯度曲线，右边是loss曲线（默认设置α=0.5，γ=1.5或者1.0）

2.one-stage

2.1 focal loss（ retinanet）

(1) head结构

(2) 正负样本定义

retinanet是one-stage算法，阈值定义和rpn不一样。

min_pos_iou=0，可以保证每个GT一定有对应的anchor负责预测。0.4以下是负样本，0.5以上且是最大Iou的anchor是正样本, 0.4~0.5之间的anchor是忽略样本。其不需要正负样本采样器，因为其是通过平衡分类loss来解决的。

(3) 平衡分类loss

FocalLoss是结构的重点，是用于处理分类分支中大量正负样本不平衡问题

*****one-stage检测算法存在严重的精度差异问题*****

————FocalLoss目的：处理正负样本不平衡+挖掘的难分样本

关于正负样本和难易样本的区分：

正负样本：事先约定一个iou的阈值，检测框与label的iou大于该阈值认为是正样本，小于则是负样本

难易样本：对于正样本中预测概率较高的说明是易分样本，负样本中预测概率较低的也是易分样本。因为这些框很容易被正确分类。但对于正样本中预测概率不高的，负样本中预测概率较高的都是难分样本，这类样本很难被正确分类。

预测概率/ 样本类型	正样本	负样本
p较高	易分样本（少量）	难分样本（大量）
p较低	难分样本（少量）	易分样本（大量）

——focal loss根据交叉熵改进而来

CE loss函数：

——其中 y 为类别真实标签， p 是模型预测的概率。

（1）

因为是二分类， p表示预测样本属于1的概率（范围为0- 1 ）

对于类别不均衡问题常用的方法是引入一个权重因子 αt ，对于类别1的使用权重 α ，对于类别-1使用权重 1-α

其中，

（α是一个超参数，用来平衡正负样本权重。原文中取0.75效果最好）

γ>=0;( γ的作用就是用来区分难易样本 ）

γ=0的蓝色曲线就是标准的交叉熵损失；实验发现 γ取2最好

如上图，横坐标代表pt，纵坐标表示各种样本所占的loss权重。对于正样本，我们希望p越接近1越好，也就是pt 接近1为易分正样本；对于负样本，我们希望p越接近0越好，也就是pt 接近1为易分负样本。所以不管是正样本还是负样本，我们总是希望他预测得到的pt 越大越好，这便属于易分类样本。如上图所示，pt ∈[0.6,1]就是我们预测效果比较好的样本（也就是易分样本）。

两个重要性质：

1.当Pt→0 ，那么调制因子（1-Pt）接近1，损失不被影响；当Pt→1，因子（1-Pt）接近0，那么分的比较好的（well-classified）样本的权值就被调低了。因此调制系数就趋于1，相比原来的loss是没有什么大的变化

2. 当γ=0的时候，focal loss就是传统的交叉熵损失。当γ一定的时候，比如等于2，一样easy example(pt=0.9)的loss要比标准的交叉熵loss小100+倍，当pt=0.968时，要小1000+倍，但是对于hard example(pt < 0.5)，loss最多小了4倍。这样的话hard example的权重相对就提升了很多。———————— 让准确率低的样本进行主导

例：

假设pt=0.1, -log(pt)= 2.3026 ; 当γ=2时，-(1-pt) γ log(pt) = 1.8651 （loss基本不变）

假设pt=0.9, -log(pt)= 0.1054 ; 当γ=2时，-(1-pt) γ log(pt) = 0.001054 （loss缩小一百倍）

综合以上两个方面，最终应用的focal loss：

其中αt 来协调正负样本之间的平衡，

来降低简单样本的权重，使损失函数更关注困难样本。

缺点：易受噪音干扰；需要调参

2.2 yolov2、v3

(1) head结构

yolov3也是多尺度输出，每个尺度有3个anchor。但其 和faster rcnn或者ssd也有不一样的地方，其类别预测是不考虑背景的，所以才多引入了一个confidence的概念，该分支用于区分前景和背景。

(2) 正负样本定义

yolo系列的正负样本定义原则和MaxIoUAssigner非常类似。但其有一个原则： 保证每个gt bbox一定有一个唯一的anchor进行对应，而不考虑阈值。 匹配规则就是IOU最大，选取出来的即为 正样本 。 IOU<忽略阈值（人为设定阈值） 的作为 负样本。 除了正负样本，其余的全部为 忽略样本。 对于confidence分支，其在上述MaxIoU分配原则下，还需要从负样本中划分出额外的忽略区域。将负样本中的iou大于忽略iou阈值中的anchor设置为忽略区域。

最大IOU超过忽略阈值的一部分虽然不负责预测对象，但IOU较大，可以认为包含了目标的一部分，这部分不参与误差计算。

此时就区分出了正、负和忽略anchor样本，正anchor用于分类、回归分支学习，正负anchor用于confidence分支学习，忽略区域不考虑。

(3) 样本采样

通常情况下， Yolov3 所有的样本都有用到，所以采用默认的采样器PseudoSampler，不做任何的采样操作。

(4) loss

采用的是普通的bce分类Loss（目标置信度损失和目标类别损失）和smooth l1 回归loss（目标定位损失）。

2.3 ssd

ssd300的head结构如下：

(1) head结构

ssd一共包括6个尺度输出，每个尺度的strides由anchor_strides设置。

——在原文中，Smin=0.2，而head结构设置smin=0.15 ？

basesize_ratio_range表示正方形anchor的min_size和max_size,anchor_ratios表示每个预测层的anchor个数，以及比例（ 比例在这里并未给出 ）。

anchor_ratios设置与源码有些出入？

anchor_ratios=[[2, .5],

[2, .5, 3, 1./3],

[2, .5],

[2, .5]],

*****由anchor_ratios设置，第1、5、6层只有两种长宽比，因此只有四个anchor box；其余层有六个anchor box

anchor的生成过程：

作者设计了一个公式来生成anchor的size：

在原文中，Smin=0.2，Smax=0.9；但第一个特征图Conv4_3 中比较特殊， Smin设置为0.1，故第一层的Sk =0.1，输入是300，故conv4_3的min_size=300*0.1=30 , max_size=300*0.2=60

以此类推可以得到每个特征图的min_size和max_size:

(2) 正负样本定义

ssd采用的正负样本定义器依然是MaxIoUAssigner

其定义anchor与gt的iou小于0.5的就全部认为是负样本，大于0.5的最大iou样本认为是正样本anchor，同时由于min_pos_iou=0以及gt_max_assign_all=False，可以发现该设置的结果是 每个gt可能和多个anchor匹配上，匹配阈值比较低，且每个gt一定会和某个anchor匹配上，不可能存在gt没有anchor匹配的情况，且没有忽略样本 。

(3) 平衡分类loss

分为两个部分：

定位损失（ localization loss ）
置信度损失（ confidence loss ）

定位损失计算的预测框与标注框之间的smooth l1损失；
置信度损失计算的是交叉熵损失;
整体的损失函数是定位损失和置信度损失的加权求和

由于正负样本差距较大，如果直接采用ce和smooth l1训练，效果可能不太好，样本不平衡比较严重。作者的ce loss其实采用了ohem+ce的策略，设置 neg_pos_ratio=3即负样本是正样本的3倍

ohem：

（在线困难样本挖掘，Online Hard Example Mining）

——————OHEM是让loss大的进行主导（适用于two-stage算法）

算法优点：

1）对于数据的类别不平衡问题不需要采用设置正负样本比例的方式来解决，这种在线选择方式针对性更强；

2）随着数据集的增大，算法的提升更加明显（作者是通过在COCO数据集上做实验和VOC数据集做对比，因为前者的数据集更大，而且提升更明显，所以有这个结论）

参考：

目标检测算法 - RetinaNet - 知乎
目标检测正负样本区分策略和平衡策略总结(一) - 知乎
mmdetection之Faster RCNN注释详解 - One Blog | 文鹃阁
什么是anchor-based 和anchor free？ - 知乎
目标检测中的loss - 知乎【trick 3】Focal Loss —— 解决one-stage目标检测中正负样本不均衡的问题_满船清梦压星河HK的博客-CSDN博客_目标检测解决正负样本不均衡
YOLOv3/v4/v4/x中正负样本的定义_折磨王的博客-CSDN博客_yolo 正负样本
CE Loss 与 BCE Loss 学习和应用 - 知乎
Softmax函数和Sigmoid函数的区别与联系 - 知乎
检测模型改进—OHEM与Focal-Loss算法总结_m_buddy的博客-CSDN博客_focal loss和ohem

英伟达Triton 推理服务详解 leo0308 基础知识机器人 Triton 人工智能
1.TritonInferenceServer简介TritonInferenceServer（简称Triton，原名NVIDIATensorRTInferenceServer）是英伟达推出的一个开源、高性能的推理服务器，专为AI模型的部署和推理服务而设计。它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过
Java NLP炼金术：从词袋到深度学习，构建AI时代的语言魔方墨夶 Java学习资料人工智能 java 自然语言处理
一、JavaNLP的“三剑客”：框架与工具链1.1ApacheOpenNLP：传统NLP的“瑞士军刀”目标：用词袋模型实现文本分类与实体识别代码实战：文档分类器的“炼成术”//OpenNLP文档分类器（基于词袋模型）importopennlp.tools.doccat.*;importopennlp.tools.util.*;publicclassDocumentClassifier{//训练模型
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

目标检测正负样本区分和平衡策略（anchor-based）

目标检测正负样本区分策略和平衡策略总结（anchor-based）

anchor-based:

1.2 libra rcnn

2.1 focal loss（ retinanet）

（在线困难样本挖掘，Online Hard Example Mining）

目标检测正负样本区分策略和平衡策略总结(一) - 知乎

你可能感兴趣的:(目标检测,计算机视觉,深度学习)