古董a

计算机视觉与深度学习-图像分割-视觉识别任务02-目标检测-【北邮鲁鹏】

目录标题

参考
目标检测定义
深度学习对目标检测的作用
- 单目标检测
- - 多任务框架
  - 多任务损失
  - 预训练模型
  - 姿态估计
- 多目标检测
- - 问题
  - 滑动窗口（Sliding Window）
  - - 滑动窗口缺点
  - AdaBoost（Adaptive Boosting）
  - - 参考
  - 区域建议 selective search 思想
  - 慢速R-CNN
  - - 慢速R-CNN思路
    - 边界框回归（Bbox reg）
    - 慢速R-CNN缺点
  - Fast R-CNN
  - - 改进一：先提取特征后区域建议
    - 改进二：全连接神经网络
    - 改进三：裁剪+缩放特征（RoI Pool）
    - 为什么需要RoI Pool？
    - 区域裁剪
    - - Rol Pool
      - Rol Align
    - Fast R-CNN的问题
  - Fast R-CNN vs 慢速R-CNN
  - Faster R-CNN
  - - RPN（Region Proposal Network）
    - 区域建议（Region Proposal Network）
    - 运行分为两个阶段
    - Faster R-CNN速度
  - 目标检测: 影响精度的因素 ...

参考

【计算机视觉】计算机视觉与深度学习-07-目标检测-北邮鲁鹏老师课程笔记
计算机视觉与深度学习北京邮电大学鲁鹏清晰版合集（完整版）

目标检测定义

目标检测的目标是确定图像中存在的目标的类别，并在图像中标记出它们的位置，通常使用边界框来表示目标的位置和大小。

单目标检测：分类+定位

深度学习对目标检测的作用

深度学习通过使用深层神经网络模型，可以从原始像素级别上学习和提取图像特征，从而实现目标检测。

单目标检测

将定位任务建模为回归问题!

多任务框架

一个任务是：分类。
另一个任务是：定位。

多任务损失

网络训练的目标是降低总损失，所以 softmax loss 和 L2 loss 将同时减小，也可以为 softmax loss 和 L2 loss 分别设置一个权重，通过改变权重，调整 softmax loss 和 L2 loss 在总损失中所占的比重。

预训练模型

目标检测中，一般不从头开始训练网络，而是使用ImageNet上预训练的模型。

一般分三个阶段：

1、分类训练阶段

在这个阶段，通常使用预训练的分类模型（如在ImageNet上预训练的模型）来进行训练。该模型已经在大规模图像分类任务上学习到了丰富的图像特征。然后，将最后的全连接层替换成适应目标检测任务的新的全连接层，并使用目标检测数据集进行训练。这个阶段的目标是学习分类任务所需的特征表示。

2、定位训练阶段

在这个阶段，固定预训练模型的大部分层，并仅仅调整输出层和一些顶层特征层。然后，使用目标检测数据集进行训练，让模型学习如何准确地定位目标。这个阶段的目标是学习目标的位置信息。

3、分类和定位一起训练阶段

在这个阶段，不仅训练分类任务，还同时训练目标的位置信息。在模型中同时使用分类和定位损失函数，并根据这两个任务的权重进行综合训练。这个阶段的目标是综合考虑分类和定位任务，使模型能够准确地检测并定位目标。

姿态估计

姿态估计（Pose Estimation）是计算机视觉中的一个重要任务，旨在从图像或视频中推断出人体、物体或其他目标的姿态信息，包括位置、方向和关节角度等。

单目标检测的思路，还应用于单人体姿态估计，与box coordinates不同的是，在人体上标注关键点，然后通过训练，与标答进行对比。

目标检测： 首先，使用目标检测算法来检测图像中的人体目标。目标检测算法可以是传统的方法（如基于特征的方法）或深度学习方法（如基于卷积神经网络的方法）。检测到的人体目标将作为后续姿态估计的输入。
关键点定位： 对于每个检测到的人体目标，需要进一步定位其关键点，例如人体姿态估计中的关节点。可以使用关键点检测算法（如姿态估计算法或关键点检测算法）来定位人体关键点。这些算法可以是传统的机器学习方法，也可以是基于深度学习的方法。
姿态估计： 一旦获得了人体关键点的位置，可以使用姿态估计算法来推断人体的姿态信息，如人体的位置、旋转和关节角度等。姿态估计算法可以基于几何模型、优化方法或深度学习方法。根据应用需求，可以选择合适的姿态表示形式，如关节角度、骨架模型或三维姿态等。
后处理与应用： 最后，可以对估计的姿态结果进行后处理，如滤波或平滑操作，以提高估计的准确性和稳定性。得到最终的姿态估计结果后，可以将其应用于各种应用领域，如动作识别、运动分析、虚拟现实、增强现实等。

多目标检测

问题

困境：每张图像期望输出的维度都不一样。

神经网络的标答是预先建立好的，因为多目标检测中目标数量并不确定，输出的维度不确定，就无法建立Correct box标答，如果使用单目标检测的训练方法，无法建立多目标检测的表达，训练将不能进行。

滑动窗口（Sliding Window）

在图像上以不同的尺度和位置滑动固定大小的窗口，然后在每个窗口上应用分类器或特征提取方法来判断窗口内是否存在目标。滑动窗口方法可以用于检测不同尺寸的目标，并且可以通过滑动步长控制检测的精度和速度。

将图像中所有可能的区域都给到分类器进行分类，只留下能正确分类的窗口。

困境：CNN需要对图像中所有可能的区域（不同位置、尺寸、长宽比）进行分类，计算量巨大！

滑动窗口缺点

穷举图像中成千上万的区域进行分类，对于神经网络，计算量很大。

针对这个问题，提出了一种新的思想，先从图像中产生一些候选区域再进行分类，而不是穷举图像中所有区域。例如：selective search

AdaBoost（Adaptive Boosting）

AdaBoost是一个非常快的分类器，可以对图像上的区域进行穷举后分类。

参考

AdaBoost算法超详细讲解

AdaBoost 是一种集成学习算法，用于提高分类器的性能。它通过迭代训练一系列弱分类器（如决策树、支持向量机等），每次迭代都根据前一轮分类结果对样本进行调整，使得难以分类的样本获得更高的权重，从而加强对这些样本的分类能力。最终，通过组合多个弱分类器，AdaBoost 可以产生一个强大的分类器。

区域建议 selective search 思想

针对穷举图像所有区域神经网络分类计算量大这个问题，提出了一种新的思想，先从图像中产生一些候选区域再进行分类，而不是穷举图像中所有区域。例如：selective search。

选择性搜索（Selective Search）：选择性搜索是一种经典的区域建议算法。它基于图像的颜色、纹理、边缘等信息，在不同尺度和层次上进行区域合并和分割，生成一系列候选区域。

selective search思想是在R-CNN的论文中提出的。

慢速R-CNN

基于区域的目标检测算法。

慢速R-CNN思路

1 利用区域建议产生感兴趣的区域。（存入硬盘）
2 对区域进行缩放。
3 将图像区域送入卷积网络进行特征提取。（存入硬盘）
4 使用支持向量机对区域进行分类，同时进行边界框回归（修正学习）。

边界框回归（Bbox reg）

区域建议生成的区域，可能有损失，效果不好，进行边界框回归，就是为了修正区域建议生成的区域与真实区域的偏差。

边框回归(Bounding Box Regression)详解

对于上图，绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth 更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调这个窗口的。

慢速R-CNN缺点

问题：计算效率低下，每张图像大约有2k个区域需要卷积网络进行特征提取，重叠区域反复计算。

Fast R-CNN

在Fast R-CNN中，首先通过卷积神经网络（CNN）提取整个图像的特征图。然后，针对每个感兴趣区域（Region of Interest，RoI），通过RoI池化层将其映射为固定大小的特征图。这样可以避免在每个RoI上进行独立的卷积操作，从而大大减少了计算量。

接下来，将RoI映射后的特征图输入到全连接层中，进行目标分类和边界框回归。分类部分使用softmax函数对RoI进行多类别分类，而边界框回归则用于预测目标的位置和大小。

Fast R-CNN的训练是端到端的，可以通过反向传播同时优化特征提取网络和分类/回归网络。这种端到端的训练方式比R-CNN中的多阶段训练更加高效。

改进一：先提取特征后区域建议

如果先进行区域建议后进行特征提取，计算量比较大。因此先对整个图片进行卷积提取特征后，在特征图上进行区域扣取。

改进二：全连接神经网络

改进三：裁剪+缩放特征（RoI Pool）

为什么需要RoI Pool？

先来看一个问题：对于传统的CNN（如AlexNet和VGG），当网络训练好后输入的图像尺寸必须是固定值，同时网络输出也是固定大小的vector or matrix。如果输入图像大小不定，这个问题就变得比较麻烦。有2种解决办法：

从图像中crop一部分传入网络。
将图像warp成需要的大小后传入网络。

两种办法的示意图如图，可以看到无论采取那种办法都不好，要么crop后破坏了图像的完整结构，要么warp破坏了图像原始形状信息。

回忆RPN网络生成的proposals的方法：对positive anchors进行bounding box regression，那么这样获得的proposals也是大小形状各不相同，即也存在上述问题。所以Faster R-CNN中提出了RoI Pooling解决这个问题。不过RoI Pooling确实是从Spatial Pyramid Pooling发展而来。

通过RoI Pooling，即使大小不同的proposal输出结果都是固定大小，实现了固定长度输出。

参考：一文读懂Faster RCNN

区域裁剪

Rol Pool

区域顶点规整到网格交点上（有偏移）

然后进行处理

Rol Pool处理前不同的区域特征的空间尺寸可能不一致，但是处理后的所有区域特征尺寸都是一样的。

问题: 处理后的区域特征会有轻微的对不齐！

Rol Align

区域顶点不规整到网格交点上（无偏移）
在每个区域中选择几个关键点，关键点个数是可自定义的，是超参数。

RoI Align 解决了传统 RoI Pooling 中的精度损失和空间错位问题。它通过使用双线性插值的方式，精确地计算感兴趣区域内每个位置的特征值。具体而言，RoI Align 将感兴趣区域划分为更细的小格，然后在每个小格内使用双线性插值计算对应位置的特征值。最后，这些特征值通过平均池化得到感兴趣区域的特征表示。

双线性插值： 在每个小格内使用双线性插值来计算对应位置的特征值。双线性插值利用小格内的四个相邻像素的特征值，通过加权平均来估计目标位置的特征值。

双线性插值通过使用周围四个最近的数据点来估计目标位置的值。假设我们要在一个二维网格上进行插值，其中四个最近的数据点的坐标为 (x1, y1)、(x1, y2)、(x2, y1) 和 (x2, y2)，目标位置的坐标为 (x, y)。双线性插值的计算步骤如下：

计算水平方向上的插值：

a. 在 x 轴上，对数据点 (x1, y1) 和 (x2, y1) 进行线性插值，得到两个插值结果：
$f_1 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$
$f_2 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$ 。
b. 在 x 轴上，对数据点 (x1, y2) 和 (x2, y2) 进行线性插值，得到两个插值结果：
$f_3 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$
$f_4 = f(x1) + (x - x1) * (f(x2) - f(x1)) / (x2 - x1)$ 。

计算垂直方向上的插值：

a. 在 y 轴上，对插值结果 f1 和 f2 进行线性插值，得到结果： $f_{12} = f_1 + (y - y_1) * (f_2 - f_1) / (y_2 - y_1)$ 。
b. 在 y 轴上，对插值结果 f3 和 f4 进行线性插值，得到结果： $f_{34} = f_3 + (y - y_1) * (f_4 - f_3) / (y_2 - y_1)$ 。

最终的插值结果为在垂直方向上插值得到的 $f_{12}$ 和 $f_{34}$ 的线性插值结果： $f = f_{12} + (y - y_1) * (f_{34} - f_{12}) / (y_2 - y_1)$ 。

Fast R-CNN的问题

selective search 区域建议耗时过高，几乎等于单张图片的检测时间。

Fast R-CNN vs 慢速R-CNN

Fast R-CNN 相对于慢速 R-CNN 有几个改进点：

特征共享：Fast R-CNN 在整个图像上只进行一次卷积运算，而慢速 R-CNN 需要为每个候选区域分别进行卷积运算。这意味着 Fast R-CNN 可以共享卷积层的计算，从而更高效地提取特征。
单次前向传播：Fast R-CNN 可以通过单次前向传播同时计算所有候选区域的特征和分类结果，而慢速 R-CNN 需要为每个候选区域独立地进行前向传播，效率较低。
损失函数：Fast R-CNN 引入了多任务损失函数，同时优化目标分类和边界框回归，而慢速 R-CNN 仅使用分类损失函数。

Faster R-CNN

参考：一文读懂Faster RCNN
在结构上，在中间特征层后加入区域建议网络RPN（Region Proposal Network） 产生候选区域，其他部分保持与Fast R-CNN一致，即扣取每个候选区域的特征，然后对其进行分类。

RPN（Region Proposal Network）

在目标检测任务中，RPN的作用是在输入图像上提出可能包含目标的候选框（或称为候选区域）。RPN是一个小型的神经网络，它以滑动窗口的方式在特征图上滑动，并为每个位置生成多个不同尺度和长宽比的候选框。

RPN的输入是经过卷积神经网络（如VGG、ResNet等）提取的特征图。特征图具有丰富的语义信息，可以帮助RPN更好地定位目标。RPN在特征图上应用一个小型的卷积滑动窗口，并对每个窗口位置生成多个anchors。

对于每个anchor，RPN会通过卷积和全连接层进行处理，并输出两个值：
1）表示该anchor是否包含目标的概率（通常是二分类问题）；
2）对应目标边界框的修正信息，用于调整候选框的位置和形状。

通过这个过程，RPN能够生成大量的候选框，并为每个候选框提供目标概率和边界框的修正信息。然后，根据这些概率和修正信息，可以对候选框进行筛选和精细调整，选出最具有潜力的候选区域。

RPN所生成的候选区域随后被传递给后续的分类器和边界框回归器，进行目标分类和精确定位。

区域建议（Region Proposal Network）

实际使用中，对于每个特征图上的每个位置，我们通常会采用k个不同尺寸和分辨率的锚点区域（anchor boxes）

四种损失联合训练：
• RPN分类损失(目标/非目标）
• RPN边界框坐标回归损失
• 候选区域分类损失
• 最终边界框坐标回归损失

运行分为两个阶段

第一阶段：候选区域生成

在第一阶段，Faster R-CNN使用Region Proposal Network (RPN) 来生成候选区域。

RPN通过在输入图像上滑动窗口，并在不同位置和尺度上生成一系列的候选框（也称为锚框或anchors），这些候选框可能包含目标。对于每个候选框，RPN预测其包含目标的概率以及对应目标边界框的修正信息。

第二阶段：目标分类和边界框回归

在第二阶段，Faster R-CNN使用先前生成的候选区域作为输入，对这些候选区域进行目标分类和边界框回归。通常，这个阶段包括一个用于特征提取的卷积神经网络（如VGG、ResNet等），以及用于目标分类和边界框回归的全连接层。这些层将从候选区域中提取的特征映射与目标类别进行关联，并对边界框进行微调，以更准确地定位目标。

Faster R-CNN速度

目标检测: 影响精度的因素 …

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo