2013141gnhhZ

计算机视觉

目标检测

摘要：如今人们生活在日新月异的计算机革命时代，而计算机视觉已经成为多个领域的关键技术。目标检测是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力，尤其是在复杂的场景中，需要对多个目标进行实时处理，目标检测就显得尤为重要，随着计算机技术和计算机视觉的发展，目标检测已经运用到了智能化交通系统，智能监控系统，军事目标检测以及医疗等各个行业和领域，本文主要从目标检测的背景和意义，目标检测的研究现状以及目标检测的算法等三个方面进行说明，同时介绍最新的目标检测算法的基本流程和基本原理。

关键词：目标检测 SLFT R-CNN YOLO

1.文章说明

本文主要介绍目标检测的相关知识，目标检测可以根据时间分为两个阶段，在神经网络和深度学习的概念以前，人们对于目标检测任务主要是根据图像本身的特性做的，例如图像的灰度直方图，梯度等，因此此类方法又称为传统的目标检测方法，这类方法往往需要计算梯度和导数，因此计算量较大，且泛化能力差；而随着深度学习的提出，卷积神经网络成为计算机视觉常用的方法，而基于深度学习的目标检测方法又称为One- stage和Two- stage两类。

本文为目标检测综述，第一部分为文章说明，第二部分说明目标检测的背景和意义，第三部分为目标检测的研究现状，第四部分为目标检测的相关算法。

2.目标检测的背景和意义

1.目标检测的定义

目标检测的任务是找出图像中所有感兴趣的目标，确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同的外观、形状和姿态，加上成像时光照、遮挡等因素的干扰，目标检测是计算机视觉领域具有挑战性的问题。

如上图所示，目标分类任务中，仅是需要判别上图中的鱼类属于哪一类即可，但是目标检测不仅仅是分类，同时需要将目标在图像中的位置找出，且图像中可能包含多个不用类别的生物。因此，目标检测比分类任务或者单纯的目标定位任务更加具有挑战性。

2、目标检测的发展

在2013年以前，目标检测大都基于手工特征提取方法，通过在低层特征表达的基础上构建复杂的模型及多模型集成来提升检测精度。

2012年CNN在ILSVRC图像分类项目中大放异彩，人们发现CNN能够学习鲁棒性非常强且具有一定表达能力的特征表示，于是2014年，提出了区域卷积神经网络目标检测R-CNN模型，目标检测研究开始以前所未有的速度发展。

3、目标检测的意义

目标检测的应用十分广泛，在人脸检测中的应用：智能门控、员工考勤、人脸支付、车票检查等。行人检测：智能键控、辅助驾驶；车辆检测：自动驾驶、违章检测；遥感：农作物检测、军事领域；等等。

不言而喻，目标识别是当前人工智能应用中最重要的环节之一，各种应用场景和需求也不断的促使其改进和演化。

3、目标检测研究现状

1、核心内容

目标检测需要找出图像中感兴趣的物体，包含物体定位和为分类两个子任务，同时需要确定物体的类别和位置。

目标检测主要有以下核心问题：

1、分类问题

2、定位问题

3、大小问题

4、形状问题

2、研究现状

目标检测的发展大致经历了两个时期：传统的目标检测时期和深度学习的检测时期。早期的目标检测算法大多是基于手工特征构建的。

（1） Viola Jones Detectors：最初的 slide windows 算法，以作者的名字命名(VJ)检测器，以纪念他们的重大贡献.

（2） HOG Detector：方向梯度直方图用于描述特征, 方向梯度直方图(HOG)特征描述符最初是由 N. Dalal 和 B.Triggs 在 2005 年提出的。HOG 可以被认为是对当时的尺度不变特征变换（scale-invariant feature transform）和形状上下文（shape contexts）的重要改进。

（3） Deformable Part-based Model (基于可变形部件的模型，DPM), DPM 作为voco -07、-08、-09 检测挑战的优胜者，是传统目标检测方法的巅峰。DPM 最初是由 P. Felzenszwalb 提出的，于 2008 年作为 HOG 检测器的扩展，之后 R. Girshick 进行了各种改进。

在深度学习时代，目标检测可以分为两类：“ two-stage detection ” 和 “ one-stage detection ”，前者将检测框定为一个 “ 从粗到细 ” 的过程，而后者将其定义为 “ 一步完成 ”。

（1） RCNN,首先在图像中选取候选区域，接着在每个候选区域送入CNN提取特征，使用SVM将得到的特征进行分类，最后进行边界框的回归预测。R-CNN的贡献在于将深度学习引入目标检测，并将Pascal VOC 2007数据集上的mAP由之前的35.1%提升至66.0%。

（2） SPPNet, 由于R-CNN卷积层后全简介的输入尺寸是固定的，这就导致图像的大小不能随意调节，此外由于候选区域经常重叠，会导致大量的重复运算，针对这两个问题，2014 年，K. He 等人提出了空间金字塔池化网络( Spatial Pyramid Pooling Networks，SPPNet).

（3） Fast RCNN, 2015 年，R. Girshick 提出了 Fast RCNN 检测器，这是对 RCNN 和 SPPNet 的进一步改进。Fast RCNN 使能够在相同的网络配置下同时训练检测器和边界框回归器。

（4） Faster RCNN, 2015 年，S. Ren 等人提出了 Faster RCNN 检测器，在 Fast RCNN 之后不久。Faster RCNN 是第一个端到端的，也是第一个接近实时的深度学习检测器。

（5） Feature Pyramid Networks（FPN）, 2017 年，T.-Y.Lin 等人基于 Faster RCNN 提出了特征金字塔网络(FPN)。

从R-CNN到R-FCN，都是目标检测中居于候选区域的检测方法，需要两步，第一步选出候选区域，第二部，对每个候选区域进行定位，都属于两阶段法，虽然其检测精度较高，但是速度上和实时性仍有差距。

为了满足实时性的要求，提出了单阶段目标检测方法。在单阶段检测方法中，不再使用候选区域进行“粗检测+精修”的流程，而采用“锚点+修正”的方法，这类算法速度很快，可以满足实时性的效果。

（6） You Only Look Once (YOLO), YOLO 由 R. Joseph 等人于 2015 年提出。它是深度学习时代[20]的第一个单级检测器。YOLO 非常快：YOLO 的一个快速版本运行速度为 155fps, VOC07 mAP=52.7%，而它的增强版本运行速度为 45fps, VOC07 mAP=63.4%， VOC12 mAP=57.9%。

（7） Single Shot MultiBox Detector (SSD), SSD由 W. Liu 等人于 2015 年提出。这是深度学习时代的第二款单级探测器。SSD 的主要贡献是引入了多参考和多分辨率检测技术，这大大提高了单级检测器的检测精度，特别是对于一些小目标。

（8）2018年，YOLO再次迎来改进版本，YOLOv3。YOLOv3用多个独立的分类器代替softmax函数，用类似特征金字塔的方法进行多尺度检测。

4、 目标检测算法

1、 SLFT

传统的基于人工特征的分类算法往往有很大的局限性，一般是先从图像中提取SIFT或者HOG这些局部特征，之后利用VLAD或者F isher vector 等编码模型进行特诊编码，得到最终所需要的特征表示。然而由于人工特征的描述能力有限，导致分类的效果不好，特征的表示能力是制约分类性能的瓶颈。

特征点：是一副图像中独特的像素点，一般特征点都有如下性质：1，可重复性，相同的区域可以在不同的图像中找到；2，可区别性，不同区域有不同的表达；3，高效性，同一图像中，特征点的数量远小于像素数量；4，本地性，特征仅与一小片区域有关。

本文主要介绍一下SLFT方法：

SLFT:尺度不变特征转换，是一种尺度不变特征检测的方法，主要用来提取局部特征，在尺度空间中寻找极值点，提取位置，尺度，选择不变量。

当图像发生了尺度变化或者旋转的时候，能够保证提取到的特征是不变的，也就是说，特征不会因为图像场景中多了噪声，发生了失真或者亮度改变等就发生变化。

下面介绍SLFT寻找图像中的关键点的步骤：

尺度空间峰值选择，这一步的目的是在于尺度空间中选择潜在的满足尺度不变性和旋转不变性的关键点；

给定一副图像，首先是不同方差的高斯滤波器进行滤波：

其中I(x,y)表示原始图像，G是高斯核，在三位空间中，G是三位函数：

通过选择不同的标准差，可以得到与原图像对应的许多高斯滤波后的图像。

综上两种操作，可得到LoG算子，将原始图像通过LoG算子后，即可得到一簇图像，如下：

判定：如上图右边的三幅图像，如果，中间图像的中心点处的像素值大于中间图像其周围8个点的像素值，且大于上下相邻图像对应的各自9个像素点的值，则说明该点是兴趣点。

1，关键点定位：精确定位关键点的额位置，同时剔除伪关键点

2，方向分配：基于关键点的局部梯度方向，给每个相应的关键点分配方向

3，关键点描述：对于每个关键点，用一个高纬度的向量去描述关键点。

2、 R-CNN

R-CNN与传统的方式对比：采用CNN网络提取特征，采用大样本下有监督训练+小样本微调的方式解决小样本难以训练甚至过拟合等问题。

2.1 Selective search

首先说明一下目标检测与目标分类的区别，图像检测不仅仅需要认出目标是什么，还需要确定目标的位置，而且一张图片可能包含多个目标，而目标分类主要是识别出不同物种即可，但是本文中的图像细粒度分类虽然是分类任务，但是由于任务的特殊性，依然需要识别出图像中的关键点，而图像检测的第一步就是识别图片中可能存在的目标位置，因此，本部分首先介绍一下目标检测中挑选建议框的算法-selective search。

算法流程：

输入：图片，三通道

输出：物体位置的可能结果L

(1) 使用 Efficient Graph-Based Image Segmentation 的方法获取原始分割区域R ={r1,r2..rn}

经典的图像分割算法，基于图的贪心聚类算法。既然是聚类算法，应该指定一个规则判定何种情况下将其聚类在一起，对于两个孤立的像素点，所不同的是颜色，自然就用颜色的距离来衡量两点的相似性，本文使用的是RGB的距离

当然也可以用perceptually uniform的Luv或者Lab色彩空间，对于灰度图像就只能使用亮度值了，此外，还可以先使用纹理特征滤波，再计算距离，比如，先做Census Transform再计算Hamming distance距离。

类内差异：

可以理解为区域内部最大的差异值，定义MST为一个区域。

类间差异：

判断两个区域是否可以合并的标准为：

(2) 初始化相似度集合S=∅

(3) 计算两两相邻区域之间的相似度（见第三部分），将其添加到相似度集合S中

(4) 从相似度集合S中找出，相似度最大的两个区域 ri 和rj，将其合并成为一个区域 rt，从相似度集合中除去原先与ri和rj相邻区域之间计算的相似度，计算rt与其相邻区域（原先与ri或rj相邻的区域）的相似度，将其结果添加的到相似度集合S中。同时将新区域 rt 添加到区域集合R中。

(5)获取每个区域的Bounding Boxes，这个结果就是物体位置的可能结果L

原图像	选取的建议框

2.2 算法流程

在对图像经过了建议框的选择之后，便将其大小统一输入CNN中，经过CNN网络提取特征之后对特征进行SVM分类器分类，最后根据标签进行回归便可以得到最终的目标位置。

3、 YOLO v 1

YOLO（you only look once）v1 在 2016 年由 Redmon 等人提出[3]，纵使在当年没能掀起 Anchor-free 的热潮，YOLOv1 和 DenseBox[4]仍被视为 Anchor-free 方法重要的两个起源。在这里本文将着重介绍 YOLOv1 所用的方法。

在 YOLOv1 之前，目标检测的主要方法都属于双阶段法。双阶段法的核心思路是对图像提取出一些候选框，再基于这些候选框内的 Region Proposal 信息，对这些候选框做 Bbox Regression 修正并做分类。纵使细节上有所不同，但双阶段法中 Region Proposal 始终是一个很重要的概念。所谓双阶段即是在第一个阶段生成 Region Proposal，并在第二阶段对其进行处理和分类，简单来说也就是一个 Proposal+C-lassifer 的思想。

而 YOLOv1 中则舍弃了 Proposal+ Classifer 的模式。在 YOLOv1 中，图像首先被分为 × （原文中设置 = 7）个网格（grid cell），并使每个要预测的 object 的中心所在的网格负责预测该目标。其网络中包含 24 个卷积层和 2 个全连接层，将最终全连接层的输出做尺度变换后，即可得到一个7 × 7 × 30的矩阵。其中7 × 7 即对应着 grid cell 的数量，也就是说对每一个 grid cell，我们输出了一个 30 维的向量，在这个 30 维向量之中，有 20 维用来表示该网格中内容分别属于 20 个目标

类别的概率（YOLOv1以PASCAL VOC 2007 数据集为演示样例，该数据集中包含 20 个种类。）余下的 10 维分成两个 bbox，每个 bbox 中分别包含该 bbox 中内容为前景的置信度和 x、y、w、h 四个代表其位置和尺寸的参数。

基于此结构，也就很好理解 YOLOv1 的工作流程，即先将图像分为 × 个 grid cell，再通过一个网络来同时对每个 grid cell 做分类，并各给出两个可能的 bbox。这个通过网络直接给出可能的 bbox 的过程即实现了 Anchor-free。

值得注意的是，在 YOLOv1 中虽然也将图像分为了一定数量的 grid cell，但是 grid cell 和 Anchor-based 方法中的 Anchor 是完全不同的概念。每一个 grid cell 中给出的 bbox 并不以 grid cell 的位置和尺寸为基础，而是直接通过神经网络输出 bbox 的位置和尺寸信息。这和用于对建议框进行微调的 Bbox Regression[8] 有些类似，都是通过图像的内容信息得到 bbox。不同的是 Bbox Regression 得到的是一个从原建议框到修正建议框的映射关系，而在 YOLOv1 中是根据图像内容直接得到建议框。从某种角度上讲，这种方法可

以看做是一种将 Bbox Regression 发挥到了极致，以至于不需要提供先验的 anchor 或 Region Proposal 建议框即可直接得出 bbox 的方案。从 YOLOv1 的工作流程中我们可以看到，YOLOv1 作为一种单阶段法，其中包括 bbox 的给出和分类都是通过神经网络完成。观察 YOLOv1 的神经网络结构（图 1），在接入全连接层之前，特征图尺寸就已经为7 × 7，即与 grid cell 的数量相对应。我们先通过卷积层来理解 YOLOv1 中神经网络的工作原理。

在卷积神经网络中，感受野（Receptive Field）代表着神经网路的输出的特征图上每一个像素在输入图片上映射的区域大小。以常见的3 × 3大小的卷积核为例，如果通过一层卷积层，则在卷积核参数固定的情况下，输出特征图中一个像素的取值，仅与输入图的 9 个像素值有关，即这下一层中的每一个点在上一层中对应的 9 个点上各采样一次。而若通过两层卷积，则其将受到输入图中 25 个像素值的影响，且由于卷积核在滑动计算过程中会产生重叠，对这 25 个像素值的采样次数将会有所差别，且越靠近中心的点采样次数越多（如下图所示），在这里我们称这个采样次数为感受野上的 Attention Value，即关注度值。网络中上一层 Attention Value 的计算方式为：网络下一层 Attention Value 矩阵加上⌊⁄2⌋的 padding 后，用同样尺寸、数值全用 1 填充的卷积核进行卷积。

在 YOLOv1 的网络中，设是第层的感受野，是第层的卷积步长，是第层的卷积核尺寸，则根据公式 = (+1 − 1) × +

我们可以算出该网络中卷积层部分的感受野尺寸为314 × 314，约占输入图像尺寸（448 × 448）的一半左右。计算其感受野上的 Attention Value 的值，结果如下图所示。

将该结果类比到输入图像，可得其在我们“人”的眼中大概相当于如图 4 所示的效果。由此可知，基于 YOLOv1 的网络设计，其卷积层网络所输出的每个grid cell 对应的特征向量中，并不仅仅包含该网格内的图像信息，其感受野范围要远远大于 grid cell 的尺寸。在确保主要注意力范围在 grid cell 内的同时，其中还包含了部分的周边区域信息，在 YOLOv1 要求由物体中心的 grid cell 负责输出 bbox 和分类的条件下，这也让该网络在结构上有能力输出更好的结果。即保证了 Anchor free 方法应用的合理性和有效性。从直观上讲，如果仅给出如下图中 grid cell 中的图像，对“人”来讲，也很难猜测其中物体的内容和完整物体的位置，但是如果给出如下图中 Receptive Field 的图像信息，则这个任务就变的容易很多。

除此之外，还不应当忽略在该神经网络中还存在全连接层。通过全连接层，特征图中每个像素在原本有限的感受野范围基础上，又引入了全局图像信息，从而进一步使得网络能够应付更多变的情况。但混合大量信息同时也可能产生一定的干扰，并影响网络收敛速度，因每个 grid cell的输入图像与其输出信息之间的对应关系可能被全连接层打乱，以至于网络需要重新学习到合适的对应关系。

（8）2018年，YOLO再次迎来改进版本，YOLOv3。YOLOv3用多个独立的分类器代替softmax函数，用类似特征金字塔的方法进行多尺度检测。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
深度学习预备知识 AmazingMQ 深度学习人工智能
1.Tensor张量定义：张量（tensor）表示一个由数值组成的数组，这个数组可能有多个维度（轴）。具有一个轴的张量对应数学上的向量，具有两个轴的张量对应数学上的矩阵，具有两个以上轴的张量目前没有特定的数学名称。importtorch#arange创建一个行向量x，这个行向量包含以0开始的前12个整数。x=torch.arange(12)print("x=",x)#x=tensor([0,1,2
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
根茎式装配体（RA）作为下一代协同智能范式的理论、架构与应用由数入道人工智能思维框架软件工程智能体
一、引言——范式危机与新大陆的召唤1.1表征主义的黄昏：当前AI协同范式的认知天花板自艾伦·图灵在《计算机器与智能》中播下思想的种子以来，人工智能的漫长征途始终被一个强大而内隐的哲学范式所笼罩——我们称之为“表征主义”（Representationism）。这一范式，无论其外在形态如何演变，从早期的符号逻辑、专家系统，到如今风靡全球的深度学习神经网络，其核心信念从未动摇：智能的核心，在于构建一个关
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

计算机视觉

你可能感兴趣的:(目标检测,深度学习)