漫流小溪

【目标检测】RCNN算法详解

转载至 http://blog.csdn.net/shenxiaolu1984/article/details/51066975#reply http://blog.csdn.net/hjimce/article/details/50187029

本篇博客是我在看了两个博主写的内容后，各取所长提取出来的，借鉴的博客已经标注，需要原文的请自取！

Region CNN(RCNN)可以说是利用深度学习进行目标检测的开山之作。作者Ross Girshick多次在PASCAL VOC的目标检测竞赛中折桂，2010年更带领团队获得终身成就奖，如今供职于Facebook旗下的FAIR。
这篇文章思路简洁，在DPM方法多年平台期后，效果提高显著。包括本文在内的一系列目标检测算法：RCNN, Fast RCNN, Faster RCNN代表当下目标检测的前沿水平，在github都给出了基于Caffe的源码。

思想

本文解决了目标检测中的两个关键问题。

问题一：速度

经典的目标检测算法使用滑动窗法依次判断所有可能的区域。本文则预先提取一系列较可能是物体的候选区域，之后仅在这些候选区域上提取特征，进行判断。

问题二：训练集

经典的目标检测算法在区域中提取人工设定的特征（Haar，HOG）。本文则需要训练深度网络进行特征提取。可供使用的有两个数据库：
一个较大的识别库（ImageNet ILSVC 2012）：标定每张图片中物体的类别。一千万图像，1000类。
一个较小的检测库（PASCAL VOC 2007）：标定每张图片中，物体的类别和位置。一万图像，20类。
本文使用识别库进行预训练，而后用检测库调优参数。最后在检测库上评测。

1、IOU的定义

因为没有搞过物体检测不懂IOU这个概念，所以就简单介绍一下。物体检测需要定位出物体的bounding box，就像下面的图片一样，我们不仅要定位出车辆的bounding box 我们还要识别出bounding box 里面的物体就是车辆。对于bounding box的定位精度，有一个很重要的概念，因为我们算法不可能百分百跟人工标注的数据完全匹配，因此就存在一个定位精度评价公式：IOU。

IOU定义了两个bounding box的重叠度，如下图所示：

矩形框A、B的一个重合度IOU计算公式为：

IOU=(A∩B)/(A∪B)

就是矩形框A、B的重叠面积占A、B并集的面积比例:

IOU=SI/(SA+SB-SI)

2、非极大值抑制

因为一会儿讲RCNN算法，会从一张图片中找出n多个可能是物体的矩形框，然后为每个矩形框为做类别分类概率：

就像上面的图片一样，定位一个车辆，最后算法就找出了一堆的方框，我们需要判别哪些矩形框是没用的。非极大值抑制：先假设有6个矩形框，根据分类器类别分类概率做排序，从小到大分别属于车辆的概率分别为A、B、C、D、E、F。

(1)从最大概率矩形框F开始，分别判断A~E与F的重叠度IOU是否大于某个设定的阈值;

(2)假设B、D与F的重叠度超过阈值，那么就扔掉B、D；并标记第一个矩形框F，是我们保留下来的。

(3)从剩下的矩形框A、C、E中，选择概率最大的E，然后判断E与A、C的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。

就这样一直重复，找到所有被保留下来的矩形框。

流程

RCNN算法分为4个步骤
- 一张图像生成1K~2K个候选区域
- 对每个候选区域，使用深度网络提取特征
- 特征送入每一类的SVM 分类器，判别是否属于该类
- 使用回归器精细修正候选框位置

候选区域生成

使用了Selective Search1方法从一张图像生成约2000-3000个候选区域。基本思路如下：
- 使用一种过分割手段，将图像分割成小区域
- 查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置
- 输出所有曾经存在过的区域，所谓候选区域

候选区域生成和后续步骤相对独立，实际可以使用任意算法进行。

合并规则

优先合并以下四种区域：
- 颜色（颜色直方图）相近的
- 纹理（梯度直方图）相近的
- 合并后总面积小的
- 合并后，总面积在其BBOX中所占比例大的

第三条，保证合并操作的尺度较为均匀，避免一个大区域陆续“吃掉”其他小区域。

例：设有区域a-b-c-d-e-f-g-h。较好的合并方式是：ab-cd-ef-gh -> abcd-efgh -> abcdefgh。
不好的合并方法是：ab-c-d-e-f-g-h ->abcd-e-f-g-h ->abcdef-gh -> abcdefgh。

第四条，保证合并后形状规则。

例：左图适于合并，右图不适于合并。

上述四条规则只涉及区域的颜色直方图、纹理直方图、面积和位置。合并后的区域特征可以直接由子区域特征计算而来，速度较快。

多样化与后处理

为尽可能不遗漏候选区域，上述操作在多个颜色空间中同时进行（RGB,HSV,Lab等）。在一个颜色空间中，使用上述四条规则的不同组合进行合并。所有颜色空间与所有规则的全部结果，在去除重复后，都作为候选区域输出。

作者提供了Selective Search的源码，内含较多.p文件和.mex文件，难以细查具体实现。

候选框的处理

当我们输入一张图片时，我们要搜索出所有可能是物体的区域，这个采用的方法是传统文献的算法：《search for object recognition》，通过这个算法我们搜索出2000个候选框。然后从上面的总流程图中可以看到，搜出的候选框是矩形的，而且是大小各不相同。然而CNN对输入图片的大小是有固定的，如果把搜索到的矩形选框不做处理，就扔进CNN中，肯定不行。因此对于每个输入的候选框都需要缩放到固定的大小。下面我们讲解要怎么进行缩放处理，为了简单起见我们假设下一阶段CNN所需要的输入图片大小是个正方形图片227*227。因为我们经过selective search 得到的是矩形框，paper试验了两种不同的处理方法：

(1)各向异性缩放

这种方法很简单，就是不管图片的长宽比例，管它是否扭曲，进行缩放就是了，全部缩放到CNN输入的大小227*227，如下图(D)所示；

(2)各向同性缩放

因为图片扭曲后，估计会对后续CNN的训练精度有影响，于是作者也测试了“各向同性缩放”方案。这个有两种办法

A、直接在原始图片中，把bounding box的边界进行扩展延伸成正方形，然后再进行裁剪；如果已经延伸到了原始图片的外边界，那么就用bounding box中的颜色均值填充；如下图(B)所示;

B、先把bounding box图片裁剪出来，然后用固定的背景颜色填充成正方形图片(背景颜色也是采用bounding box的像素颜色均值),如下图(C)所示;

对于上面的异性、同性缩放，文献还有个padding处理，上面的示意图中第1、3行就是结合了padding=0,第2、4行结果图采用padding=16的结果。经过最后的试验，作者发现采用各向异性缩放、padding=16的精度最高，具体不再啰嗦。

OK，上面处理完后，可以得到指定大小的图片，因为我们后面还要继续用这2000个候选框图片，继续训练CNN、SVM。然而人工标注的数据一张图片中就只标注了正确的bounding box，我们搜索出来的2000个矩形框也不可能会出现一个与人工标注完全匹配的候选框。因此我们需要用IOU为2000个bounding box打标签，以便下一步CNN训练使用。在CNN阶段，如果用selective search挑选出来的候选框与物体的人工标注矩形框的重叠区域IoU大于0.5，那么我们就把这个候选框标注成物体类别，否则我们就把它当做背景类别。SVM阶段的正负样本标签问题，等到了svm讲解阶段我再具体讲解。

五、CNN特征提取阶段

1、算法实现

a、网络结构设计阶段

网络架构我们有两个可选方案：第一选择经典的Alexnet；第二选择VGG16。经过测试Alexnet精度为58.5%，VGG16精度为66%。VGG这个模型的特点是选择比较小的卷积核、选择较小的跨步，这个网络的精度高，不过计算量是Alexnet的7倍。后面为了简单起见，我们就直接选用Alexnet，并进行讲解；Alexnet特征提取部分包含了5个卷积层、2个全连接层，在Alexnet中p5层神经元个数为9216、 f6、f7的神经元个数都是4096，通过这个网络训练完毕后，最后提取特征每个输入候选框图片都能得到一个4096维的特征向量。

b、网络有监督预训练阶段

参数初始化部分：物体检测的一个难点在于，物体标签训练数据少，如果要直接采用随机初始化CNN参数的方法，那么目前的训练数据量是远远不够的。这种情况下，最好的是采用某些方法，把参数初始化了，然后在进行有监督的参数微调，这边文献采用的是有监督的预训练。所以paper在设计网络结构的时候，是直接用Alexnet的网络，然后连参数也是直接采用它的参数，作为初始的参数值，然后再fine-tuning训练。

网络优化求解：采用随机梯度下降法，学习速率大小为0.001；

C、fine-tuning阶段

我们接着采用selective search 搜索出来的候选框，然后处理到指定大小图片，继续对上面预训练的cnn模型进行fine-tuning训练。假设要检测的物体类别有N类，那么我们就需要把上面预训练阶段的CNN模型的最后一层给替换掉，替换成N+1个输出的神经元(加1，表示还有一个背景)，然后这一层直接采用参数随机初始化的方法，其它网络层的参数不变；接着就可以开始继续SGD训练了。开始的时候，SGD学习率选择0.001，在每次训练的时候，我们batch size大小选择128，其中32个事正样本、96个事负样本（正负样本的定义前面已经提过，不再解释）。

2、问题解答

OK，看完上面的CNN过程后，我们会有一些细节方面的疑问。首先，反正CNN都是用于提取特征，那么我直接用Alexnet做特征提取，省去fine-tuning阶段可以吗？这个是可以的，你可以不需重新训练CNN，直接采用Alexnet模型，提取出p5、或者f6、f7的特征，作为特征向量，然后进行训练svm，只不过这样精度会比较低。那么问题又来了，没有fine-tuning的时候，要选择哪一层的特征作为cnn提取到的特征呢？我们有可以选择p5、f6、f7，这三层的神经元个数分别是9216、4096、4096。从p5到p6这层的参数个数是：4096*9216 ，从f6到f7的参数是4096*4096。那么具体是选择p5、还是f6，又或者是f7呢？

文献paper给我们证明了一个理论，如果你不进行fine-tuning，也就是你直接把Alexnet模型当做万金油使用，类似于HOG、SIFT一样做特征提取，不针对特定的任务。然后把提取的特征用于分类，结果发现p5的精度竟然跟f6、f7差不多，而且f6提取到的特征还比f7的精度略高；如果你进行fine-tuning了，那么f7、f6的提取到的特征最会训练的svm分类器的精度就会飙涨。

据此我们明白了一个道理，如果不针对特定任务进行fine-tuning，而是把CNN当做特征提取器，卷积层所学到的特征其实就是基础的共享特征提取层，就类似于SIFT算法一样，可以用于提取各种图片的特征，而f6、f7所学习到的特征是用于针对特定任务的特征。打个比方：对于人脸性别识别来说，一个CNN模型前面的卷积层所学习到的特征就类似于学习人脸共性特征，然后全连接层所学习的特征就是针对性别分类的特征了。

还有另外一个疑问：CNN训练的时候，本来就是对bounding box的物体进行识别分类训练，是一个端到端的任务，在训练的时候最后一层softmax就是分类层，那么为什么作者闲着没事干要先用CNN做特征提取（提取fc7层数据），然后再把提取的特征用于训练svm分类器？这个是因为svm训练和cnn训练过程的正负样本定义方式各有不同，导致最后采用CNN softmax输出比采用svm精度还低。

事情是这样的，cnn在训练的时候，对训练数据做了比较宽松的标注，比如一个bounding box可能只包含物体的一部分，那么我也把它标注为正样本，用于训练cnn；采用这个方法的主要原因在于因为CNN容易过拟合，所以需要大量的训练数据，所以在CNN训练阶段我们是对Bounding box的位置限制条件限制的比较松(IOU只要大于0.5都被标注为正样本了)；

然而svm训练的时候，因为svm适用于少样本训练，所以对于训练样本数据的IOU要求比较严格，我们只有当bounding box把整个物体都包含进去了，我们才把它标注为物体类别，然后训练svm，具体请看下文。

六、SVM训练、测试阶段

这是一个二分类问题，我么假设我们要检测车辆。我们知道只有当bounding box把整量车都包含在内，那才叫正样本；如果bounding box 没有包含到车辆，那么我们就可以把它当做负样本。但问题是当我们的检测窗口只有部分包好物体，那该怎么定义正负样本呢？作者测试了IOU阈值各种方案数值0,0.1,0.2,0.3,0.4,0.5。最后我们通过训练发现，如果选择IOU阈值为0.3效果最好（选择为0精度下降了4个百分点，选择0.5精度下降了5个百分点）,即当重叠度小于0.3的时候，我们就把它标注为负样本。一旦CNN f7层特征被提取出来，那么我们将为每个物体累训练一个svm分类器。当我们用CNN提取2000个候选框，可以得到2000*4096这样的特征向量矩阵，然后我们只需要把这样的一个矩阵与svm权值矩阵4096*N点乘(N为分类类别数目，因为我们训练的N个svm，每个svm包好了4096个W)，就可以得到结果了。

特征提取

预处理

使用深度网络提取特征之前，首先把候选区域归一化成同一尺寸227×227。
此处有一些细节可做变化：外扩的尺寸大小，形变时是否保持原比例，对框外区域直接截取还是补灰。会轻微影响性能。

预训练

网络结构
基本借鉴Hinton 2012年在Image Net上的分类网络2，略作简化3。

此网络提取的特征为4096维，之后送入一个4096->1000的全连接(fc)层进行分类。
学习率0.01。

训练数据
使用ILVCR 2012的全部数据进行训练，输入一张图片，输出1000维的类别标号。

调优训练

网络结构
同样使用上述网络，最后一层换成4096->21的全连接网络。
学习率0.001，每一个batch包含32个正样本（属于20类）和96个背景。

训练数据
使用PASCAL VOC 2007的训练集，输入一张图片，输出21维的类别标号，表示20类+背景。
考察一个候选框和当前图像上所有标定框重叠面积最大的一个。如果重叠比例大于0.5，则认为此候选框为此标定的类别；否则认为此候选框为背景。

类别判断

分类器
对每一类目标，使用一个线性SVM二类分类器进行判别。输入为深度网络输出的4096维特征，输出是否属于此类。
由于负样本很多，使用hard negative mining方法。
正样本
本类的真值标定框。
负样本
考察每一个候选框，如果和本类所有标定框的重叠都小于0.3，认定其为负样本

位置精修

目标检测问题的衡量标准是重叠面积：许多看似准确的检测结果，往往因为候选框不够准确，重叠面积很小。故需要一个位置精修步骤。
回归器
对每一类目标，使用一个线性脊回归器进行精修。正则项λ=10000。
输入为深度网络pool5层的4096维特征，输出为xy方向的缩放和平移。
训练样本
判定为本类的候选框中，和真值重叠面积大于0.6的候选框。

结果

论文发表的2014年，DPM已经进入瓶颈期，即使使用复杂的特征和结构得到的提升也十分有限。本文将深度学习引入检测领域，一举将PASCAL VOC上的检测率从35.1%提升到53.7%。
本文的前两个步骤（候选区域提取+特征提取）与待检测类别无关，可以在不同类之间共用。这两步在GPU上约需13秒。
同时检测多类时，需要倍增的只有后两步骤（判别+精修），都是简单的线性运算，速度很快。这两步对于100K类别只需10秒。

以本论文为基础，后续的fast RCNN4（参看这篇博客）和faster RCNN5（参看这篇博客）在速度上有突飞猛进的发展，基本解决了PASCAL VOC上的目标检测问题。

J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders. Selective search for object recognition. IJCV, 2013. ↩
A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012 ↩
所有层都是串行的。relu层为in-place操作，偏左绘制。 ↩
Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. ↩
Ren, Shaoqing, et al. “Faster R-CNN: Towards real-time object detection with region proposal networks.” Advances in Neural Information Processing Systems. 2015. ↩

深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
ROS2 通过相机确定物品坐标位置
要实现通过相机确定物品坐标位置，通常需要相机标定、物体检测和坐标转换几个步骤。下面我将提供一个完整的解决方案，包括相机标定、物体检测和3D坐标估计。1.系统架构相机标定-获取相机内参和畸变系数物体检测-使用OpenCV或深度学习模型检测物品坐标转换-将2D图像坐标转换为3D世界坐标ROS2集成-将上述功能集成到ROS2节点中2.实现步骤2.1创建功能包bashros2pkgcreateobject
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
BEV开山之作Lift-Splat-Shot (LSS) 深度详解 shuaishuaideyuzi 3D视觉入门人工智能 python pytorch 3d 计算机视觉
在自动驾驶感知系统中，将多视角图像转换为鸟瞰图（BEV）是一个关键步骤。Lift-Splat-Shot（LSS）是一种高效的视角转换方法，能够将透视视图特征转换为BEV空间，从而实现更准确的3D物体检测。本文将详细解析LSS的工作原理、技术细节及其应用场景。一、LSS概述LSS（Lift-Splat-Shot）是由PhilippHenzler等人于2021年提出的一种用于自动驾驶感知系统的视角转换
NanoDet 深度学习物料自动分类系统 YOLO实战营深度学习分类人工智能数据挖掘 NanoDet
引言随着工业自动化和物料管理的不断发展，物料的自动分类在仓储、物流、生产线等场景中的应用越来越广泛。传统的物料分类方式往往依赖人工操作，效率低下且容易出错，而基于深度学习的自动分类系统能够大大提高工作效率、降低错误率并实现高效管理。在众多深度学习技术中，物体检测算法被广泛应用于自动分类系统。NanoDet作为一款轻量级的目标检测算法，凭借其出色的速度与准确性，成为解决物料自动分类问题的一种理想选择
D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
一[3.0]、 yolov8 工作原理他人是一面镜子，保持谦虚的态度车道检测研究 YOLO
目录YOLOv8简介什么是YOLOv8？yaml配置文件解析YOLOv8架构图Yolov8有什么新功能？YOLO模型彻底改变了计算机视觉领域。识别物体是计算机视觉中的一项关键任务，可应用于机器人、医学成像、监控系统和自动驾驶汽车等多个领域。YOLO模型的最新版本YOLOv8是一种先进的实时物体检测框架，引起了研究界的关注。在所有流行的物体识别机器学习模型（如FasterR-CNN、SSD和Reti
YOLOv12：以注意力为中心的物体检测发呆小天才O.o 计算机视觉深度学习计算机视觉目标检测 YOLOv12
1.概述实时目标检测已成为许多实际应用的关键，而Ultralytics的YOLO（YouOnlyLookOnce）系列一直是最先进的模型系列，在速度和准确率之间实现了稳健的平衡。注意力机制的低效性阻碍了其在YOLO等高速系统中的应用。YOLOv12旨在通过将注意力机制集成到YOLO框架中来改变这一现状。由于注意力机制效率低下，且计算复杂度高达平方级，内存访问操作效率低下，因此大多数目标检测架构传统
YOLO chp01- speop YOLO
学习YOLO的正确姿势：从入门到"真香"的奇妙之旅YOLO系列模型的硬核表现：YOLOv1最先提出单阶段检测+GridCell机制，在物体检测速度层面实现了质的飞跃YOLOv5在TeslaT4上跑出140FPSYOLOv8的Latency-Accuracy曲线表现卓越YOLO模块化定制；#你的自定义YOLO可能是这样的classMySuperYOLO(nn.Module):def__init__(
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
Python----目标检测（YOLO简介）蹦蹦跳跳真可爱589 目标检测 Python 目标检测 YOLO 目标跟踪人工智能计算机视觉 python
一、YOLO简介[YOLO](YouOnlyLookOnce）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（JosephRedmon）和阿里-法哈迪（AliFarhadi）开发，YOLO于2015年推出，因其高速度和高精确度而迅速受到欢迎。在计算机视觉（ComputerVision）领域，目标检测（ObjectDetection）一直是最为基础且至关重要的研究方向之一。随着深度
深度学习在计算机视觉中的应用：物体检测技术小鹿嘻嘻深度学习计算机视觉物体检测卷积神经网络 R-CNN变体
背景简介随着机器学习（ML）、深度学习（DL）以及变换器神经网络等技术的快速发展，计算机视觉领域取得了显著进步。深度学习通过利用卷积神经网络（CNN）等模型，使计算机能够从图像中直接提取重要信息，从而在物体检测、场景理解等领域实现了突破性进展。本文将深入探讨深度学习在计算机视觉任务中的应用，并重点分析物体检测技术。深度学习与计算机视觉的结合深度学习（DL）模型具有多个处理层，能够学习和表示数据在不
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
YOLOv9：实时物体检测的新标杆程栋里
YOLOv9：实时物体检测的新标杆【下载地址】YOLOv9概述-实时物体检测算法YOLOv9概述-实时物体检测算法项目地址:https://gitcode.com/Open-source-documentation-tutorial/24e1b项目介绍YOLOv9是YOLO（YouOnlyLookOnce）系列中的最新成员，专为实时物体检测而设计。YOLO系列以其高效和准确的物体检测能力而闻名，而
基于亚博K210开发板——物体检测测试追兮兮 K210 K210
开发板亚博K210开发板实验目的本次测试主要学习K210如何物体检测，然后通过LCD显示屏实时框出检测物体然后以不同颜色标记名称。实验元件OV2640摄像头/OV9655摄像头/GC2145摄像头、LCD显示屏硬件连接K210开发板出厂默认已经安装好摄像头和显示器，只需要使用Type-C数据线连接K210开发板与电脑即可。实验原理KendryteK210具备机器视觉能力，是零门槛机器视觉嵌入式解决
英伟达最新发布！超越其它所有SOTA的3D目标检测 3Ｄ视觉工坊 3D视觉从入门到精通 3d 目标检测人工智能计算机视觉
作者：王林|来源：3DCV在公众号「3DCV」后台，回复「原论文」可获取论文pdf添加微信：dddvision，备注：自动驾驶，拉你入群。文末附行业细分群1、导读现有的3D物体检测方法通常需要使用完全注释的数据进行训练，而使用预训练的语义特征可以带来一些优势。然而，目前还没有利用扩散特征进行3D感知任务的研究。因此，我们提出了一种新的框架，通过视图合成任务来增强预训练的2D扩散模型的3D感知能力。
YOLOv5与YOLOv4的区别与优缺点分析 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv5与YOLOv4的区别与优缺点分析作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM1.背景介绍1.1问题的由来在深度学习和计算机视觉领域，物体检测是研究的核心之一。从早期基于全连接层的算法如R-CNN系列到如今流行的轻量级检测器如SSD、FasterR-CNN以及单阶段检测器如YOLO系列，算法一直在追求更高
Python与YOLO：自动驾驶中的实时物体检测 Echo_Wish Python！实战！python YOLO 自动驾驶
Python与YOLO：自动驾驶中的实时物体检测引言：从物体检测到智能驾驶说到自动驾驶，很多人脑海中首先想到的可能是智能汽车，它们能够自主地行驶，无需人类干预。这一切的背后，离不开一项至关重要的技术——实时物体检测。在自动驾驶中，车辆需要通过摄像头、雷达等传感器获取周围环境的数据，而如何从这些庞大的数据中快速、准确地识别出行人、车辆、障碍物等是至关重要的。这里，我们将聚焦于如何利用**Python
AI Python 教程 Empty-Filled 人工智能 python 开发语言
AIPython教程为什么使用Python学习AI？AI之Python前提AIPython教程人工智能AI之Python-机器学习监督学习回归算法分类算法非监督学习聚类算法数据降维增强学习AI之Python-深度学习深度学习基础深度学习架构AI之Python-自然语言处理文本处理和表示文本处理文本表示词汇语义学AI之Python-计算机视觉图像处理和转换图像识别架构物体检测架构两步检测器单步检测器
树莓派智能摄像头实战指南：基于TensorFlow Lite的端到端AI部署 Tech Synapse 人工智能 tensorflow python MobileNetV2 TensorFlow Lite
引言：嵌入式AI的革新力量在物联网与人工智能深度融合的今天，树莓派这一信用卡大小的计算机正在成为边缘计算的核心载体。本文将手把手教你打造一款基于TensorFlowLite的低功耗智能监控设备，通过MobileNetV2模型实现实时物体检测，结合运动检测算法构建双保险监控体系。我们将深入探索模型轻量化部署、硬件加速优化和功耗管理策略，为嵌入式AI开发提供完整技术路线图。一、智能监控系统的技术架构1
目标检测的图像特征提取勇往直前的流浪刀客 CV 图像特征提取
目标检测的图像特征提取之（一）HOG特征1、HOG特征：方向梯度直方图（HistogramofOrientedGradient,HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究
树莓派智能摄像头实战指南：基于TensorFlow Lite的端到端AI部署大G哥人工智能 tensorflow python 深度学习机器学习
引言：嵌入式AI的革新力量在物联网与人工智能深度融合的今天，树莓派这一信用卡大小的计算机正在成为边缘计算的核心载体。本文将手把手教你打造一款基于TensorFlowLite的低功耗智能监控设备，通过MobileNetV2模型实现实时物体检测，结合运动检测算法构建双保险监控体系。我们将深入探索模型轻量化部署、硬件加速优化和功耗管理策略，为嵌入式AI开发提供完整技术路线图。一、智能监控系统的技术架构1
YOLOv5的gpu训练环境安装（windows系统，anaconda虚拟python环境） wifi11 windows python pytorch
本人在用YOLOv5进行物体检测时，使用使用detect.py文件时无法调用gpu，下载了pytorch的gpu版本后代码运行会报错，错误信息说是CUDA环境不正确，为此整理了一下CUDA和pytorch环境的安装。（由报错可知，detect.py选项无法运行并不是因为gpu环境未配置好，而是不能使用gpu，所以下载好gpu版本后，pythondetect.py--weightsyolov5s.p
【计算机视觉】深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南白熊188 计算机视觉计算机视觉机器学习人工智能
深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南技术架构与设计哲学核心设计理念系统架构概览核心功能与预构建解决方案1.人脸检测2.手势识别3.姿势估计4.物体检测与跟踪实战部署指南环境配置基础环境准备获取源码构建第一个示例（手部追踪）桌面端运行Android端部署自定义计算图开发关键技术深度解析1.高效同步机制2.GPU加速实现3.模型优化技术常见问题与解决方案1.GPU兼容性问题
突破YOLOv11训练：用幽默的方式玩转自定义数据集与物体检测星际编程喵 Python探索之旅 YOLO 人工智能目标跟踪计算机视觉 python 机器学习
前言你是否曾在训练深度学习模型时，望着屏幕上那一堆堆的错误信息，差点觉得自己的大脑要冒烟？如果你也曾体验过这种“技术折磨”，恭喜，你找对地方了！今天，我们将带你踏入YOLOv11的神奇世界，用幽默的方式教你如何训练物体检测模型，处理自定义数据集。放心，这不仅仅是枯燥的代码，我们还会插入一些有趣的故事，让你在繁琐的操作中不至于崩溃，还能带着笑容一路走下去！简介YOLO（YouOnlyLookOnce
旋转目标检测：Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors【方法解析】沉浸式AI 《AI与SLAM论文解析》目标检测人工智能计算机视觉算法论文解读旋转目标检测
中文标题：基于盒边界感知向量的航空图像定向目标检测目录摘要1.引言2.相关工作2.1定向物体检测2.2基于关键点的物体检测基线方法3.方法3.1架构3.2热图地面真值训练损失3.3偏移3.4框参数3.5方向4.实验4.1数据集DOTAHRSC20164.2实现细节4.3测试细节4.4与最先进方法的比较DOTAHRSC20164.5消融研究4.6与基线方法的比较5.结论摘要航拍图像中的定向物体检测是
【图像轮廓特征查找】图像处理（OpenCV) -part8 绝顶大聪明图像处理 opencv 人工智能
17图像轮廓特征查找图像轮廓特征查找其实就是他的外接轮廓。应用：图像分割形状分析物体检测与识别根据轮廓点进行，所以要先找到轮廓。先灰度化、二值化。目标物体白色，非目标物体黑色，选择合适的儿值化方式。有了轮廓点就可以找到最上、最下、最左、最右的四个坐标，X_{min}、X_{max}、Y_{min}、Y_{max}。就可以绘制出矩形。17.1外接矩形boundingRect(轮廓点)形状的外接矩形有
YOLO11改进 | 特征融合Neck篇之Lowlevel Feature Alignment机制：多尺度检测的革新性突破 Loving_enjoy 计算机学科论文创新点计算机视觉 YOLO
##为什么需要重新设计特征融合机制？在目标检测领域，YOLO系列模型因其高效的实时性成为工业界和学术界的标杆。然而，随着应用场景的复杂化（如自动驾驶中的多尺度目标、无人机图像中的小物体检测），传统特征融合策略的局限性逐渐暴露：**特征对齐不足导致语义信息错位、多层级信息融合效率低、小目标特征易丢失**。这些问题直接影响模型在复杂场景下的鲁棒性。针对这一挑战，本文提出一种创新性特征融合机制——**L
rust的指针作为函数返回值是直接传递，还是先销毁后创建？ wudixiaotie 返回值
这是我自己想到的问题，结果去知呼提问，还没等别人回答，我自己就想到方法实验了。。 fn main() { let mut a = 34; println!("a's addr:{:p}", &a); let p = &mut a; println!("p's addr:{:p}", &a
java编程思想 -- 数据的初始化百合不是茶 java 数据的初始化
1.使用构造器确保数据初始化 /* *在ReckInitDemo类中创建Reck的对象 */ public class ReckInitDemo { public static void main(String[] args) { //创建Reck对象 new Reck(); } }
[航天与宇宙]为什么发射和回收航天器有档期 comsci
地球的大气层中有一个时空屏蔽层,这个层次会不定时的出现,如果该时空屏蔽层出现,那么将导致外层空间进入的任何物体被摧毁,而从地面发射到太空的飞船也将被摧毁... 所以,航天发射和飞船回收都需要等待这个时空屏蔽层消失之后,再进行 &
linux下批量替换文件内容商人shang linux 替换
1、网络上现成的资料　　格式: sed -i "s/查找字段/替换字段/g" `grep 查找字段 -rl 路径` 　　linux sed 批量替换多个文件中的字符串　　sed -i "s/oldstring/newstring/g" `grep oldstring -rl yourdir` 　　例如：替换/home下所有文件中的www.admi
网页在线天气预报 oloz 天气预报
网页在线调用天气预报 <%@ page language="java" contentType="text/html; charset=utf-8" pageEncoding="utf-8"%> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transit
SpringMVC和Struts2比较杨白白 springMVC
1. 入口 spring mvc的入口是servlet，而struts2是filter（这里要指出，filter和servlet是不同的。以前认为filter是servlet的一种特殊），这样就导致了二者的机制不同，这里就牵涉到servlet和filter的区别了。参见：http://blog.csdn.net/zs15932616453/article/details/8832343 2
refuse copy, lazy girl! 小桔子 copy
妹妹坐船头啊啊啊啊！都打算一点点琢磨呢。文字编辑也写了基本功能了。。今天查资料，结果查到了人家写得完完整整的。我清楚的认识到： 1.那是我自己觉得写不出的高度 2.如果直接拿来用，很快就能解决问题 3.然后就是抄咩~~ 4.肿么可以这样子，都不想写了今儿个，留着作参考吧！拒绝大抄特抄，慢慢一点点写！
apache与php整合 aichenglong php apache web
一 apache web服务器 1 apeche web服务器的安装 1)下载Apache web服务器 2)配置域名(如果需要使用要在DNS上注册) 3)测试安装访问http://localhost/验证是否安装成功 2 apache管理 1)service.msc进行图形化管理 2)命令管理，配
Maven常用内置变量 AILIKES maven
Built-in properties ${basedir} represents the directory containing pom.xml ${version} equivalent to ${project.version} (deprecated: ${pom.version}) Pom/Project properties Al
java的类和对象百合不是茶 JAVA面向对象类对象
java中的类： java是面向对象的语言，解决问题的核心就是将问题看成是一个类，使用类来解决 java使用 class 类名来创建类，在Java中类名要求和构造方法，Java的文件名是一样的创建一个A类： class A{ } java中的类：将某两个事物有联系的属性包装在一个类中，再通
JS控制页面输入框为只读 bijian1013 JavaScript
在WEB应用开发当中，增、删除、改、查功能必不可少，为了减少以后维护的工作量，我们一般都只做一份页面，通过传入的参数控制其是新增、修改或者查看。而修改时需将待修改的信息从后台取到并显示出来，实际上就是查看的过程，唯一的区别是修改时，页面上所有的信息能修改，而查看页面上的信息不能修改。因此完全可以将其合并，但通过前端JS将查看页面的所有信息控制为只读，在信息量非常大时，就比较麻烦。
AngularJS与服务器交互 bijian1013 JavaScript AngularJS $http
对于AJAX应用（使用XMLHttpRequests）来说，向服务器发起请求的传统方式是：获取一个XMLHttpRequest对象的引用、发起请求、读取响应、检查状态码，最后处理服务端的响应。整个过程示例如下： var xmlhttp = new XMLHttpRequest(); xmlhttp.onreadystatechange
[Maven学习笔记八]Maven常用插件应用 bit1129 maven
常用插件及其用法位于：http://maven.apache.org/plugins/ 1. Jetty server plugin 2. Dependency copy plugin 3. Surefire Test plugin 4. Uber jar plugin 1. Jetty Pl
【Hive六】Hive用户自定义函数(UDF) bit1129 自定义函数
1. 什么是Hive UDF Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：文件格式：Text File，Sequence File 内存中的数据格式： Java Integer/String, Hadoop IntWritable/Text 用户提供的 map/reduce 脚本：不管什么
杀掉nginx进程后丢失nginx.pid，如何重新启动nginx ronin47 nginx 重启 pid丢失
nginx进程被意外关闭，使用nginx -s reload重启时报如下错误：nginx: [error] open() “/var/run/nginx.pid” failed (2: No such file or directory)这是因为nginx进程被杀死后pid丢失了，下一次再开启nginx -s reload时无法启动解决办法：nginx -s reload 只是用来告诉运行中的ng
UI设计中我们为什么需要设计动效 brotherlamp UI ui教程 ui视频 ui资料 ui自学
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用你的产品。
Spring中JdbcDaoSupport的DataSource注入问题 bylijinnan java spring
参考以下两篇文章： http://www.mkyong.com/spring/spring-jdbctemplate-jdbcdaosupport-examples/ http://stackoverflow.com/questions/4762229/spring-ldap-invoking-setter-methods-in-beans-configuration Sprin
数据库连接池的工作原理 chicony 数据库连接池
随着信息技术的高速发展与广泛应用，数据库技术在信息技术领域中的位置越来越重要，尤其是网络应用和电子商务的迅速发展，都需要数据库技术支持动态Web站点的运行，而传统的开发模式是：首先在主程序（如Servlet、Beans）中建立数据库连接；然后进行SQL操作，对数据库中的对象进行查询、修改和删除等操作；最后断开数据库连接。使用这种开发模式，对
java 关键字 CrazyMizzz java
关键字是事先定义的，有特别意义的标识符，有时又叫保留字。对于保留字，用户只能按照系统规定的方式使用，不能自行定义。 Java中的关键字按功能主要可以分为以下几类：（1）访问修饰符 public,private,protected p
Hive中的排序语法 daizj 排序 hive order by DISTRIBUTE BY sort by
Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序，这意味着所有的数据会传送到一个Reduce任务上，这样会导致在大数量的情况下，花费大量时间。与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下，必须指定 limit 否则执行会报错。
单态设计模式 dcj3sjt126com 设计模式
单例模式（Singleton）用于为一个类生成一个唯一的对象。最常用的地方是数据库连接。使用单例模式生成一个对象后，该对象可以被其它众多对象所使用。 <?phpclass Example{ // 保存类实例在此属性中 private static&
svn locked dcj3sjt126com Lock
post-commit hook failed (exit code 1) with output: svn: E155004: Working copy 'D:\xx\xxx' locked svn: E200031: sqlite: attempt to write a readonly database svn: E200031: sqlite: attempt to write a
ARM寄存器学习 e200702084 数据结构 C++c C#F#
无论是学习哪一种处理器，首先需要明确的就是这种处理器的寄存器以及工作模式。 ARM有37个寄存器，其中31个通用寄存器，6个状态寄存器。 1、不分组寄存器（R0-R7）不分组也就是说说，在所有的处理器模式下指的都时同一物理寄存器。在异常中断造成处理器模式切换时，由于不同的处理器模式使用一个名字相同的物理寄存器，就是
常用编码资料 gengzg 编码
List<UserInfo> list=GetUserS.GetUserList(11); String json=JSON.toJSONString(list); HashMap<Object,Object> hs=new HashMap<Object, Object>(); for(int i=0;i<10;i++) {
进程 vs. 线程 hongtoushizi 线程 linux 进程
我们介绍了多进程和多线程，这是实现多任务最常用的两种方式。现在，我们来讨论一下这两种方式的优缺点。首先，要实现多任务，通常我们会设计Master-Worker模式，Master负责分配任务，Worker负责执行任务，因此，多任务环境下，通常是一个Master，多个Worker。如果用多进程实现Master-Worker，主进程就是Master，其他进程就是Worker。如果用多线程实现
Linux定时Job：crontab -e 与 /etc/crontab 的区别 Josh_Persistence linux crontab
一、linux中的crotab中的指定的时间只有5个部分：* * * * * 分别表示：分钟，小时，日，月，星期，具体说来：第一段代表分钟 0—59 第二段代表小时 0—23 第三段代表日期 1—31 第四段代表月份 1—12 第五段代表星期几，0代表星期日 0—6 如： */1 * * * * 每分钟执行一次。 *
KMP算法详解 hm4123660 数据结构 C++算法字符串 KMP
字符串模式匹配我们相信大家都有遇过，然而我们也习惯用简单匹配法（即Brute-Force算法)，其基本思路就是一个个逐一对比下去，这也是我们大家熟知的方法，然而这种算法的效率并不高，但利于理解。假设主串s="ababcabcacbab",模式串为t="
枚举类型的单例模式 zhb8015 单例模式
E.编写一个包含单个元素的枚举类型[极推荐]。代码如下： public enum MaYun {himself; //定义一个枚举的元素，就代表MaYun的一个实例private String anotherField;MaYun() {//MaYun诞生要做的事情//这个方法也可以去掉。将构造时候需要做的事情放在instance赋值的时候：/** himself = MaYun() {*
Kafka+Storm+HDFS ssydxa219 storm
cd /myhome/usr/stormbin/storm nimbus &bin/storm supervisor &bin/storm ui &Kafka+Storm+HDFS整合实践kafka_2.9.2-0.8.1.1.tgzapache-storm-0.9.2-incubating.tar.gzKafka安装配置我们使用3台机器搭建Kafk
Java获取本地服务器的IP 中华好儿孙 java Web 获取服务器ip地址
System.out.println("getRequestURL:"+request.getRequestURL()); System.out.println("getLocalAddr:"+request.getLocalAddr()); System.out.println("getLocalPort:&quo