C小C

【转载】基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN +SSD+YOLO

【转载】基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN+SSD+YOLO

【转自博客园，链接为https://www.cnblogs.com/skyfsm/p/6806246.html，略作删改与补充，修改部分用【】框起，侵删】

【转载时间：2018.09.05】

前言

object detection我的理解，就是在给定的图片中精确找到物体所在位置，并标注出物体的类别。object detection要解决的问题就是物体在哪里，是什么这整个流程的问题。然而，这个问题可不是那么容易解决的，物体的尺寸变化范围很大，摆放物体的角度，姿态不定，而且可以出现在图片的任何地方，更何况物体还可以是多个类别。

object detection技术的演进：

RCNN->SppNET->Fast-RCNN->Faster-RCNN

【再献上一个RCNN系列的图（来自知乎：iker peng）】

1、从图像识别的任务说起

这里有一个图像任务：

既要把图中的物体识别出来，又要用方框框出它的位置。

上面的任务用专业的说法就是：图像识别+定位

图像识别（classification）：

输入：图片

输出：物体的类别

评估方法：准确率

定位（localization）：

输入：图片

输出：方框在图片中的位置（x,y,w,h）

评估方法：检测评价函数 intersection-over-union ( IOU )

【IOU是两个框交集占并集的比例，其公式如下：】

【】

2、解决物体检测问题的两种方思路（单个物体）

卷积神经网络CNN已经帮我们完成了图像识别（判定是猫还是狗）的任务了，我们只需要添加一些额外的功能来完成定位任务即可。

定位的问题的解决思路有哪些？

思路一：看做回归问题

看做回归问题，我们需要预测出（x,y,w,h）四个参数的值，从而得出方框的位置。

步骤1:

　　• 先解决简单问题，搭一个识别图像的神经网络

　　• 在AlexNet VGG GoogleLenet上fine-tuning一下

步骤2:

　　• 在上述神经网络的尾部展开（也就说CNN前面保持不变，我们对CNN的结尾处作出改进：加了两个头：“分类头”和“回归头”）

　　• 成为classification + regression模式

步骤3:

　　• Regression那个部分用欧氏距离损失

　　• 使用SGD训练

步骤4:

　　• 预测阶段把2个头部拼上

　　• 完成不同的功能

这里需要进行两次fine-tuning

第一次在ALexNet上做，第二次将头部改成regression head，前面不变，做一次fine-tuning

Regression的部分加在哪？

有两种处理方法：

　　• 加在最后一个卷积层后面（如VGG）

　　• 加在最后一个全连接层后面（如R-CNN）

regression太难做了，应想方设法转换为classification问题。

regression的训练参数收敛的时间要长得多，所以上面的网络采取了用classification的网络来计算出网络共同部分的连接权值。

思路二：取图像窗口

　　• 还是刚才的classification + regression思路

　　• 咱们取不同的大小的“框”

　　• 让框出现在不同的位置，得出这个框的判定得分【问题是如何评分？？---该框中的物体分类为某一class的概率么？】

　　• 取得分最高的那个框

左上角的黑框：得分0.5

右上角的黑框：得分0.75

左下角的黑框：得分0.6

右下角的黑框：得分0.8

根据得分的高低，我们选择了右下角的黑框作为目标位置的预测。

注：有的时候也会选择得分最高的两个框，然后取两框的交集作为最终的位置预测。

疑惑：框要取多大？

取不同的框，依次从左上角扫到右下角。非常粗暴啊。

总结一下思路：

对一张图片，用各种大小的框（遍历整张图片）将图片截取出来，输入到CNN，然后CNN会输出这个框的得分（classification）以及这个框图片对应的x,y,h,w（regression）。

这方法实在太耗时间了，做个优化。

原来网络是这样的：

优化成这样：把全连接层改为卷积层，这样可以提提速。【这样做会牺牲准确率么？】

3、物体检测（Object Detection）

当图像有很多物体怎么办的？难度可是一下暴增啊。

那任务就变成了：多物体识别+定位多个物体

那把这个任务看做分类问题？

看成分类问题有何不妥？

　　• 你需要找很多位置，给很多个不同大小的框

　　• 你还需要对框内的图像分类

　　• 当然，如果你的GPU很强大，恩，那加油做吧…

看做classification，有没有办法优化下？我可不想试那么多框那么多位置啊！

有人想到一个好方法：

找出可能含有物体的框（也就是候选框，比如选1000个候选框），这些框之间是可以互相重叠互相包含的，这样我们就可以避免暴力枚举的所有框了。

大牛们发明好多选定候选框的方法，比如EdgeBoxes和Selective Search。

以下是各种选定候选框的方法的性能对比。

有一个很大的疑惑，提取候选框用到的算法“选择性搜索”到底怎么选出这些候选框的呢？那个就得好好看看它的论文了，这里就不介绍了。

【Edge Boxes: Locating Object Proposals from Edges---https://www.microsoft.com/en-us/research/wp-content/uploads/2014/09/ZitnickDollarECCV14edgeBoxes.pdf

Selective Search for Object Recognition----https://link.springer.com/content/pdf/10.1007%2Fs11263-013-0620-5.pdf】

4、R-CNN横空出世

基于以上的思路，RCNN的出现了。

步骤一：训练（或者下载）一个分类模型（比如AlexNet）

步骤二：对该模型做fine-tuning

　　• 将分类数从1000改为20

　　• 去掉最后一个全连接层

步骤三：特征提取

　　• 提取图像的所有候选框（选择性搜索）

　　• 对于每一个区域：修正区域大小以适合CNN的输入，做一次前向运算，将第五个池化层的输出（就是对候选框提取到的特征）存到硬盘

【crop/wrap:裁剪/变形---因为R-CNN的输入的图片是固定尺寸的】

步骤四：训练一个SVM分类器（二分类）来判断这个候选框里物体的类别

每个类别对应一个SVM，判断是不是属于这个类别，是就是positive，反之nagative

比如下图，就是狗分类的SVM

步骤五：使用回归器精细修正候选框位置：对于每一个类，训练一个线性回归模型去判定这个框是否框得完美。

RCNN的进化中SPP Net的思想对其贡献很大，这里也简单介绍一下SPP Net。

5、SPP Net

SPP：Spatial Pyramid Pooling（空间金字塔池化）

它的特点有两个:

1.结合空间金字塔方法实现CNNs的对尺度输入。

一般CNN后接全连接层或者分类器，他们都需要固定的输入尺寸，因此不得不对输入数据进行crop或者warp，这些预处理会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想加入到CNN，实现了数据的多尺度输入。

如下图所示，在卷积层和全连接层之间加入了SPP layer。此时网络的输入可以是任意尺度的，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出尺度始终是固定的。

2.只对原图提取一次卷积特征

在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。

所以SPP Net根据这个缺点做了优化：只对原图进行一次卷积得到整张图的feature map，然后找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间，比R-CNN有一百倍左右的提速。【Patch是补丁的意思，这里应该是由元素值构成的一个矩形区域的意思，待验证？】

6、Fast R-CNN

【论文链接：http://www.patternrecognition.cn/perception/understanding2015c.pdf】

SPP Net真是个好方法，R-CNN的进阶版Fast R-CNN就是在RCNN的基础上采纳了SPP Net方法，对RCNN作了改进，使得性能进一步提高。

R-CNN与Fast RCNN的区别有哪些呢？

先说RCNN的缺点：即使使用了selective search等预处理步骤来提取潜在的bounding box作为输入，但是RCNN仍会有严重的速度瓶颈，原因也很明显，就是计算机对所有region进行特征提取时会有重复计算，Fast-RCNN正是为了解决这个问题诞生的。

【疑问：为何ROIs只用了一层的卷积特征，为了提速么？又为何选了“conv5这层特征？”】

大牛提出了一个可以看做单层sppnet的网络层，叫做ROI Pooling，这个网络层可以把不同大小的输入映射到一个固定尺度的特征向量，而我们知道，conv、pooling、relu等操作都不需要固定size的输入，因此，在原始图片上执行这些操作后，虽然输入图片size不同导致得到的feature map尺寸也不同，不能直接接到一个全连接层进行分类，但是可以加入这个神奇的ROI Pooling层，对每个region都提取一个固定维度的特征表示，再通过正常的softmax进行类型识别。另外，之前RCNN的处理流程是先提proposal，然后CNN提取特征，之后用SVM分类器，最后再做bbox regression，而在Fast-RCNN中，作者巧妙的把bbox regression放进了神经网络内部，与region分类合并成为了一个multi-task模型【即在RoIs提取Proposal同时做了bbox regression么？但是如何做到呢？】，实际实验也证明，这两个任务能够共享卷积特征，并相互促进。Fast-RCNN很重要的一个贡献是成功的让人们看到了Region Proposal+CNN这一框架实时检测的希望，原来多类检测真的可以在保证准确率的同时提升处理速度，也为后来的Faster-RCNN做下了铺垫。

画一画重点：

R-CNN有一些相当大的缺点（把这些缺点都改掉了，就成了Fast R-CNN）。

大缺点：由于每一个候选框都要独自经过CNN，这使得花费的时间非常多。

解决：共享卷积层，现在不是每一个候选框都当做输入进入CNN了，而是输入一张完整的图片，在第五个卷积层再得到每个候选框的特征

原来的方法：许多候选框（比如两千个）-->CNN-->得到每个候选框的特征-->分类+回归

现在的方法：一张完整图片-->CNN-->得到每张候选框的特征-->分类+回归

所以容易看见，Fast RCNN相对于RCNN的提速原因就在于：不过不像RCNN把每个候选区域给深度网络提特征，而是整张图提一次特征，再把候选框映射到conv5上，而SPP只需要计算一次特征，剩下的只需要在conv5层上操作就可以了。

在性能上提升也是相当明显的：

7、Faster R-CNN

【论文链接：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks---http://cn.arxiv.org/pdf/1506.01497 】

Fast R-CNN存在的问题：存在瓶颈：选择性搜索，找出所有的候选框，这个也非常耗时。那我们能不能找出一个更加高效的方法来求出这些候选框呢？

解决：加入一个提取边缘的神经网络，也就说找到候选框的工作也交给神经网络来做了【原本是交由CNN做的？】。

做这样的任务的神经网络叫做Region Proposal Network(RPN)。

具体做法：

　　• 将RPN放在最后一个卷积层的后面

　　• RPN直接训练得到候选区域

RPN简介：

　　• 在feature map上滑动窗口

　　• 建一个神经网络用于物体分类+框位置的回归

　　• 滑动窗口的位置提供了物体的大体位置信息

　　• 框的回归提供了框更精确的位置

一种网络，四个损失函数;

　　• RPN calssification(anchor good.bad)

　　• RPN regression(anchor->propoasal)

　　• Fast R-CNN classification(over classes)

　　• Fast R-CNN regression(proposal ->box)

速度对比

Faster R-CNN的主要贡献是设计了提取候选区域的网络RPN，代替了费时的选择性搜索，使得检测速度大幅提高。

8、最后总结一下各大算法的步骤及对比：

RCNN

　　1. 在图像中确定约1000-2000个候选框 (使用选择性搜索)

　　2. 每个候选框内图像块缩放至相同大小，并输入到CNN内进行特征提取

　　3. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类

　　4. 对于属于某一特征的候选框，用回归器进一步调整其位置

Fast RCNN

　　1. 在图像中确定约1000-2000个候选框 (使用选择性搜索) 【也是在图像中确定候选框的么？】

　　2. 对整张图片输进CNN，得到feature map

　　3. 找到每个候选框在feature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层

　　4. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类

　　5. 对于属于某一特征的候选框，用回归器进一步调整其位置

Faster RCNN

　　1. 对整张图片输进CNN，得到feature map

　　2. 卷积特征输入到RPN，得到候选框的特征信息

　　3. 对候选框中提取出的特征，使用分类器判别是否属于一个特定类

　　4. 对于属于某一特征的候选框，用回归器进一步调整其位置

三者比较

方法

创新

缺点

改进

R-CNN (Region-based Convolutional Neural Networks)

1、SS提取RP； 2、CNN提取特征； 3、SVM分类； 4、BB盒回归。

1、训练步骤繁琐（微调网络+训练SVM+训练bbox）； 2、训练、测试均速度慢； 3、训练占空间

1、从DPM HSC的34.3%直接提升到了66%（mAP）； 2、引入RP+CNN

Fast R-CNN (Fast Region-based Convolutional Neural Networks)

1、SS提取RP； 2、CNN提取特征； 3、softmax分类； 4、多任务损失函数边框回归。

1、依旧用SS提取RP(耗时2-3s，特征提取耗时0.32s)； 2、无法满足实时应用，没有真正实现端到端训练测试； 3、利用了GPU，但是区域建议方法是在CPU上实现的。

1、由66.9%提升到70%； 2、每张图像耗时约为3s。

Faster R-CNN (Fast Region-based Convolutional Neural Networks)

1、RPN提取RP； 2、CNN提取特征； 3、softmax分类； 4、多任务损失函数边框回归。

1、还是无法达到实时检测目标； 2、获取region proposal，再对每个proposal分类计算量还是比较大。

1、提高了检测精度和速度； 2、真正实现端到端的目标检测框架； 3、生成建议框仅需约10ms。

总的来说，从R-CNN, SPP-NET, Fast R-CNN, Faster R-CNN一路走来，基于深度学习目标检测的流程变得越来越精简，精度越来越高，速度也越来越快。可以说基于region proposal的R-CNN系列目标检测方法是当前目标检测技术领域最主要的一个分支。

-------------------------------------------------------------------------------------以下为补充的SDD和YOLO的相关内容----------------------------------------------------------------------------------------------------------

9、SSD

SSD算法是一种直接预测目标类别和bounding box的多目标检测算法。与faster rcnn相比，该算法没有生成 proposal 的过程，这就极大提高了检测速度。针对不同大小的目标检测，传统的做法是先将图像转换成不同大小（图像金字塔），然后分别检测，最后将结果综合起来（NMS）。而SSD算法则利用不同卷积层的 feature map 进行综合也能达到同样的效果。算法的主网络结构是VGG16，将最后两个全连接层改成卷积层，并随后增加了4个卷积层来构造网络结构。对其中5种不同的卷积层的输出（feature map）分别用两个不同的 3×3 的卷积核进行卷积，一个输出分类用的confidence，每个default box 生成21个类别confidence；一个输出回归用的 localization，每个 default box 生成4个坐标值（x, y, w, h）。此外，这5个feature map还经过 PriorBox 层生成 prior box（生成的是坐标）。上述5个feature map中每一层的default box的数量是给定的(8732个)。最后将前面三个计算结果分别合并然后传给loss层。

10、YOLO

2015年出现了一个名为YOLO的方法，其最终发表在CVPR 2016上。这是一个蛮奇怪的方法，对于给定的输入图像，YOLO不管三七二十一最终都划分出7x7的网格，也就是得到49个窗口，然后在每个窗口中去预测两个矩形框。这个预测是通过全连接层来完成的，YOLO会预测每个矩形框的4个参数和其包含物体的信度，以及其属于每个物体类别的概率。YOLO的速度很快，在GPU上可以达到45fps。

YOLO的处理步骤为：把输入图片缩放到448×448大小；运行卷积网络；对模型置信度卡阈值，得到目标位置与类别。对VOC数据集来说，YOLO就是把图片统一缩放到448×448，然后每张图平均划分为7×7=49个小格子，每个格子预测2个矩形框及其置信度，以及20种类别的概率。舍弃了Region proposal阶段，加快了速度，但是定位精度比较低，与此同时带来的问题是，分类的精度也比较低。在各类数据集上的平均表现大概为54.5%mAP。

参考文献：

https://blog.csdn.net/f290131665/article/details/81012556

https://www.cnblogs.com/skyfsm/p/6806246.html

你可能感兴趣的:(物体检测)

【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
BEV开山之作Lift-Splat-Shot (LSS) 深度详解 shuaishuaideyuzi 3D视觉入门人工智能 python pytorch 3d 计算机视觉
在自动驾驶感知系统中，将多视角图像转换为鸟瞰图（BEV）是一个关键步骤。Lift-Splat-Shot（LSS）是一种高效的视角转换方法，能够将透视视图特征转换为BEV空间，从而实现更准确的3D物体检测。本文将详细解析LSS的工作原理、技术细节及其应用场景。一、LSS概述LSS（Lift-Splat-Shot）是由PhilippHenzler等人于2021年提出的一种用于自动驾驶感知系统的视角转换
NanoDet 深度学习物料自动分类系统 YOLO实战营深度学习分类人工智能数据挖掘 NanoDet
引言随着工业自动化和物料管理的不断发展，物料的自动分类在仓储、物流、生产线等场景中的应用越来越广泛。传统的物料分类方式往往依赖人工操作，效率低下且容易出错，而基于深度学习的自动分类系统能够大大提高工作效率、降低错误率并实现高效管理。在众多深度学习技术中，物体检测算法被广泛应用于自动分类系统。NanoDet作为一款轻量级的目标检测算法，凭借其出色的速度与准确性，成为解决物料自动分类问题的一种理想选择
D-FINE使用pth权重批量推理可视化图片悠悠海风代码调试深度学习人工智能 python 目标检测计算机视觉
关于D-FINE相关的内容可参考下面这篇博客：论文解读：ICLR2025|D-FINE_d-fine:redefineregressiontaskindetrsasfine--CSDN博客文章浏览阅读949次，点赞18次，收藏28次。D-FINE是一款功能强大的实时物体检测器，它将DETRs中的边界框回归任务重新定义为细粒度分布细化（FDR），并引入了全局最优定位自蒸馏（GO-LSD），在不引入额
基于OpenCv的运动物体检测算法 Liu_LongPo 计算机视觉 OpenCv 运动物体检测
基于一个实现的基于OpenCv的运动物体检测算法，可以用于检测行人或者其他运动物体。#include#include#include#includeintmain(intargc,char**argv){//声明IplImage指针IplImage*pFrame=NULL;IplImage*pFrImg=NULL;IplImage*pBkImg=NULL;CvMat*pFrameMat=NULL;
C#图像处理-OpenCVSharp教程(三十五) OpenCVSharp运动物体检测(一) Color Space OpenCVSharp C#OpenCV C#图像处理
本文作者ColorSpace，文章未经作者允许禁止转载！本文将介绍OpenCVSharp运动物体检测(一)代码演示：///图片背景差法检测运动物体MatbgImg=Cv2.ImRead("1.bmp");MatfgImg=Cv2.ImRead("55.bmp");Cv2.ImShow("bg",bgImg);Cv2.ImShow("fg",fgImg);Matgray=newMat();Matgr
一[3.0]、 yolov8 工作原理他人是一面镜子，保持谦虚的态度车道检测研究 YOLO
目录YOLOv8简介什么是YOLOv8？yaml配置文件解析YOLOv8架构图Yolov8有什么新功能？YOLO模型彻底改变了计算机视觉领域。识别物体是计算机视觉中的一项关键任务，可应用于机器人、医学成像、监控系统和自动驾驶汽车等多个领域。YOLO模型的最新版本YOLOv8是一种先进的实时物体检测框架，引起了研究界的关注。在所有流行的物体识别机器学习模型（如FasterR-CNN、SSD和Reti
YOLOv12：以注意力为中心的物体检测发呆小天才O.o 计算机视觉深度学习计算机视觉目标检测 YOLOv12
1.概述实时目标检测已成为许多实际应用的关键，而Ultralytics的YOLO（YouOnlyLookOnce）系列一直是最先进的模型系列，在速度和准确率之间实现了稳健的平衡。注意力机制的低效性阻碍了其在YOLO等高速系统中的应用。YOLOv12旨在通过将注意力机制集成到YOLO框架中来改变这一现状。由于注意力机制效率低下，且计算复杂度高达平方级，内存访问操作效率低下，因此大多数目标检测架构传统
YOLO chp01- speop YOLO
学习YOLO的正确姿势：从入门到"真香"的奇妙之旅YOLO系列模型的硬核表现：YOLOv1最先提出单阶段检测+GridCell机制，在物体检测速度层面实现了质的飞跃YOLOv5在TeslaT4上跑出140FPSYOLOv8的Latency-Accuracy曲线表现卓越YOLO模块化定制；#你的自定义YOLO可能是这样的classMySuperYOLO(nn.Module):def__init__(
COCO-Stuff数据集：基于YOLOv5的多类别目标检测与分割实现 YOLO实战营深度学习YOLO实战项目 YOLO 目标检测人工智能无人机计算机视觉数据挖掘 ui
一、引言随着计算机视觉领域的不断发展，目标检测和语义分割已经成为深度学习中的两个关键任务。COCO-Stuff是一个包含多达172个类别的大型数据集，用于训练和评估计算机视觉算法。与传统的COCO数据集不同，COCO-Stuff不仅包含常见的物体检测任务，还增加了诸如“天空”、“树木”和“路面”等场景理解任务。通过对这个数据集的处理与利用，我们可以构建一个更加丰富的目标检测与语义分割系统。本博客将
Python----目标检测（YOLO简介）蹦蹦跳跳真可爱589 目标检测 Python 目标检测 YOLO 目标跟踪人工智能计算机视觉 python
一、YOLO简介[YOLO](YouOnlyLookOnce）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（JosephRedmon）和阿里-法哈迪（AliFarhadi）开发，YOLO于2015年推出，因其高速度和高精确度而迅速受到欢迎。在计算机视觉（ComputerVision）领域，目标检测（ObjectDetection）一直是最为基础且至关重要的研究方向之一。随着深度
深度学习在计算机视觉中的应用：物体检测技术小鹿嘻嘻深度学习计算机视觉物体检测卷积神经网络 R-CNN变体
背景简介随着机器学习（ML）、深度学习（DL）以及变换器神经网络等技术的快速发展，计算机视觉领域取得了显著进步。深度学习通过利用卷积神经网络（CNN）等模型，使计算机能够从图像中直接提取重要信息，从而在物体检测、场景理解等领域实现了突破性进展。本文将深入探讨深度学习在计算机视觉任务中的应用，并重点分析物体检测技术。深度学习与计算机视觉的结合深度学习（DL）模型具有多个处理层，能够学习和表示数据在不
【仿生系统】qwen的仿生机器人解决方案 DFminer 机器人
收到完整需求后，我将从系统架构设计、算法实现路径、训练方法三个维度为您构建完整的仿生机器人解决方案。以下是分阶段实施方案：一、核心系统架构设计（模块化可进化架构）1.多模态感知引擎-视觉子系统：YOLOv8+SAM组合实现实时物体检测+场景语义分割-听觉子系统：Whisper+SpeakerEmbedding+情感识别三重处理-语言理解：基于LLaMA3的增量式语义解析（IncrementalPa
YOLOv9：实时物体检测的新标杆程栋里
YOLOv9：实时物体检测的新标杆【下载地址】YOLOv9概述-实时物体检测算法YOLOv9概述-实时物体检测算法项目地址:https://gitcode.com/Open-source-documentation-tutorial/24e1b项目介绍YOLOv9是YOLO（YouOnlyLookOnce）系列中的最新成员，专为实时物体检测而设计。YOLO系列以其高效和准确的物体检测能力而闻名，而
基于亚博K210开发板——物体检测测试追兮兮 K210 K210
开发板亚博K210开发板实验目的本次测试主要学习K210如何物体检测，然后通过LCD显示屏实时框出检测物体然后以不同颜色标记名称。实验元件OV2640摄像头/OV9655摄像头/GC2145摄像头、LCD显示屏硬件连接K210开发板出厂默认已经安装好摄像头和显示器，只需要使用Type-C数据线连接K210开发板与电脑即可。实验原理KendryteK210具备机器视觉能力，是零门槛机器视觉嵌入式解决
英伟达最新发布！超越其它所有SOTA的3D目标检测 3Ｄ视觉工坊 3D视觉从入门到精通 3d 目标检测人工智能计算机视觉
作者：王林|来源：3DCV在公众号「3DCV」后台，回复「原论文」可获取论文pdf添加微信：dddvision，备注：自动驾驶，拉你入群。文末附行业细分群1、导读现有的3D物体检测方法通常需要使用完全注释的数据进行训练，而使用预训练的语义特征可以带来一些优势。然而，目前还没有利用扩散特征进行3D感知任务的研究。因此，我们提出了一种新的框架，通过视图合成任务来增强预训练的2D扩散模型的3D感知能力。
YOLOv5与YOLOv4的区别与优缺点分析 AI天才研究院 AI大模型企业级应用开发实战 AI Agent 应用开发计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
YOLOv5与YOLOv4的区别与优缺点分析作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming/TextGenWebUILLM1.背景介绍1.1问题的由来在深度学习和计算机视觉领域，物体检测是研究的核心之一。从早期基于全连接层的算法如R-CNN系列到如今流行的轻量级检测器如SSD、FasterR-CNN以及单阶段检测器如YOLO系列，算法一直在追求更高
Python与YOLO：自动驾驶中的实时物体检测 Echo_Wish Python！实战！python YOLO 自动驾驶
Python与YOLO：自动驾驶中的实时物体检测引言：从物体检测到智能驾驶说到自动驾驶，很多人脑海中首先想到的可能是智能汽车，它们能够自主地行驶，无需人类干预。这一切的背后，离不开一项至关重要的技术——实时物体检测。在自动驾驶中，车辆需要通过摄像头、雷达等传感器获取周围环境的数据，而如何从这些庞大的数据中快速、准确地识别出行人、车辆、障碍物等是至关重要的。这里，我们将聚焦于如何利用**Python
AI Python 教程 Empty-Filled 人工智能 python 开发语言
AIPython教程为什么使用Python学习AI？AI之Python前提AIPython教程人工智能AI之Python-机器学习监督学习回归算法分类算法非监督学习聚类算法数据降维增强学习AI之Python-深度学习深度学习基础深度学习架构AI之Python-自然语言处理文本处理和表示文本处理文本表示词汇语义学AI之Python-计算机视觉图像处理和转换图像识别架构物体检测架构两步检测器单步检测器
树莓派智能摄像头实战指南：基于TensorFlow Lite的端到端AI部署 Tech Synapse 人工智能 tensorflow python MobileNetV2 TensorFlow Lite
引言：嵌入式AI的革新力量在物联网与人工智能深度融合的今天，树莓派这一信用卡大小的计算机正在成为边缘计算的核心载体。本文将手把手教你打造一款基于TensorFlowLite的低功耗智能监控设备，通过MobileNetV2模型实现实时物体检测，结合运动检测算法构建双保险监控体系。我们将深入探索模型轻量化部署、硬件加速优化和功耗管理策略，为嵌入式AI开发提供完整技术路线图。一、智能监控系统的技术架构1
目标检测的图像特征提取勇往直前的流浪刀客 CV 图像特征提取
目标检测的图像特征提取之（一）HOG特征1、HOG特征：方向梯度直方图（HistogramofOrientedGradient,HOG）特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。它通过计算和统计图像局部区域的梯度方向直方图来构成特征。Hog特征结合SVM分类器已经被广泛应用于图像识别中，尤其在行人检测中获得了极大的成功。需要提醒的是，HOG+SVM进行行人检测的方法是法国研究
树莓派智能摄像头实战指南：基于TensorFlow Lite的端到端AI部署大G哥人工智能 tensorflow python 深度学习机器学习
引言：嵌入式AI的革新力量在物联网与人工智能深度融合的今天，树莓派这一信用卡大小的计算机正在成为边缘计算的核心载体。本文将手把手教你打造一款基于TensorFlowLite的低功耗智能监控设备，通过MobileNetV2模型实现实时物体检测，结合运动检测算法构建双保险监控体系。我们将深入探索模型轻量化部署、硬件加速优化和功耗管理策略，为嵌入式AI开发提供完整技术路线图。一、智能监控系统的技术架构1
YOLOv5的gpu训练环境安装（windows系统，anaconda虚拟python环境） wifi11 windows python pytorch
本人在用YOLOv5进行物体检测时，使用使用detect.py文件时无法调用gpu，下载了pytorch的gpu版本后代码运行会报错，错误信息说是CUDA环境不正确，为此整理了一下CUDA和pytorch环境的安装。（由报错可知，detect.py选项无法运行并不是因为gpu环境未配置好，而是不能使用gpu，所以下载好gpu版本后，pythondetect.py--weightsyolov5s.p
【计算机视觉】深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南白熊188 计算机视觉计算机视觉机器学习人工智能
深度解析MediaPipe：谷歌跨平台多媒体机器学习框架实战指南技术架构与设计哲学核心设计理念系统架构概览核心功能与预构建解决方案1.人脸检测2.手势识别3.姿势估计4.物体检测与跟踪实战部署指南环境配置基础环境准备获取源码构建第一个示例（手部追踪）桌面端运行Android端部署自定义计算图开发关键技术深度解析1.高效同步机制2.GPU加速实现3.模型优化技术常见问题与解决方案1.GPU兼容性问题
突破YOLOv11训练：用幽默的方式玩转自定义数据集与物体检测星际编程喵 Python探索之旅 YOLO 人工智能目标跟踪计算机视觉 python 机器学习
前言你是否曾在训练深度学习模型时，望着屏幕上那一堆堆的错误信息，差点觉得自己的大脑要冒烟？如果你也曾体验过这种“技术折磨”，恭喜，你找对地方了！今天，我们将带你踏入YOLOv11的神奇世界，用幽默的方式教你如何训练物体检测模型，处理自定义数据集。放心，这不仅仅是枯燥的代码，我们还会插入一些有趣的故事，让你在繁琐的操作中不至于崩溃，还能带着笑容一路走下去！简介YOLO（YouOnlyLookOnce
旋转目标检测：Oriented Object Detection in Aerial Images with Box Boundary-Aware Vectors【方法解析】沉浸式AI 《AI与SLAM论文解析》目标检测人工智能计算机视觉算法论文解读旋转目标检测
中文标题：基于盒边界感知向量的航空图像定向目标检测目录摘要1.引言2.相关工作2.1定向物体检测2.2基于关键点的物体检测基线方法3.方法3.1架构3.2热图地面真值训练损失3.3偏移3.4框参数3.5方向4.实验4.1数据集DOTAHRSC20164.2实现细节4.3测试细节4.4与最先进方法的比较DOTAHRSC20164.5消融研究4.6与基线方法的比较5.结论摘要航拍图像中的定向物体检测是
【图像轮廓特征查找】图像处理（OpenCV) -part8 绝顶大聪明图像处理 opencv 人工智能
17图像轮廓特征查找图像轮廓特征查找其实就是他的外接轮廓。应用：图像分割形状分析物体检测与识别根据轮廓点进行，所以要先找到轮廓。先灰度化、二值化。目标物体白色，非目标物体黑色，选择合适的儿值化方式。有了轮廓点就可以找到最上、最下、最左、最右的四个坐标，X_{min}、X_{max}、Y_{min}、Y_{max}。就可以绘制出矩形。17.1外接矩形boundingRect(轮廓点)形状的外接矩形有
YOLO11改进 | 特征融合Neck篇之Lowlevel Feature Alignment机制：多尺度检测的革新性突破 Loving_enjoy 计算机学科论文创新点计算机视觉 YOLO
##为什么需要重新设计特征融合机制？在目标检测领域，YOLO系列模型因其高效的实时性成为工业界和学术界的标杆。然而，随着应用场景的复杂化（如自动驾驶中的多尺度目标、无人机图像中的小物体检测），传统特征融合策略的局限性逐渐暴露：**特征对齐不足导致语义信息错位、多层级信息融合效率低、小目标特征易丢失**。这些问题直接影响模型在复杂场景下的鲁棒性。针对这一挑战，本文提出一种创新性特征融合机制——**L
小目标检测的优化 deepdata_cn 特征识别机器视觉目标检测人工智能计算机视觉
在当今数字化时代，安防监控、卫星图像分析等领域的应用日益广泛，而小目标检测作为其中的关键技术，始终面临着严峻挑战。以安防监控场景为例，在城市街道的监控画面中，远处的行人、车辆等小目标，以及卫星图像中微小的建筑、植被变化等，其检测精度直接关系到公共安全、灾害预警等重要功能的实现。然而，由于小目标在图像中像素占比少、特征不明显，传统的物体检测方法如同“大海捞针”，难以取得理想效果。随着深度学习技术的蓬
c# opencv 轮廓检测_基于OpenCV的区域分割、轮廓检测和阈值处理 weixin_39560066 c#opencv 轮廓检测
OpenCV是一个巨大的开源库，广泛用于计算机视觉，人工智能和图像处理领域。它在现实世界中的典型应用是人脸识别，物体检测，人类活动识别，物体跟踪等。现在，假设我们只需要从整个输入帧中检测到一个对象。因此，代替处理整个框架，如果可以在框架中定义一个子区域并将其视为要应用处理的新框架，该怎么办。我们要完成一下三个步骤：•定义兴趣区•在ROI中检测轮廓•阈值检测轮廓轮廓线什么是ROI？简而言之，我们感兴
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

方法	创新	缺点	改进
R-CNN (Region-based Convolutional Neural Networks)	1、SS提取RP； 2、CNN提取特征； 3、SVM分类； 4、BB盒回归。	1、训练步骤繁琐（微调网络+训练SVM+训练bbox）； 2、训练、测试均速度慢； 3、训练占空间	1、从DPM HSC的34.3%直接提升到了66%（mAP）； 2、引入RP+CNN
Fast R-CNN (Fast Region-based Convolutional Neural Networks)	1、SS提取RP； 2、CNN提取特征； 3、softmax分类； 4、多任务损失函数边框回归。	1、依旧用SS提取RP(耗时2-3s，特征提取耗时0.32s)； 2、无法满足实时应用，没有真正实现端到端训练测试； 3、利用了GPU，但是区域建议方法是在CPU上实现的。	1、由66.9%提升到70%； 2、每张图像耗时约为3s。
Faster R-CNN (Fast Region-based Convolutional Neural Networks)	1、RPN提取RP； 2、CNN提取特征； 3、softmax分类； 4、多任务损失函数边框回归。	1、还是无法达到实时检测目标； 2、获取region proposal，再对每个proposal分类计算量还是比较大。	1、提高了检测精度和速度； 2、真正实现端到端的目标检测框架； 3、生成建议框仅需约10ms。

【转载】 基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN +SSD+YOLO

Selective Search for Object Recognition----https://link.springer.com/content/pdf/10.1007%2Fs11263-013-0620-5.pdf】

9、SSD

10、YOLO

你可能感兴趣的:(物体检测)

【转载】基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN +SSD+YOLO