陶将

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD

object detection，目标检测，就是在给定图片中精确找到物体所在位置，并标注出物体的类别。所以，object detection 要解决的问题就是物体在哪里以及是什么的整个流程问题。目前最常听到的目标检测算法就是RCNN系列(RCNN-->Fast RCNN-->Faster RCNN),YOLO和SSD，正好参加的比赛中需要用到目标检测知识，所以就趁此机会整理一下。

此篇博客的目的仅仅是记录一下这几种算法，通过这篇博客，也只能了解到这几种算法是怎样的，具体细节见论文，附有各种链接。

在介绍各算法之前，先科普一下一些基础知识：

交并比(IoU)和非极大值机制(NMS)

AlexNet,VGG网络，GoogleNet网络

fine-tuning(微调)：在实践中，由于数据集不够大，很少有人能够从头开始训练数据，常见的做法是使用预训练的网络来重新fine-tuning，或者当作特征提取器。例如，使用卷积网络当作特征提取器，使用在ImageSet上预训练的网络，去掉最后的连接层，剩下的部分当作特征提取器，这样提取的特征叫做CNN codes，得到这样的特征后，使用线性分类器来分类图像。或者fine-tuning卷积网络，一般可以选择fine-tuning全部层或者部分层。通常，前面的层提取的是图像的通用特征，这些特征对很多任务都很有用，后面的层提取的特征与特定类别有关的特征，因此fine-tuning时常常只需要fine-tuning后面的层。与重新训练相比，fine-tuning要使用更小的学习率。因为训练好的网络模型权重已经平滑，我们不希望太快扭曲它们。

crop和warp: crop就是从一个大图中抠出网络输入大小的patch，比如AlexNet网络的输入大小227*227；wrap就是将一个边界框bounding box的内容resize成227*227，如下图所示，可以看到crop/warp这种预处理会使得物体要么残缺要么扭曲，很明显会影响识别精确度

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第1张图片

图1：crop/warp图例展示

Region of interest(RoI) pooling layer: RoI被广泛地应用在目标检测中，它主要是将不规则大小的输入通过最大池化(max pooling)转换成固定大小的特征图，例如H*W。在fast RCNN中，每个RoI是卷积特征图中的一个矩形框，被定义成一个四元组(r,c,w,h)，其中(r,c)表示矩形左上角的坐标，h和w则表示矩形的高度和宽度。RoI max pooling的工作流程为：首先dividing the h*w RoI window into an H*W grid of sub-windows of approximate size h/H * w/W，然后在每一个子window中取最大值并输出。例如下面的动图，对一个8*8的特征图，里面存在一个四元组表示为（0,3,5,7）的RoI（黑色实线圈起来的区域），要求输出为2*2大小，则把候选框拆分成2*2大小的网格，然后在每一个网格中取其最大值，最后得到2*2大小的输出特征

图2：RoI的计算示例

RCNN

2014年，Ross Girshick使用候选区域＋CNN代替传统目标检测使用的滑动窗口+手工设计特征，设计了R-CNN框架，使得目标检测取得了巨大突破，并开启了基于深度学习目标检测的热潮。在此，祭出RCNN的算法简要流程：

输入一张图像，利用Selective Search算法在图像中从下到上定位出大约2000左右包含物体的候选框(region proposals)
将每个候选框缩放(wrap)至相同大小227*227，并输入到CNN(AlexNet)内进行特征提取，将CNN的fc7层的输出作为特征
对候选框中提取出的特征，使用支持向量机SVM进行分类
使用Bounding-box regression进行修正候选框位置：对于每一个类，训练一个线性回归模型去判定这个框是否完美

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第2张图片

图3：RCNN架构总览

当使用Selective Search算法搜索候选框时，由于目标物体形态各异，大小不同，使得搜出的候选框矩形大小不同。如果要将这些矩形候选区域直接喂入CNN网络进行特征提取，是不可行的，因为CNN要求输入的图像的大小是固定的，所以要对候选框进行处理，使其大小符合CNN对输入图像的尺寸要求，RCNN中选择的是wrap，得到指定大小之后，提取并分类。

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第3张图片

图4：RCNN流程图

RCNN对原始图片通过Selective Search提取候选框多达2000个左右，而这2000个候选框中每个框又都需要进行CNN提取特征+SVM进行分类，计算量看着就不小呵，导致RCNN的检测速度很慢。由于提取到2000个候选框都在一张图片中，所以为何不可对图像提一次卷积层特征，然后只需要将候选框在图像中的位置映射到卷积层的特征图上，这样我们就可以对一张图像提取一次特征，然后将每个候选框的卷积层特征输入到全连接层做后续操作。

SPP

上面想法很不错，但是由于每个候选框的尺寸不一样，而且全连接层的输入要求必须固定尺度，为了解决这个问题，空间金字塔池化SPP(Spatial Pyramid Pooling)应运而生。SPP厉害之处在于对任意尺寸的图片都能够得到固定长度的输出。

在RCNN中，因为得到的候选框大小各异，因此需要将每个候选框wrap成满足CNN要求的输入大小，而且crop/wrap这种处理，多多少少都会使得图片失真，限制了识别精度。很显然的是，CNN一般包含卷积层和全连接层，其中，卷积层连接层输入的是不需要固定尺寸大小的，而全连接层则需要固定大小的输入，那么就可以在卷积层和全连接层之间加入某种结构，使得卷积层的输出特征经过这种结构之后转换成固定长度的特征，这种结构就是SPP，下图是RCNN和SPP Net的检测流程比较：

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第4张图片

图5：普通CNN和SPP网络比较

可以从图5中看到，SPP是处于卷积层和全连接层之间，目的是要将卷积层生成的特征转换成满足全连接输入的固定长度，从而避免了将图片进行crop或者warp。

SPP Net的特点有两个，一是结合空间金字塔方法实现CNN的多尺度输入。 SPP Net在普通CNN结构中加入RoI池化层，使得网络的输入图像可以是任意尺寸的，输出则是一个固定维数的向量。二是对原图提取一次卷积特征，RCNN中是先提取候选区域，然后将候选区域resize统一大小后作为CNN的输入提取特征，这种做法很是繁琐，SPP Net简化了特征提取的步骤，只对原图进行一次卷积运算，就能够得到整张图的卷积特征图，然后在特征图上找到每个候选框的映射patch，将此patch作为每个候选框的卷积特征输入SPP layer和之后的层，完成特征提取。

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第5张图片

图6：SPP

对于不同的图像要想得到相同大小的池化结果，就需要根据图像的大小动态地计算池化层窗口的大小和步长，假设第五层卷积 $conv_{5}$ 的特征图大小为a*a，需要得到n*n大小的池化结果，则池化层的滑动窗口的大小和步长分别为： $win=ceil\left ( a/n \right )$ （向上取整）, $str=floor\left ( a/n \right )$ （向下取整），如果金字塔有-level，那么就实行池化操作次，下一层的全连接层则连接这个输出作为输入。图6中，256是指 $conv_{5}$ 的过滤器的数目，池化输出结果分别是4*4,2*2和1*1，假设 $conv_{5}$ 的特征图大小为13*13，那么相对应的滑动窗口的大小和步长分别为：

$\\ win_{4}=\left \lceil 13/4 \right \rceil =4 ; str_{4} = \left \lfloor 13/4 \right \rfloor = 3 \\ win_{2}=\left \lceil 13/2 \right \rceil =7 ; str_{2} = \left \lfloor 13/2 \right \rfloor =6 \\ win_{1}=\left \lceil 13/1 \right \rceil =13 ; str_{1} = \left \lfloor 13/1 \right \rfloor = 13$

假设的特征图大小为10*10，那么相应的滑动窗口的大小和步 $conv_{5}$ 长分别为：

$\\ win_{4}=\left \lceil 10/4 \right \rceil =3 ; str_{4} = \left \lfloor 10/4 \right \rfloor = 2 \\ win_{2}=\left \lceil 10/2 \right \rceil =5 ; str_{2} = \left \lfloor 10/2 \right \rfloor = 5 \\ win_{1}=\left \lceil 10/1 \right \rceil =10 ; str_{1} = \left \lfloor 13/1 \right \rfloor = 10$

Fast RCNN

如上所述，RCNN存在很多问题，一是训练过程是multi-stage pipeline（包括特征提取，fine-tuning网络，训练SVM分类器，以及最后的bounding-box回归），二是在空间和时间上耗费过大，三是检测速度过慢。虽然使用SPP可以使得任意尺寸的输入在经过SPP池化层后转换成固定尺寸的输出，使得不是每一个候选框都经过CNN提取特征后再用SVM进行分类，而是在整张图片经过卷积运算输出特征图，特征图经过SPP结构得到固定尺寸的大小，但是即使这样，SPP结构也像RCNN是multi-stage pipeline，而且除此之外，在fine-tuning步骤，并不能更新卷积层，这也会限制了检测精度。因此，Fast RCNN在RCNN的基础上采纳了SPP方法，对R_CNN进行改进，使得性能更好。那么与R-CNN框架进行比较，Fast RCNN有哪些特点呢？一是fast RCNN在最后一个卷积层后加了ROI pooling layer，二是fast RCNN 损失函数使用了多任务损失函数，将边框回归（Bounding Box Regression）直接加入到CNN网络中训练，如下图所示：

图7：Fast RCNN

如图7所示，Fast RCNN的简要流程为：

Fast RCNN以整张图片和一系列的object proposals作为输入，经过一个卷积网络输出卷积特征图
接下来特征图中的候选框经过RoI池化层提取输出固定大小的特征向量
然后得到的特征向量作为一系列全连接层的输入，在全连接层后接上两个输出层，一输出层是K个物体类加一个背景类的softmax概率，另一姊妹输出层是K个物体类的四元组

Faster RCNN

在Fast RCNN中，仍然使用Selective Search方法进行找出所有的候选框，这个也是很耗时的操作，所以能不能使用一个更高效的方法提取候选框呢。在Faster RCNN中，引进Region Proposal Networks（RPNs）替代Selective Search提取候选框，同时引入anchor box。

Faster RCNN中包含两个模块，一个是RPN候选框提取模块，一个是Fast RCNN检测模块。Faster RCNN的简要流程：

将整张图片作为CNN的输入，提取image的特征图，该特征图被共享用于后续RPN层和全连接层
卷积特征图作为RPN网络的输入，生成候选区域。
以RPN提取的候选区域和卷积网络生成的特征图作为RoI池化层的输入，送到后续全连接层中进行判定目标

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第7张图片

图8：Faster RCNN

RPN网络是以任意尺寸的图像作为输入，然后输出目标候选矩阵框及其得分。（A Region Proposal Network(RPN) takes an image (of any size) as input and outputs a set of rectangular object proposals, each with an objectness score)。RPN的核心思想是使用CNN卷积神经网络直接产生候选框。具体操作是在CNN卷积层后增加滑动窗口操作以及两个卷积层完成候选区域提取:第一个卷积层将特征图每个滑窗位置编码成一个特征向量，使用一个小网络在最后卷积层得到的特征图中进行滑动扫描，这个小网络以特征图的n*n窗口为输入，然后映射到一个低维向量（256-d for ZF和512-d for VGG，后随ReLU); 第二个卷积层对应两个全连接层-- a box regression layer(reg layer)和a box-classification layer(cls layer)，对每个滑窗位置，输出k个候选区域的概率和候选框坐标信息。即在每个卷积映射位置输出这个位置上多种尺寸（3种）和长宽比（3种）的k个（3*3=9）区域的物体得分和回归边界。

图9：RPN

Anchors是一组大小固定的参考窗口：三种box areas $\left \{ 128^{2}, 256^{2},512^{2} \right \}\times$ 三种aspect ratio $\left \{ 1:1, 1:2, 2:1 \right \}$ ，下图表示RPN网络中每个滑窗位置所对应的原图区域中9种可能的大小，相当于模板，对任意图像任意滑窗位置都是这9种模板。根据图像大小计算滑窗中心点对应原图区域的中心点，通过中心点和size就可以得到滑窗位置和原图位置的映射关系，由此原图位置并根据Ground Truth重复率贴上正负标签，让RPN学习该Anchors是否有物体即可。对于每个滑窗位置，产生k=9个anchor对于一个大小为W*H的卷积特征图，总共产生W*H*k个anchor

图10：anchors

YOLO

YOLO算法的思想不同于上述RCNN系列的思想，它将目标算法看做一个回归问题。YOLO是一个end-to-end的网络，完成从原始图像的输入到物体位置和类别的输出。如下图所示，输入图片，经过一个卷积网络后，输出目标位置和其置信度，看似很简单的样子。YOLO的设计速度很快但是同时又能够保持较高的准确率。

图11：YOLO

YOLO算法是将输入图片划分为S*S的网格，如果有一个物体的中心是在一个grid cell中，那么这个cell就负责检测这个物体。每一个grid cell 预测B个bounding boxes及其它们的confidence score和C个类别条件概率 $Pr\left ( Class_{i}|Object \right )$ 。其中confidence score反映的是一个box包含物体的confidence和模型认为这个box预测正确的概率，定义confidence为 $Pr\left ( Object \right )*IOU_{pred}^{truth}$ ，如果一个cell中没有包含任何物体，那么confidence score是为0。在测试阶段，让类别条件概率和box confidence相乘就能得到每一个box的class-specific confidence scores， $Pr\left ( Class_{i}|Object \right ) * Pr\left ( Object \right ) * IOU_{pred}^{truth} = Pr\left ( Class_{i} \right ) * IOU_{pred}^{truth}$ ,这些score则表明出现在box里的类别的概率和这个预测的box匹配这个物体的程度估量。

每一个bounding boxes包含五个值，x,y,w,h和confidence。其中（x,y）是指当前格子预测得到的物体的bounding box的中心位置的坐标。w和h表示box相对于整张图片的比例。最后，YOLO网络最后的输出维度为S*S*(B*5+C)。

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第9张图片

图12：grid Model

虽然每个格子可以预测B个bounding box，但是训练的时候，我们仅仅只想要每类物体的一个bounding box，所以就选择与ground truth的IOU值最高的bounding box作为物体检测输出，即每个格子最多只能预测一个物体，所以就使得如果格子中包含多个物体时，只能检测出来一个。这也是YOLO的一个缺点。

YOLO使用均方和误差作为损失函数，即使用网络的输出的S*S*(B*5+C)维向量与真实图像的对应的S*S*(B*5+C)维向量的均方和误差。损失函数定义如下：包括五部分，前两部分是坐标误差，中间两部分是IOU误差，最后一部分是分类误差

在这个损失函数中，只有当某个grid cell中有object时才对classification error进行惩罚，它也只有当对某个box predictor对某个ground truth box负责时，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责则就看起预测值和ground truth box的IoU值是否在那个cell中的所有box中最大。

YOLO的网络架构是基于GoogleNet进行改进的，但是却没有借鉴GoogleNet网络中的Inception结构，而是使用1*1卷积层+3*3卷积层，网络总共包括24个卷积层和2个全连接层，网络的卷积层用来提取图像中的特征，全连接层用来预测目标输出概率和坐标。

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第10张图片

图13：YOLO网络架构

SSD

Faster RCNN拥有较高的准确率，YOLO速度较快，而SSD算法的运行速度要比YOLO要快，同时准确率却能和Faster RCNN相媲美。SSD算法的核心是在特征图上使用小卷积核来预测固定尺寸default bounding boxes的类别分数和偏移量；为了提高准确率，SSD在不同大小的特征图上进行预测，通过纵横比分开预测。这些改进设计，实现了end-to-end训练并且保证较高的准确率，即是在低分辨率的图片上也能够保持高精度，further imporving the speed vs accuracy trade-off。

SSD基于前馈卷积网络，对于boxes里面的目标物体实例，产生一个固定尺寸的bounding boxes的集合和分数，紧接着跟随一个非极大值抑制NMS去做最后的检测。前期的网络是一个由高质量图片分类的标准网络，被称为base network。在base network之后添加额外的网络结构，如下图所示：

Multi-scale feature maps for detection：在base network后增加卷积层，这些卷积层按照大小递减的次序连接，能够进行多尺寸预测
Convolutional predictiors for detection: 在每一个添加的卷积层（或者在base network中已经存在的卷积层），可以使用一系列的卷积核产生一系列固定大小的detection predictions。对于一个大小为m*n，具有p个通道的特征层，使用3*3*p大小的小kernel，要么生成一个类别的score，要么是相对于default box坐标的shape offsets。
Default boxes and aspect ratios：每一个box相对于与其对应的feature map cell的位置是固定的。在每一个feature map cell中，我们预测box与cell中default box之间的offset，以及每一个box中包含物体的score。因此，对于一个位置上的k个boxes中的每一个box，预测C个类别得分score，以及相对于default bounding box的4个偏移量，这样就需要(c+4)*k个filters，在m*n的特征图上将产生(c+4)*k*m*n个输出结果。

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD_第11张图片

图14：SSD

feature map cell 就是将feature map划分成8*8或者4*4大小的格子，如下图（b）中的8*8和（c）中的4*4。default box类似于faster RCNN中anchors，是每一个格子上一些列固定大小的box，如下图中虚框所示，对每一个默认的方框，预测形状的偏移和所有物体分类的置信度。

至此，已经能大略知道各个算法基本思想，下图是对各个算法的简要总结。

参考文献：

[1]. Rich feature hierarchies for accurate object detection and semantic segmentation tech report (R-CNN)

[2]. Fast R-CNN (Fast R-CNN)

[3]. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks (Faster R-CNN)

[4]. You Only Look Once: Unified, Real-Time Object Detection (YOLO)

[5]. SSD: Single Shot MultiBox Detector (SSD)

[6]. 一文读懂目标检测：R-CNN,Fast R-CNN,Faster R-CNN,YOLO,SSD

[7]. RCNN,Fast RCNN, Faster RCNN总结

[8]. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPP）

[9]. https://deepsense.ai/region-of-interest-pooling-explained/ (RoI)

[10]. Faster R-CNN论文笔记-FR

[11]. 论文阅读笔记：You Only Look Once：Unified，Real-Time Object Detection

[12]. 论文阅读：SSD：Single Shot MultiBox Detector

OpenCV中常用特征提取算法（SURF、ORB、SIFT和AKAZE）用法示例（C++和Python）点云SLAM 图形图像处理 opencv 算法 ORB算法 SIFT算法 SURF算法 AKAZE算法计算机视觉
OpenCV中提供了多种常用的特征提取算法，广泛应用于图像匹配、拼接、SLAM、物体识别等任务。以下是OpenCV中几个主流特征提取算法的用法总结与代码示例，涵盖C++和Python两个版本。常用特征提取算法列表算法特点是否需额外模块SIFT（尺度不变特征）稳定性强、可旋转缩放xfeatures2d模块SURF（加速稳健特征）快速但专利保护xfeatures2d模块ORB（OrientedFAST
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
【人工智能之深度学习】6. 卷积核工作原理：从边缘检测到特征抽象的逐层演进（附可视化工具与行业实战代码） AI_DL_CODE 人工智能深度学习卷积核特征提取卷积神经网络边缘检测特征可视化
摘要：卷积核是卷积神经网络（CNN）的核心组件，其通过局部感受野与参数共享机制实现高效特征提取。本文从数学本质出发，揭示卷积操作的空域-频域对偶性：空域卷积等价于频域乘积（F{f∗g}=F{f}⋅F{g}F\{f*g\}=F\{f\}⋅F\{g\}F{f∗g}=F{f}⋅F{g}），解释边缘检测核（Sobel、Laplacian）的频域响应特性。通过特征可视化实验表明，CNN特征呈现逐层抽象规律：
脱岗离岗逃岗监测识别软件系统平台标检测算法#YOLO
值班脱岗智能监测识别系统是一种利用AI视频智能分析技术的智能化系统，能够对办公工作岗位区域、岗亭、值班室、生产线岗位等进行7*24小时不间断实时监测。该系统的出现，有助于提高工作效率，确保工作秩序的正常运行，同时也能有效避免值班人员脱岗、懈怠等现象的发生。该系统的工作原理是通过高清摄像头捕捉实时画面，然后利用AI视频智能分析技术对画面进行实时分析，识别出是否有人脱岗、懈怠或者有其他异常情况发生。当
颠覆未来：创新代码引领人工智能与量子计算深度融合金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能量子计算
摘要在信息时代飞速演进的背景下，人工智能与量子计算正以前所未有的速度互相融合，推动着科技边界的不断拓展。本文回顾了经典算法的智慧，展示了前沿深度学习模型的构建，并通过量子电路设计探讨了创新代码的可能性，为探索未来科技变革提供了全新视角。1.引言当前，科技创新正处于高速迭代的关键阶段，传统计算方法与新型技术的交汇处正成为研究热点。人工智能的发展已渗透到各行各业，而量子计算的崛起则为解决复杂计算问题提
使用UV管理PyTorch项目
PyTorch是深度学习研究和开发的流行选择。可以使用uv管理PyTorch项目，包括不同Python版本依赖、管理环境、甚至加速器选择等。安装Pytorch从打包角度来看，PyTorch有几个不常见的特点：许多PyTorchwheel托管在专门的索引上，而非Python包索引（PyPI）。因此，安装PyTorch通常需要配置项目使用PyTorch专属索引。PyTorch为每种加速器生成不同的构建
YOLOv5改进策略|YOLOv5 ⾃主检查和跟踪相关的任务|基于视觉的⽆⼈⽔⾯舰艇⾃主导航极端海洋条件斌擎人工智能官方账号 YOLO 人工智能 YOLOv5 目标检测计算机视觉深度学习自主导航
目录介绍解决方案目标检测的视觉结论视觉感知是无人水面舰艇(USV)自主导航的重要组成部分，特别是与自主检查和跟踪相关的任务。这些任务涉及基于视觉的导航技术来识别导航目标。海洋环境中极端天气条件下的能⻅度降低使得基于视觉的方法难以正常工作。为了克服这些问题，本文提出了一种基于视觉的自主导航框架，用于在极端海洋条件下跟踪目标物体。所提出的框架由一个集成感知管道组成，该管道使用生成对抗网络(GAN)来消
STM32硬件I2C驱动0.96寸OLED屏幕
0.96寸OLED屏幕0.96寸：屏幕对角线长0.96英寸驱动：SSD1306驱动IC，驱动芯片内置128*64的SRAM存储器，用于缓存要显示的数据分辨率：128*64（横128，竖64）供电：3.3V（驱动内部内置升压电路，会将3.3升到7），需要与stm32共地（GND接在stm32上）针脚：4脚（GND、VCC、SCL、SDA）从机地址：0x78指令操作前缀：先发0x00表示后面的内容是对
AI新纪元：2025年深度学习技术突破与行业应用全景像素笔记杂谈人工智能深度学习 ai 自动驾驶工业数字化转型未来趋势技术创新
2025年，人工智能技术迎来爆发式增长，大模型、生成式AI和多模态技术持续突破，人形机器人量产元年正式开启，自动驾驶商业化进程加速，工业数字化转型全面铺开。这些进展不仅重塑了技术边界，更在多个行业创造了实际价值，推动AI从实验室走向产业化。本文将深入剖析2025年深度学习与AI领域的核心技术突破、行业应用案例及未来发展趋势，为技术从业者提供全面视角。一、深度学习核心技术突破：大模型、生成式AI与多
3步实现安防高精度检测：陌讯算法夜间监控落地实战 2501_92474745 目标跟踪人工智能计算机视觉算法目标检测视觉检测
开篇痛点：安防监控系统在实时目标检测中常面临严峻挑战。实测数据显示，传统算法在低光、遮挡或动态场景下，泛化能力不足，导致平均误报率高达15%（数据来源：安防行业报告）。尤其在夜间或拥挤环境下，系统卡顿、漏检频发，不仅降低响应效率，还增加安全隐患。例如，某城市交通监控中心反馈，其开源模型在高密度人流中出现每秒帧率（FPS）骤降至20帧以下，引发报警延迟问题。这些问题根源在于算法鲁棒性和实时性不足，亟
模型移植实战：从PyTorch到ONNX完整指南慕婉0307 神经网络 pytorch 人工智能 python
一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题。ONNX的主要优势包括：跨框架兼容性：支持主流深度学习框架间的模型转换，包括PyTorch、TensorFlow、MXNet、CNTK等例如，可以将PyTorch训练的ResNet模型导
雨天障碍物漏检？陌讯多模态算法实测 98% 准确率 2501_92474711 算法目标跟踪人工智能计算机视觉
开篇痛点：自动驾驶视觉系统的“暗礁”在自动驾驶感知层，路面障碍物识别堪称“生命线工程”。传统视觉算法在复杂场景下常面临三重困境：雨天水雾导致特征模糊时漏检率高达25%，逆光环境下小目标（如碎石、井盖）检出率不足60%，而追求高精度又会导致帧率跌破20FPS，难以满足实时性要求[1]。某车企实测数据显示，传统YOLOv8在城郊混合路况中，因障碍物识别延迟引发的决策偏差占测试事故的37%，这些问题成为
Python FastAPI 与传统 Web 框架的性能对比 Python编程之道 python fastapi 前端 ai
PythonFastAPI与传统Web框架的性能对比关键词：FastAPI、性能对比、Web框架、异步编程、Python、Django、Flask摘要：本文深入探讨了FastAPI与传统PythonWeb框架（如Django和Flask）在性能方面的差异。我们将从架构设计、请求处理模型、并发能力等多个维度进行对比分析，并通过基准测试数据展示实际性能差异。文章还将提供代码示例和性能优化建议，帮助开发
监控漏检频发？陌讯YOLOv7实时优化方案召回率提升25% 2501_92489016 目标跟踪人工智能计算机视觉算法目标检测视觉检测智慧城市
一、开篇痛点在安防监控领域，传统目标检测模型面临三重困境：实时性差：1080P视频流处理普遍低于20FPS（VGG16仅15FPS）漏检率高：密集场景下小目标召回率常低于60%（COCO-val实测数据）部署成本高：ResNet-101需8GB显存，难以边缘化部署某智慧园区项目显示：夜间误报率高达34%，运维成本激增300%二、技术解析：陌讯SlimYOLO架构创新针对上述痛点，陌讯视觉算法提出三
TensorFlow GPU 2.10.1 for Python 3.9快速安装指南疑样
本文还有配套的精品资源，点击获取简介：TensorFlowGPU2.10.1是专为Windowsx64和Python3.9设计的TensorFlow版本，它集成了GPU支持以加快深度学习模型的训练。本指南提供了该版本的概述、安装步骤及注意事项，旨在帮助开发者利用其性能优势提升机器学习项目的效率。1.TensorFlowGPU介绍1.1TensorFlow的起源与功能TensorFlow是由Goog
XSS的介绍 lq_ioi_pl xss 前端
目录XSS的原理反射型XSSDOM型XSS存储型XSS常见的XSSPayloadXSS的原理XSS全称跨站脚本(CrossSiteScripting)，为避免与层叠样式表(CascadingStyleSheets,CSS)的缩写混淆，故缩写为XSS。这是一种将任意Javascript代码插入到其他Web用户页面中执行以达到攻击目的的漏洞。攻击者利用浏览器的动态展示数据功能，在HTML页面里嵌入恶意
进阶向:基于Python的智能客服系统设计与实现
智能客服系统开发指南系统概述智能客服系统是人工智能领域的重要应用，它通过自然语言处理(NLP)和机器学习技术自动化处理用户查询，显著提升客户服务效率和响应速度。基于Python的实现方案因其丰富的生态系统（如NLTK、spaCy、Transformers等库）、跨平台兼容性以及易于集成的特点，成为开发智能客服系统的首选。系统架构系统核心包括两个主要功能模块：1.API集成模块负责连接各类外部服务，
Django Ninja 言之。 python django python 后端
DjangoNinja是一个用于Django框架的快速、现代化的API开发库，旨在简化构建高性能、类型安全的RESTfulAPI。它受到FastAPI的启发，结合了Django的强大功能和FastAPI的简洁与现代化设计，特别适合需要快速开发、易于维护且具有强类型支持的API项目。以下是对DjangoNinja的详细介绍，涵盖其核心特质、功能、设计理念以及使用场景，力求提供深刻而本质的洞察。1.D
机器学习专栏（62）：手把手实现工业级ResNet-34及调优全攻略
目录一、ResNet革命性突破解析1.1残差学习核心思想1.2ResNet-34结构详解二、工业级Keras实现详解2.1数据预处理流水线2.2完整模型实现三、模型训练调优策略3.1学习率动态调整3.2混合精度训练四、性能优化技巧4.1分布式训练配置4.2TensorRT推理加速五、实战应用案例5.1医疗影像分类5.2工业质检系统六、模型可视化分析6.1特征热力图6.2参数量分析七、常见问题解决方
头盔识别误报率高？陌讯YOLOv7优化方案实测准确率达99%！
开篇痛点：算法失效的致命时刻在智慧交通领域，电动车头盔识别长期面临三大痛点：漏检危机：行人遮挡、雨天反光导致传统算法漏检率高达15%（某头部车企实测数据）误报泛滥：相似物体（背包、安全帽）误识别率超20%实时性缺陷：开源模型在1080P视频流中处理延时＞200ms，无法满足实时预警需求技术解析：陌讯算法三重创新架构graphTDA[双路输入]-->B[多尺度特征融合模块]B-->C[空间注意力机制
模式识别与机器学习课程笔记（1）：数学基础 Ro Jace 学习笔记机器学习笔记人工智能
模式识别与机器学习课程笔记（1）：数学基础特征矢量和特征空间随机矢量的描述随机矢量的分布函数随机矢量的数字特征随机变量、随机矢量间的统计关系随机矢量的变换正态分布正态分布的定义正态分布随机矢量的性质离散随机矢量及其分布信息论矩阵微分法基本知识矢量或矩阵对于数量变量的微分二、数量函数对于矢量的微分三、矢量函数对于矢量的微分特征矢量和特征空间特征量的类型：物理量、次序量、名义量物理量：直接反映特征的实
回归损失函数2 ： HUber loss,Log Cosh Loss,以及 Quantile Loss
均方误差（MeanSquareError,MSE）和平均绝对误差（MeanAbsoluteError,MAE)是回归中最常用的两个损失函数，但是其各有优缺点。为了避免MAE和MSE各自的优缺点，在FasterR-CNN和SSD中使用SmoothL1SmoothL1损失函数，当误差在[−1,1][−1,1]之间时，SmoothL1SmoothL1损失函数近似于MSE，能够快速的收敛；在其他的区间则近
深度学习方法生成抓取位姿与6D姿态估计的完整实现 ZPC8210 ROS 深度学习人工智能
如何将GraspNet等深度学习模型与6D姿态估计集成到ROS2和MoveIt中，实现高精度的机器人抓取系统。1.系统架构text[RGB-D传感器]→[物体检测与6D姿态估计]→[GraspNet抓取位姿生成]→[MoveIt运动规划]→[执行抓取]2.环境配置2.1安装依赖bash#安装PyTorch(根据CUDA版本选择)pip3installtorchtorchvisiontorchaud
监控漏检率 30%？陌讯多模态算法实测优化
破解智慧城市视觉算法困境：陌讯多模态融合技术实战解析在智慧城市建设中，视觉算法作为感知层核心技术，正面临着日益严峻的挑战。传统目标检测算法在暴雨、逆光、遮挡等复杂环境下，漏检率常高达25%-40%，直接导致交通违章误判、异常事件漏报等问题。某新一线城市交管部门曾反馈，现有系统对无牌车的识别准确率不足65%，严重影响执法效率[实测数据来源]。这些痛点的核心在于传统单模态算法难以应对城市环境的动态变化
智慧城管新突破：陌讯动态量化技术实现端侧模型压缩20倍 2501_92487735 目标跟踪人工智能计算机视觉算法目标检测视觉检测边缘计算
开篇痛点深夜暴雨中的违规占道经营检测误报率超60%，光照反射干扰导致传统YOLOv5召回率暴跌——这是某省会城市智慧城管项目的真实困境。当算法工程师面对复杂城市场景时，环境干扰、小目标密集、实时性要求构成三重技术难关。技术解析：陌讯自适应多模态架构传统单阶段检测器在雨天场景失效的核心原因，在于固定感受野难以适应尺度突变目标。陌讯算法引入动态梯度调制机制，通过特征金字塔的跨层权重自适应调整，显著提升
河道污染难溯源？3步搭建陌讯实时目标检测系统 2501_92472966 目标检测人工智能计算机视觉算法视觉检测
开篇痛点「凌晨3点水泵房渗漏报警，运维人员冒雨排查却是一场误判」——这是某水务企业技术总监向我吐槽的真实案例。在智慧水务场景中，传统视觉算法面临三大死穴：水体反光干扰、微小目标漏检、边缘设备算力受限。尤其当暴雨导致水体浑浊时，OpenCV边缘检测的误报率可达35%以上。技术解析：陌讯多模态融合架构为解决复杂环境泛化问题，陌讯视觉算法提出FMT-Net（FusionMultimodalTransfo
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
6+，基于免疫原性细胞死亡的非肿瘤分型文章，投稿到接收仅一个多月，肿瘤的热点已经传导至非肿瘤生信文章中！生信小课堂
影响因子：6.147本文从投稿到接收仅一个多月关于非肿瘤生信，我们也解读过很多，主要有以下类型1单个疾病WGCNA+PPI分析筛选hub基因。2单个疾病结合免疫浸润，热点基因集，机器学习，分子分型等。3两种相关疾病联合分析，包括非肿瘤结合非肿瘤，非肿瘤结合肿瘤或者非肿瘤结合泛癌分析目前非肿瘤生信发文的门槛较低，有需要的朋友欢迎交流！研究概述：脑卒中是世界上死亡和残疾的主要原因之一，缺血性中风占80
linux + 宝塔面板部署 django网站启动方式:uwsgi 和gunicorn如何选择 ?
启动方式:uwsgi和gunicorn如何选择?项目uWSGIGunicorn协议uWSGI协议（可用HTTP/socket）HTTP协议启动方式命令或.ini配置文件命令参数或systemd配置兼容框架支持WSGI、uWSGI、FastCGI等仅支持WSGI性能高性能、极可调高性能、默认参数也够用配置复杂度❌比较复杂✅配置简单社区活跃⭐停滞不前，主作者不活跃⭐⭐活跃，现代化持续维护热部署支持✅支
多线程编程之存钱与取钱周凡杨 java thread 多线程存钱取钱
生活费问题是这样的：学生每月都需要生活费，家长一次预存一段时间的生活费，家长和学生使用统一的一个帐号，在学生每次取帐号中一部分钱，直到帐号中没钱时通知家长存钱，而家长看到帐户还有钱则不存钱，直到帐户没钱时才存钱。问题分析：首先问题中有三个实体，学生、家长、银行账户，所以设计程序时就要设计三个类。其中银行账户只有一个，学生和家长操作的是同一个银行账户，学生的行为是
java中数组与List相互转换的方法征客丶 JavaScript java jsonp
1.List转换成为数组。（这里的List是实体是ArrayList) 　　调用ArrayList的toArray方法。　　toArray 　　public T[] toArray(T[] a)返回一个按照正确的顺序包含此列表中所有元素的数组；返回数组的运行时类型就是指定数组的运行时类型。如果列表能放入指定的数组，则返回放入此列表元素的数组。否则，将根据指定数组的运行时类型和此列表的大小分
Shell 流程控制 daizj 流程控制 if else while case shell
Shell 流程控制和Java、PHP等语言不一样，sh的流程控制不可为空，如(以下为PHP流程控制写法)： <?php if(isset($_GET["q"])){ search(q);}else{// 不做任何事情} 在sh/bash里可不能这么写，如果else分支没有语句执行，就不要写这个else，就像这样 if else if if 语句语
Linux服务器新手操作之二周凡杨 Linux 简单操作
1.利用关键字搜寻Man Pages man -k keyword 其中-k 是选项，keyword是要搜寻的关键字如果现在想使用whoami命令，但是只记住了前3个字符who，就可以使用 man -k who来搜寻关键字who的man命令 [haself@HA5-DZ26 ~]$ man -k
socket聊天室之服务器搭建朱辉辉33 socket
因为我们做的是聊天室，所以会有多个客户端，每个客户端我们用一个线程去实现，通过搭建一个服务器来实现从每个客户端来读取信息和发送信息。我们先写客户端的线程。 public class ChatSocket extends Thread{ Socket socket; public ChatSocket(Socket socket){ this.sock
利用finereport建设保险公司决策分析系统的思路和方法老A不折腾 finereport 金融保险分析系统报表系统项目开发
决策分析系统呈现的是数据页面，也就是俗称的报表，报表与报表间、数据与数据间都按照一定的逻辑设定，是业务人员查看、分析数据的平台，更是辅助领导们运营决策的平台。底层数据决定上层分析，所以建设决策分析系统一般包括数据层处理（数据仓库建设）。项目背景介绍通常，保险公司信息化程度很高，基本上都有业务处理系统（像集团业务处理系统、老业务处理系统、个人代理人系统等）、数据服务系统（通过
始终要页面在ifream的最顶层林鹤霄
index.jsp中有ifream，但是session消失后要让login.jsp始终显示到ifream的最顶层。。。始终没搞定，后来反复琢磨之后，得到了解决办法，在这儿给大家分享下。。 index.jsp--->主要是加了颜色的那一句 <html> <iframe name="top" ></iframe> <ifram
MySQL binlog恢复数据 aigo mysql
1，先确保my.ini已经配置了binlog： # binlog log_bin = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.log log_bin_index = D:/mysql-5.6.21-winx64/log/binlog/mysql-bin.index log_error = D:/mysql-5.6.21-win
OCX打成CBA包并实现自动安装与自动升级 alxw4616 ocx cab
近来手上有个项目,需要使用ocx控件 (ocx是什么? http://baike.baidu.com/view/393671.htm) 在生产过程中我遇到了如下问题. 1. 如何让 ocx 自动安装? a) 如何签名? b) 如何打包? c) 如何安装到指定目录? 2.
Hashmap队列和PriorityQueue队列的应用百合不是茶 Hashmap队列 PriorityQueue队列
HashMap队列已经是学过了的,但是最近在用的时候不是很熟悉,刚刚重新看以一次, HashMap是K,v键 ,值 put()添加元素 //下面试HashMap去掉重复的 package com.hashMapandPriorityQueue; import java.util.H
JDK1.5 returnvalue实例 bijian1013 java thread java多线程 returnvalue
Callable接口：返回结果并且可能抛出异常的任务。实现者定义了一个不带任何参数的叫做 call 的方法。 Callable 接口类似于 Runnable，两者都是为那些其实例可能被另一个线程执行的类设计的。但是 Runnable 不会返回结果，并且无法抛出经过检查的异常。 ExecutorService接口方
angularjs指令中动态编译的方法(适用于有异步请求的情况) 内嵌指令无效 bijian1013 JavaScript AngularJS
在directive的link中有一个$http请求，当请求完成后根据返回的值动态做element.append('......');这个操作，能显示没问题，可问题是我动态组的HTML里面有ng-click，发现显示出来的内容根本不执行ng-click绑定的方法！
【Java范型二】Java范型详解之extend限定范型参数的类型 bit1129 extend
在第一篇中，定义范型类时，使用如下的方式： public class Generics<M, S, N> { //M,S,N是范型参数 } 这种方式定义的范型类有两个基本的问题： 1. 范型参数定义的实例字段，如private M m = null;由于M的类型在运行时才能确定，那么我们在类的方法中，无法使用m，这跟定义pri
【HBase十三】HBase知识点总结 bit1129 hbase
1. 数据从MemStore flush到磁盘的触发条件有哪些？ a.显式调用flush，比如flush 'mytable' b.MemStore中的数据容量超过flush的指定容量，hbase.hregion.memstore.flush.size,默认值是64M 2. Region的构成是怎么样？ 1个Region由若干个Store组成
服务器被DDOS攻击防御的SHELL脚本 ronin47
mkdir /root/bin vi /root/bin/dropip.sh #!/bin/bash/bin/netstat -na|grep ESTABLISHED|awk ‘{print $5}’|awk -F:‘{print $1}’|sort|uniq -c|sort -rn|head -10|grep -v -E ’192.168|127.0′|awk ‘{if($2!=null&a
java程序员生存手册-craps 游戏-一个简单的游戏 bylijinnan java
import java.util.Random; public class CrapsGame { /** * *一个简单的赌*博游戏，游戏规则如下： *玩家掷两个骰子，点数为1到6，如果第一次点数和为7或11，则玩家胜， *如果点数和为2、3或12，则玩家输， *如果和为其它点数，则记录第一次的点数和，然后继续掷骰，直至点数和等于第一次掷出的点
TOMCAT启动提示NB: JAVA_HOME should point to a JDK not a JRE解决开窍的石头 JAVA_HOME
当tomcat是解压的时候，用eclipse启动正常，点击startup.bat的时候启动报错; 报错如下： The JAVA_HOME environment variable is not defined correctly This environment variable is needed to run this program NB: JAVA_HOME shou
[操作系统内核]操作系统与互联网 comsci 操作系统
我首先申明：我这里所说的问题并不是针对哪个厂商的，仅仅是描述我对操作系统技术的一些看法操作系统是一种与硬件层关系非常密切的系统软件，按理说，这种系统软件应该是由设计CPU和硬件板卡的厂商开发的，和软件公司没有直接的关系，也就是说，操作系统应该由做硬件的厂商来设计和开发
富文本框ckeditor_4.4.7 文本框的简单使用支持IE11 cuityang 富文本框
<html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" /> <title>知识库内容编辑</tit
Property null not found darrenzhu datagrid Flex Advanced propery null
When you got error message like "Property null not found ***", try to fix it by the following way: 1)if you are using AdvancedDatagrid, make sure you only update the data in the data prov
MySQl数据库字符串替换函数使用 dcj3sjt126com mysql 函数替换
需求：需要将数据表中一个字段的值里面的所有的 . 替换成 _ 原来的数据是 site.title site.keywords .... 替换后要为 site_title site_keywords 使用的SQL语句如下： updat
mac上终端起动MySQL的方法 dcj3sjt126com mysql mac
首先去官网下载: http://www.mysql.com/downloads/ 我下载了5.6.11的dmg然后安装,安装完成之后..如果要用终端去玩SQL.那么一开始要输入很长的:/usr/local/mysql/bin/mysql 这不方便啊,好想像windows下的cmd里面一样输入mysql -uroot -p1这样...上网查了下..可以实现滴. 打开终端,输入: 1
Gson使用一（Gson） eksliang json gson
转载请出自出处：http://eksliang.iteye.com/blog/2175401 一.概述从结构上看Json，所有的数据（data）最终都可以分解成三种类型：第一种类型是标量（scalar），也就是一个单独的字符串（string）或数字（numbers），比如"ickes"这个字符串。第二种类型是序列（sequence），又叫做数组（array）
android点滴4 gundumw100 android
Android 47个小知识 http://www.open-open.com/lib/view/open1422676091314.html Android实用代码七段（一） http://www.cnblogs.com/over140/archive/2012/09/26/2611999.html http://www.cnblogs.com/over140/arch
JavaWeb之JSP基本语法 ihuning javaweb
目录 JSP模版元素 JSP表达式 JSP脚本片断 EL表达式 JSP注释特殊字符序列的转义处理如何查找JSP页面中的错误 JSP模版元素 JSP页面中的静态HTML内容称之为JSP模版元素，在静态的HTML内容之中可以嵌套JSP
App Extension编程指南（iOS8/OS X v10.10）中文版啸笑天 ext
当iOS 8.0和OS X v10.10发布后，一个全新的概念出现在我们眼前，那就是应用扩展。顾名思义，应用扩展允许开发者扩展应用的自定义功能和内容，能够让用户在使用其他app时使用该项功能。你可以开发一个应用扩展来执行某些特定的任务，用户使用该扩展后就可以在多个上下文环境中执行该任务。比如说，你提供了一个能让用户把内容分
SQLServer实现无限级树结构 macroli oracle sql SQL Server
表结构如下：数据库id path titlesort 排序 1 0 首页 0 2 0,1 新闻 1 3 0,2 JAVA 2 4 0,3 JSP 3 5 0,2,3 业界动态 2 6 0,2,3 国内新闻 1 创建一个存储过程来实现，如果要在页面上使用可以设置一个返回变量将至传过去 create procedure test as begin decla
Css居中div，Css居中img，Css居中文本，Css垂直居中div qiaolevip 众观千象学习永无止境每天进步一点点 css
/**********Css居中Div**********/ div.center { width: 100px; margin: 0 auto; } /**********Css居中img**********/ img.center { display: block; margin-left: auto; margin-right: auto; }
Oracle 常用操作(实用) 吃猫的鱼 oracle
SQL>select text from all_source where owner=user and name=upper('&plsql_name'); SQL>select * from user_ind_columns where index_name=upper('&index_name'); 将表记录恢复到指定时间段以前
iOS中使用RSA对数据进行加密解密 witcheryne ios rsa iPhone objective c
RSA算法是一种非对称加密算法,常被用于加密数据传输.如果配合上数字摘要算法, 也可以用于文件签名. 本文将讨论如何在iOS中使用RSA传输加密数据. 本文环境 mac os openssl-1.0.1j, openssl需要使用1.x版本, 推荐使用[homebrew](http://brew.sh/)安装. Java 8 RSA基本原理 RS

目标检测算法RCNN,Fast RCNN,Faster RCNN,YOLO和SSD

RCNN

SPP

Fast RCNN

Faster RCNN

YOLO

SSD

你可能感兴趣的:(目标检测,机器学习,深度学习,机器学习和深度学习之旅,RCNN,Fast,RCNN,Faster,RCNN,YOLO,SSD)