小白aaa

fasterRCNN系列

在介绍Faster R-CNN之前，先来介绍一些前验知识，为Faster R-CNN做铺垫。

一、基于Region Proposal（候选区域）的深度学习目标检测算法

Region Proposal（候选区域），就是预先找出图中目标可能出现的位置，通过利用图像中的纹理、边缘、颜色等信息，保证在选取较少窗口（几千个甚至几百个）的情况下保持较高的召回率（IoU，Intersection-over-Union）。

图1 IoU定义

Region Proposal方法比传统的滑动窗口方法获取的质量要更高。比较常用的Region Proposal方法有：SelectiveSearch(SS，选择性搜索)、Edge Boxes（EB）。

基于Region Proposal目标检测算法的步骤如下：

其中：

CNN方法见http://blog.csdn.net/qq_17448289/article/details/52850223。

边框回归（Bouding Box Regression）：是对RegionProposal进行纠正的线性回归算法，目的是为了让Region Proposal提取到的窗口与目标窗口（Ground Truth）更加吻合。

二、R-CNN、Fast R-CNN、Faster R-CNN三者关系

图2 三者关系

表1 三者比较

使用方法

缺点

改进

R-CNN

(Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、SVM分类；

4、BB盒回归。

1、训练步骤繁琐（微调网络+训练SVM+训练bbox）；

2、训练、测试均速度慢；

3、训练占空间

1、从DPM HSC的34.3%直接提升到了66%（mAP）；

2、引入RP+CNN

Fast R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、softmax分类；

4、多任务损失函数边框回归。

1、依旧用SS提取RP(耗时2-3s，特征提取耗时0.32s)；

2、无法满足实时应用，没有真正实现端到端训练测试；

3、利用了GPU，但是区域建议方法是在CPU上实现的。

1、由66.9%提升到70%；

2、每张图像耗时约为3s。

Faster R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、RPN提取RP；

2、CNN提取特征；

3、softmax分类；

4、多任务损失函数边框回归。

1、还是无法达到实时检测目标；

2、获取region proposal，再对每个proposal分类计算量还是比较大。

1、提高了检测精度和速度；

2、真正实现端到端的目标检测框架；

3、生成建议框仅需约10ms。

2.1 R-CNN目标检测流程介绍

具体可参考http://blog.csdn.net/shenxiaolu1984/article/details/51066975

2.2 Fast R-CNN目标检测流程介绍

注意：Fast R-CNN的RegionProposal是在feature map之后做的，这样可以不用对所有的区域进行单独的CNN Forward步骤。

Fast R-CNN框架如下图：

图3 Fast R-CNN框架

Fast R-CNN框架与R-CNN有两处不同：

① 最后一个卷积层后加了一个ROI pooling layer；

② 损失函数使用了multi-task loss（多任务损失）函数，将边框回归直接加到CNN网络中训练。分类Fast R-CNN直接用softmax替代R-CNN用的SVM进行分类。

Fast R-CNN是端到端（end-to-end）的。

具体可参考http://blog.csdn.net/shenxiaolu1984/article/details/51036677

三、Faster R-CNN目标检测

3.1 Faster R-CNN的思想

Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统，用区域生成网络代替FastR-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题：
1. 如何设计区域生成网络；
2. 如何训练区域生成网络；
3. 如何让区域生成网络和Fast RCNN网络共享特征提取网络。

在整个Faster R-CNN算法中，有三种尺度：
1. 原图尺度：原始输入的大小。不受任何限制，不影响性能。

2. 归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。
3. 网络输入尺度：输入特征检测网络的大小，在训练时设置，源码中为224*224。

3.2 Faster R-CNN框架介绍

图4 Faster R-CNN模型

Faster-R-CNN算法由两大模块组成：

1.PRN候选框提取模块；

2.Fast R-CNN检测模块。

其中，RPN是全卷积神经网络，用于提取候选框；Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

3.3 RPN介绍

3.3.1背景

目前最先进的目标检测网络需要先用区域建议算法推测目标位置，像SPPnet和Fast R-CNN这些网络虽然已经减少了检测网络运行的时间，但是计算区域建议依然耗时较大。所以，在这样的瓶颈下，RBG和Kaiming He一帮人将Region Proposal也交给CNN来做，这才提出了RPN（Region Proposal Network）区域建议网络用来提取检测区域，它能和整个检测网络共享全图的卷积特征，使得区域建议几乎不花时间。

RCNN解决的是，“为什么不用CNN做classification呢？”

Fast R-CNN解决的是，“为什么不一起输出bounding box和label呢？”

Faster R-CNN解决的是，“为什么还要用selective search呢？”

3.3.2RPN核心思想

RPN的核心思想是使用CNN卷积神经网络直接产生Region Proposal，使用的方法本质上就是滑动窗口（只需在最后的卷积层上滑动一遍），因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。

RPN网络也是全卷积网络（FCN，fully-convolutional network），可以针对生成检测建议框的任务端到端地训练，能够同时预测出object的边界和分数。只是在CNN上额外增加了2个卷积层（全卷积层cls和reg）。

①将每个特征图的位置编码成一个特征向量（256dfor ZF and 512d for VGG）。

②对每一个位置输出一个objectness score和regressedbounds for k个region proposal，即在每个卷积映射位置输出这个位置上多种尺度（3种）和长宽比（3种）的k个（3*3=9）区域建议的物体得分和回归边界。

RPN网络的输入可以是任意大小（但还是有最小分辨率要求的，例如VGG是228*228）的图片。如果用VGG16进行特征提取，那么RPN网络的组成形式可以表示为VGG16+RPN。

VGG16：参考

https://github.com/rbgirshick/py-faster-rcnn/blob/master/models/pascal_voc/VGG16/faster_rcnn_end2end/train.prototxt，可以看出VGG16中用于特征提取的部分是13个卷积层（conv1_1---->conv5.3），不包括pool5及pool5后的网络层次结构。

因为我们的最终目标是和Fast R-CNN目标检测网络共享计算，所以假设这两个网络共享一系列卷积层。在论文的实验中，ZF有5个可共享的卷积层， VGG有13个可共享的卷积层。

RPN的具体流程如下：使用一个小网络在最后卷积得到的特征图上进行滑动扫描，这个滑动网络每次与特征图上n*n（论文中n=3）的窗口全连接（图像的有效感受野很大，ZF是171像素，VGG是228像素），然后映射到一个低维向量（256d for ZF / 512d for VGG），最后将这个低维向量送入到两个全连接层，即bbox回归层（reg）和box分类层（cls）。sliding window的处理方式保证reg-layer和cls-layer关联了conv5-3的全部特征空间。

reg层：预测proposal的anchor对应的proposal的（x,y,w,h）

cls层：判断该proposal是前景（object）还是背景（non-object）。

图5 RPN框架

在图5中，要注意，3*3卷积核的中心点对应原图（re-scale，源代码设置re-scale为600*1000）上的位置（点），将该点作为anchor的中心点，在原图中框出多尺度、多种长宽比的anchors。所以，anchor不在conv特征图上，而在原图上。对于一个大小为H*W的特征层，它上面每一个像素点对应9个anchor,这里有一个重要的参数feat_stride = 16，它表示特征层上移动一个点，对应原图移动16个像素点(看一看网络中的stride就明白16的来历了)。把这9个anchor的坐标进行平移操作，获得在原图上的坐标。之后根据ground truth label和这些anchor之间的关系生成rpn_lables，具体的方法论文中有提到，根据overlap来计算，这里就不详细说明了，生成的rpn_labels中，positive的位置被置为1，negative的位置被置为0，其他的为-1。box_target通过_compute_targets()函数生成，这个函数实际上是寻找每一个anchor最匹配的ground truth box，然后进行论文中提到的box坐标的转化。http://blog.csdn.net/zhangwenjie89/article/details/52012880

图6 9种anchor（注意：是不同位置）

图7 Faster R-CNN卷积流程图

原图600*1000经CNN卷积后，在CNN最后一层（conv5）得出的是40*60大小的特征图，对应文中说的典型值为2400。若特征图大小为W*H，则需要W*H*K个anchor，本文中需要40*60*9≈2k个。

在RPN网络中，我们需要重点理解其中的anchors概念，Loss fucntions计算方式和RPN层训练数据生成的具体细节。

3.4 RPN的平移不变性

在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中，小的人脸(24*24的分辨率)和大的人脸(1080*720)如何在同一个训练好权值的网络中都能正确识别。若是平移了图像中的目标，则建议框也应该平移，也应该能用同样的函数预测建议框。

传统有两种主流的解决方式：
第一、对图像或feature map层进行尺度\宽高的采样;
第二、对滤波器进行尺度\宽高的采样(或可以认为是滑动窗口).

但Faster R-CNN解决该问题的具体实现是：通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样，使用3种尺度和3种比例来产生9种anchor。

3.5 窗口分类和位置精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率。

窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数（x,y,w,h）。

对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

需要注意的是：并没有显式地提取任何候选窗口，完全使用网络自身完成判断和修正。

3.6 学习区域建议损失函数

3.6.1 标签分类规定

为了训练RPN，需要给每个anchor分配的类标签{目标、非目标}。对于positive label（正标签），论文中给了如下规定（满足以下条件之一即可判为正标签）：

注意，一个GT包围盒可以对应多个anchor，这样一个GT包围盒就可以有多个正标签。

事实上，采用第②个规则基本上可以找到足够的正样本，但是对于一些极端情况，例如所有的Anchor对应的anchor box与groud truth的IoU不大于0.7,可以采用第一种规则生成。

negative label（负标签）：与所有GT包围盒的IoU都小于0.3的anchor。

对于既不是正标签也不是负标签的anchor，以及跨越图像边界的anchor我们给予舍弃，因为其对训练目标是没有任何作用的。

3.6.2 多任务损失（来自Fast R-CNN）

图8 multi-task数据结构

Fast R-CNN网络有两个同级输出层（cls score和bbox_prdict层），都是全连接层，称为multi-task。

① clsscore层：用于分类，输出k+1维数组p，表示属于k类和背景的概率。对每个RoI（Region of Interesting）输出离散型概率分布

通常，p由k+1类的全连接层利用softmax计算得出。

② bbox_prdict层：用于调整候选区域位置，输出bounding box回归的位移，输出4*K维数组t，表示分别属于k类时，应该平移缩放的参数。

k表示类别的索引，是指相对于objectproposal尺度不变的平移，是指对数空间中相对于objectproposal的高与宽。

loss_cls层评估分类损失函数。由真实分类u对应的概率决定：

loss_bbox评估检测框定位的损失函数。比较真实分类对应的预测平移缩放参数和

真实平移缩放参数为的差别：

其中，smooth L1损失函数为：

smooth L1损失函数曲线如下图9所示，作者这样设置的目的是想让loss对于离群点更加鲁棒，相比于L2损失函数，其对离群点、异常值（outlier）不敏感，可控制梯度的量级使训练时不容易跑飞。

图9 smoothL1损失函数曲线

最后总损失为（两者加权和，如果分类为背景则不考虑定位损失）：

规定u=0为背景类（也就是负标签），那么艾弗森括号指数函数[u≥1]表示背景候选区域即负样本不参与回归损失，不需要对候选区域进行回归操作。λ控制分类损失和回归损失的平衡。Fast R-CNN论文中，所有实验λ=1。

艾弗森括号指数函数为：

源码中bbox_loss_weights用于标记每一个bbox是否属于某一个类。

3.6.3 Faster R-CNN损失函数

遵循multi-task loss定义，最小化目标函数，FasterR-CNN中对一个图像的函数定义为：

其中：

3.6.4 R-CNN中的boundingbox回归

下面先介绍R-CNN和Fast R-CNN中所用到的边框回归方法。

1. 为什么要做Bounding-box regression？

图10 示例

如图10所示，绿色的框为飞机的Ground Truth，红色的框是提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调这个窗口的。

2. 回归/微调的对象是什么？

3. Bounding-box regression（边框回归）

那么经过何种变换才能从图11中的窗口P变为窗口呢？比较简单的思路就是：

注意：只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键。

线性回归就是给定输入的特征向量X，学习一组参数W，使得经过线性回归后的值跟真实值Y(Ground Truth)非常接近。即。那么Bounding-box中我们的输入以及输出分别是什么呢？

输入：这个是什么？输入就是这四个数值吗？其实真正的输入是这个窗口对应的CNN特征，也就是R-CNN中的Pool5feature（特征向量）。(注：训练阶段输入还包括 Ground Truth，也就是下边提到的)

输出：需要进行的平移变换和尺度缩放，或者说是。我们的最终输出不应该是Ground Truth吗？是的，但是有了这四个变换我们就可以直接得到Ground Truth，这里还有个问题，根据上面4个公式我们可以知道，P经过，得到的并不是真实值G，而是预测值。

的确，这四个值应该是经过 Ground Truth 和Proposal计算得到的真正需要的平移量和尺度缩放。

这也就是R-CNN中的：

那么目标函数可以表示为是输入Proposal的特征向量，是要学习的参数（*表示，也就是每一个变换对应一个目标函数），是得到的预测值。我们要让预测值跟真实值差距最小，得到损失函数为：

函数优化目标为：

利用梯度下降法或者最小二乘法就可以得到。

4. 测试阶段
根据3我们学习到回归参数，对于测试图像，我们首先经过 CNN 提取特征，预测的变化就是，最后根据以下4个公式对窗口进行回归：

3.6.5 Faster R-CNN中的bounding box回归

其中：

※注意：计算regression loss需要三组信息：

1) 预测框，即RPN网络测出的proposa；

2) 锚点anchor box：之前的9个anchor对应9个不同尺度和长宽比的anchorbox；

3) GroundTruth：标定的框。

3.7 训练RPNs

RPN通过反向传播（BP，back-propagation）和随机梯度下降（SGD，stochastic gradient descent）进行端到端（end-to-end）训练。依照FastR-CNN中的“image-centric”采样策略训练这个网络。每个mini-batch由包含了许多正负样本的单个图像组成。我们可以优化所有anchor的损失函数，但是这会偏向于负样本，因为它们是主要的。

采样

每一个mini-batch包含从一张图像中随机提取的256个anchor（注意，不是所有的anchor都用来训练），前景样本和背景样本均取128个，达到正负比例为1:1。如果一个图像中的正样本数小于128，则多用一些负样本以满足有256个Proposal可以用于训练。

初始化

新增的2层参数用均值为0，标准差为0.01的高斯分布来进行初始化，其余层（都是共享的卷积层，与VGG共有的层）参数用ImageNet分类预训练模型来初始化。

参数化设置（使用caffe实现）

在PASCAL数据集上：

前60k个mini-batch进行迭代，学习率设为0.001；

后20k个mini-batch进行迭代，学习率设为0.0001；

设置动量momentum=0.9，权重衰减weightdecay=0.0005。

3.8 非极大值抑制法

训练时（eg：输入600*1000的图像），如果anchor box的边界超过了图像边界，那这样的anchors对训练loss也不会产生影响，我们将超过边界的anchor舍弃不用。一幅600*1000的图像经过VGG16后大约为40*60，则此时的anchor数为40*60*9，约为20k个anchor boxes，再去除与边界相交的anchor boxes后，剩下约为6k个anchor boxes，这么多数量的anchorboxes之间肯定是有很多重叠区域，因此需要使用非极大值抑制法（NMS，non-maximum suppression）将IoU＞0.7的区域全部合并，最后就剩下约2k个anchor boxes（同理，在最终检测端，可以设置将概率大约某阈值P且IoU大约某阈值T的预测框采用NMS方法进行合并，注意：这里的预测框指的不是anchor boxes）。NMS不会影响最终的检测准确率，但是大幅地减少了建议框的数量。NMS之后，我们用建议区域中的top-N个来检测（即排过序后取N个）。

3.9 RPN与Fast R-CNN特征共享

Faster-R-CNN算法由两大模块组成：

1.PRN候选框提取模块；

2.Fast R-CNN检测模块。

我们已经描述了如何为生成区域建议训练网络，而没有考虑基于区域的目标检测CNN如何利用这些建议框。对于检测网络，我们采用Fast R-CNN，现在描述一种算法，学习由RPN和Fast R-CNN之间共享的卷积层。

RPN和Fast R-CNN都是独立训练的，要用不同方式修改它们的卷积层。因此需要开发一种允许两个网络间共享卷积层的技术，而不是分别学习两个网络。注意到这不是仅仅定义一个包含了RPN和Fast R-CNN的单独网络，然后用反向传播联合优化它那么简单。原因是Fast R-CNN训练依赖于固定的目标建议框，而且并不清楚当同时改变建议机制时，学习Fast R-CNN会不会收敛。

RPN在提取得到proposals后，作者选择使用Fast-R-CNN实现最终目标的检测和识别。RPN和Fast-R-CNN共用了13个VGG的卷积层，显然将这两个网络完全孤立训练不是明智的选择，作者采用交替训练（Alternating training）阶段卷积层特征共享：

第一步，我们依上述训练RPN，该网络用ImageNet预训练的模型初始化，并端到端微调用于区域建议任务；

第二步，我们利用第一步的RPN生成的建议框，由Fast R-CNN训练一个单独的检测网络，这个检测网络同样是由ImageNet预训练的模型初始化的，这时候两个网络还没有共享卷积层；

第三步，我们用检测网络初始化RPN训练，但我们固定共享的卷积层，并且只微调RPN独有的层，现在两个网络共享卷积层了；

第四步，保持共享的卷积层固定，微调Fast R-CNN的fc层。这样，两个网络共享相同的卷积层，构成一个统一的网络。

注意：第一次迭代时，用ImageNet得到的模型初始化RPN和Fast-R-CNN中卷积层的参数；从第二次迭代开始，训练RPN时，用Fast-R-CNN的共享卷积层参数初始化RPN中的共享卷积层参数，然后只Fine-tune不共享的卷积层和其他层的相应参数。训练Fast-RCNN时，保持其与RPN共享的卷积层参数不变，只Fine-tune不共享的层对应的参数。这样就可以实现两个网络卷积层特征共享训练。相应的网络模型请参考https://github.com/rbgirshick/py-faster-rcnn/tree/master/models/pascal_voc/VGG16/faster_rcnn_alt_opt

你可能感兴趣的:(行人检测)

【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【计算机视觉前沿研究热点顶会】ECCV 2024中目标检测有关的论文平安顺遂事事如意顶刊顶会论文合集计算机视觉目标检测人工智能 3d 目标跟踪
整值训练和尖峰驱动推理脉冲神经网络用于高性能和节能的目标检测与人工神经网络(ANN)相比，脑激励的脉冲神经网络(SNN)具有生物合理性和低功耗的优势。由于SNN的性能较差，目前的应用仅限于简单的分类任务。在这项工作中，我们专注于弥合人工神经网络和神经网络在目标检测方面的性能差距。我们的设计围绕着网络架构和尖峰神经元。当行人检测遇到多模态学习时：通才模型和基准数据集近年来，利用不同传感器模态(如RG
【CV论文精读】Adaptive Fusion of Multi-Scale YOLO for Pedestrian Detection基于多尺度自适应融合YOLO的行人检测量子-Alex CV知识学习和论文阅读 YOLO 计算机视觉人工智能
AdaptiveFusionofMulti-ScaleYOLOforPedestrianDetection0.论文摘要和作者信息摘要虽然行人检测技术在不断改进，但由于不同规模的行人和遮挡行人模式的不确定性和多样性，行人检测仍然具有挑战性。本研究遵循单次目标检测的通用框架，提出了一种分而治之的方法来解决上述问题。该模型引入了一个分割函数，可以将一幅图像中没有重叠的行人分割成两个子图像。通过使用网络架
HOG特征 ce0b74704937
HOG特征是在文章《HistogramsofOrientedGradientsforHumanDetection》中提出，看文章标题可知，该文章是为了行人检测提出的，不过后来也用于其它方向，比如特征点检测等。该文中行人检测大概分为以下几步：输入图像（行人的图像）采用Gamma矫正法对输入图像进行颜色空间的标准化；目的是调节图像的对比度，降低图像局部的阴影和光照所造成的影响，同时可以抑制噪声。（原文
【CV论文精读】Pedestrian Detection Based on YOLO Network Model 基于YOLO的行人检测量子-Alex CV知识学习和论文阅读 YOLO 深度学习计算机视觉
【CV论文精读】PedestrianDetectionBasedonYOLONetworkModel0.论文摘要和作者信息摘要——经过深度网络后，会有一些行人信息的丢失，会造成梯度的消失，造成行人检测不准确。本文改进了YOLO算法的网络结构，提出了一种新的网络结构YOLO-R。首先，在原有YOLO网络的基础上增加了三个直通层。直通层由路由层和重组层组成。其作用是将浅层行人特征连接到深层行人特征，并
跨模态行人重识别综述 - 计算机视觉小小猿D 笔记深度学习
跨模态行人重识别综述-计算机视觉0引言近年来，随着智能监控领域的不断发展，单纯凭借传统的人力已经很难在对复杂的监控场景做出完善详尽的处理。作为一项在大型非重叠视角多摄像机网络获取到的海量视频画面序列里找到目标行人的任务，行人重识别（PersonRe-Identification）可以被看作是多摄像头的行人检索问题。它建立在行人检测的基础之上，捕捉获取同一目标个体在不同非重叠摄像头中分布位置信息，推
PaddleDetection学习2——使用Paddle-Lite在 Android 上实现行人检测 waf13916 paddle android
使用Paddle-Lite在Android上实现行人检测1.环境准备2.准备模型2.1下载模型2.2模型优化3.部署模型3.1目标检测C++代码Pipeline.hPipeline.cpppreprocess_op.hpreprocess_op.cc3.2修改配置文件3.4部署模型到移动端1.环境准备参考前一篇
YOLOV5s行人识别改进引入CoT模块及SIOU损失函数 deleteeee YOLO 人工智能计算机视觉神经网络 python 目标检测视觉检测
1.项目背景及意义近年来，深度学习算法不断取得了突破性进展，这也推动了人工智能技术的不断进步。机器视觉作为其中的重要一环，在不同领域也焕发出了强烈的生机。行人目标检测是机器视觉的一项重要课题，早就已经引起了国内外学者广泛的研究。在现实生活中，行人检测在车站、商场等场所的人流量检测、汽车的自动驾驶技术、智能交通、健身房辅助教学、电影拍摄中动作捕捉等多种场景中被广泛应用。然而，行人检测通常伴随着遮挡，
计算机设计大赛交通目标检测-行人车辆检测流量计数 - 计算机设计大赛 iuerfee python
文章目录0前言1\.目标检测概况1.1什么是目标检测？1.2发展阶段2\.行人检测2.1行人检测简介2.2行人检测技术难点2.3行人检测实现效果2.4关键代码-训练过程最后0前言优质竞赛项目系列，今天要分享的是毕业设计交通目标检测-行人车辆检测流量计数该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：4分更多资料,项目分
YOLOV5单目测距+车辆检测+车道线检测+行人检测（教程-代码）毕设阿力 YOLO 目标跟踪人工智能目标检测
YOLOv5是一种高效的目标检测算法，结合其在单目测距、车辆检测、车道线检测和行人检测等领域的应用，可以实现多个重要任务的精确识别和定位。首先，YOLOv5可以用于单目测距。通过分析图像中的目标位置和尺寸信息，结合相机参数和几何关系，可以推断出目标与相机之间的距离。这对于智能驾驶、机器人导航等领域至关重要，可以帮助车辆或机器人感知周围环境的远近，并做出相应的决策。其次，YOLOv5可以用于车辆检测
大创项目推荐目标检测-行人车辆检测流量计数 laafeer python
文章目录前言1\.目标检测概况1.1什么是目标检测？1.2发展阶段2\.行人检测2.1行人检测简介2.2行人检测技术难点2.3行人检测实现效果2.4关键代码-训练过程最后前言优质竞赛项目系列，今天要分享的是行人车辆目标检测计数系统该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1.目
使用飞浆训练目标检测模型无忧秘书智脑深度学习机器学习人工智能
参考链接：PP-PicoDet算法训练行人检测模型-CSDN博客文章浏览阅读306次。PP-PicoDet模型特点：方案选择PP-PicoDet轻量化模型，主要看中PP-PicoDet体积小、速度快、精度较高的优势，非常适合本项目的部署环境和性能要求。同时，飞桨提供的预训练模型也可以最大程度上提升模型的收敛速度和精度。https://blog.csdn.net/qq_45437316/articl
LNTON人形检测、行人检测工具，支持图片、RTSP实时流、mp4文件中的行人或者人形检测，实用工具，亲测可用！ xiejiashu 视频人工智能行人检测人形检测人物监测检测人的算法羚通算法
简介LNTON_PID是一个行人检测工具，能够对图像、视频、文件夹中的多个文件或RTSP实时流进行行人检测，并支持自定义输出结果和行人区域位置的保存。该工具提供了灵活的参数配置选项以适应各种应用场景。快速开始-命令行参数格式（Linux/Unix环境）./pid_tools_gensamplesINPUT_PATHOUT_RESULT_DIR[DEFAULT:results]OUT_PATCH_D
智慧工地下烟火检测报警系统建筑工地火灾监控系统豌豆云烟火自动识别预警和监管系统
智慧工地下烟火检测报警系统建筑工地火灾监控系统基于智能识别的人员密集场所安防预警系统或许能够帮到你。该系统利用监控系统结合模式识别，对现场视频数据进行深度挖掘，突破基于复杂背景下的烟火识别、动态场景下非配合人脸识别以及基于行人检测的越界识别等关键技术。烟感防灾报警系统，在施工现场加工区、材料堆放区、易发生火灾隐患区域安装烟感探测器，监测现场烟雾浓度。探测器内置芯片可实时上传监测数据至“智慧工地监管
目标检测数据集 - 人脸检测数据集下载「包含VOC、COCO、YOLO三种格式」极智视界 AI训练数据集工作室目标检测 YOLO 人脸检测人脸检测数据集深度学习人工智能数据集
数据集介绍：行人检测数据集，真实场景高质量图片数据，涉及场景丰富，比如校园行人、街景行人、道路行人、遮挡行人、严重遮挡行人数据；适用实际项目应用：公共场所监控场景下行人检测项目，以及作为监控场景通用行人检测数据集场景数据的补充；标注说明：采用labelimg标注软件进行标注，标注质量高，提供VOC(xml)、COCO(json)、YOLO(txt)三种常见目标检测数据集格式，可以直接用于如YOLO
目标检测数据集 - 行人检测数据集下载「包含VOC、COCO、YOLO三种格式」极智视界 AI训练数据集工作室目标检测 YOLO 行人检测行人检测数据集 AI训练数据集深度学习 labelimg
数据集介绍：行人检测数据集，真实场景高质量图片数据，涉及场景丰富，比如校园行人、街景行人、道路行人、遮挡行人、严重遮挡行人数据；适用实际项目应用：公共场所监控场景下行人检测项目，以及作为监控场景通用行人检测数据集场景数据的补充；标注说明：采用labelimg标注软件进行标注，标注质量高，提供VOC(xml)、COCO(json)、YOLO(txt)三种常见目标检测数据集格式，可以直接用于如YOLO
基于YOLOv5的行人检测系统 TechMasterPlus 深度学习 #目标检测游戏音视频深度学习人工智能
若需要完整工程源代码，请私信作者目标检测在计算机视觉领域中的重要性，特别是在人群流量监测方面的应用。其中，YOLO（YouOnlyLookOnce）系列算法在目标检测领域取得了显著的进展，从YOLO到YOLOv5的发展历程表明其在算法性能上的不断优化。文中提到了基于YOLOv5设计的人口密度检测系统，该系统通过深度学习算法对人群进行检测和计数，主要应用于商场、路口等需要控制人流的场所。系统通过YO
无人驾驶卡尔曼滤波 meteor,across T sky Apollo 机器学习人工智能
无人驾驶卡尔曼滤波（行人检测）xk=axk−1+wkx_k=ax_{k-1}+w_kxk=axk−1+wkwkw_kwk：过程噪声状态估计估计飞行器状态（高度）xk=zk−vkx_k=z_k-v_kxk=zk−vk卡尔曼滤波通过同时考虑上一状态值和当前的测量值来获得对当前状态值的估计，对状态xxx的估计：x^\hat{x}x^x^k=x^k−1+gk(zk−x^k−1)\hat{x}_k=\hat
大创项目推荐深度学习实现行人重识别 - python opencv yolo Reid laafeer python
文章目录0前言1课题背景2效果展示3行人检测4行人重识别5其他工具6最后0前言优质竞赛项目系列，今天要分享的是**基于深度学习的行人重识别算法研究与实现**该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：3分创新点：5分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate
目标检测数据集 - 夜间行人检测数据集下载「包含VOC、COCO、YOLO三种格式」极智视界 AI训练数据集工作室目标检测 YOLO 人工智能夜间行人检测低光行人检测遮挡行人检测行人检测
数据集介绍：夜间、低光行人检测数据集，真实场景高质量图片数据，涉及场景丰富，比如夜间街景行人、夜间道路行人、夜间遮挡行人、夜间严重遮挡行人数据；适用实际项目应用：公共场所监控场景下夜间行人检测项目，以及作为监控场景通用行人检测数据集夜间场景数据的补充；标注说明：采用labelimg标注软件进行标注，标注质量高，提供VOC(xml)、COCO(json)、YOLO(txt)三种常见目标检测数据集格式
基于yolov2深度学习网络的车辆行人检测算法matlab仿真简简单单做算法 MATLAB算法开发 #深度学习 YOLO 深度学习人工智能 yolov2 车辆行人检测
目录1.算法运行效果图预览2.算法运行软件版本3.部分核心程序4.算法理论概述5.算法完整程序工程1.算法运行效果图预览2.算法运行软件版本MATLAB2022a3.部分核心程序..........................................................loadyolov2.mat%加载训练好的目标检测器img_size=[224,224];imgPath=
C# OpenCvSharp DNN FreeYOLO 密集行人检测天天代码码天天 C#人工智能实践 dnn 人工智能神经网络 YOLO 目标检测计算机视觉 c#
目录效果模型信息项目代码下载C#OpenCvSharpDNNFreeYOLO密集行人检测效果模型信息Inputs-------------------------name：inputtensor：Float[1,3,192,320]---------------------------------------------------------------Outputs--------------
一些想法：关于行人检测与重识别 baidu_huihui 人工智能计算机视觉
本文主要是介绍我们录用于ECCV'18的一个工作：PersonSearchviaAMask-guidedTwo-streamCNNModel.这篇文章着眼于PersonSearch这个任务，即同时考虑行人检测（PedestrianDetection）与行人重识别（PersonRe-identification），简单探讨了一下行人检测与行人重识别这两个子任务之间的关联性，并尝试利用全景图像中的背景
智能交通技术与数据集大观：揭秘趋动云的无尽能量，引领AI发展的GPU算力及相关资源 virtaitech 人工智能 gpu算力
智能交通是一种先进的交通系统，其核心目标在于通过实时数据的采集、分析以及智能决策，全面提升城市交通的效率、安全性和便捷性。该系统涵盖多项关键技术，包括行人检测、车辆检测、智能交通信号控制、智能导航和路径规划、以及安全监控等。行人检测：智能交通系统利用计算机视觉技术，通过摄像头、激光雷达等传感器对行人进行实时监测和识别。深度学习算法在处理多姿态和遮挡等复杂场景时，能够高效地检测行人的存在、位置和运动
YOLO算法改进7【中阶改进篇】：主干网络C3替换为轻量化网络MobileNetV3 梦在黎明破晓时啊 YOLOV5中阶改进篇 YOLO
解决问题：YOLOv5主干特征提取网络采用C3结构，带来较大的参数量，检测速度较慢，应用受限，在某些真实的应用场景如移动或者嵌入式设备，如此大而复杂的模型时难以被应用的。首先是模型过于庞大，面临着内存不足的问题，其次这些场景要求低延迟，或者说响应速度要快，想象一下自动驾驶汽车的行人检测系统如果速度很慢会发生什么可怕的事情。所以，研究小而高效的CNN模型在这些场景至关重要，至少目前是这样，尽管未来硬
Deep learning-based small object detection: A survey（2023）怎么全是重名论文笔记深度学习目标检测人工智能
文章目录AbstractIntroductionContributionGenericSODalgorithms提高输入特征的分辨率（MostImportant）Methods尺度感知训练Methods融合上下文信息Methods数据增强Methods其他策略Methods关键的SOD任务小人脸检测Methods小型行人检测Methods航拍图像中的SODMethodsEvaluationofSO
36从传统算法到深度学习：目标检测入门实战 --行人检测 Jachin111
行人检测基本流程在实验1到实验3中我们分别学习了滑动窗口、图像金字塔、方向梯度直方图。本节实验我们将结合这些方法来构建一个传统的行人检测算法。简单来说行人检测就是在提供的图像中，我们想要计算机分辨出哪些是人并且用矩形框标记出人出现在图片中的哪些位置。下图左上角图片中有一个人，如果我们想要用传统的目标检测方法检测到这个人的话，一般分为下面几个步骤。使用图像金字塔将图片按一定缩放比例生成不同尺寸图片（
深度学习模型压缩与加速：深度压缩技术 RRRRRoyal 深度学习人工智能
深度学习模型压缩与加速：深度压缩技术引言深度学习已广泛应用于移动应用和实时检测任务，例如在自动驾驶车辆中的行人检测。在这些应用中，对于推理速度和模型大小有着极高的要求。深度压缩（DeepCompression）技术旨在减小深度学习模型的大小并加速模型推理，特别适用于对延迟敏感的应用场景。下面我们将详细介绍深度压缩技术及其在实际硬件上的性能。模型压缩与量化深度压缩技术通过权重剪枝、量化等方法来减少模
分类（四）—— 支持向量机 shi_jiaye python机器学习与数据挖掘机器学习人工智能 python
主要内容分类概述决策树归纳K近邻算法支持向量机朴素贝叶斯分类模型评估与选择组合分类小结四、支持向量机支持向量机（SupportVetorMachine，SVM）由Vapnik等人于1995年首先提出，在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并推广到人脸识别、行人检测和文本分类等其他机器学习问题中。SVM建立在统计学习理论的VC维理论和结构风险最小原理基础上，根据有限的样本信息在模
基于YOLOv8深度学习的高精度车辆行人检测与计数系统【python源码+Pyqt5界面+数据集+训练代码】目标检测、深度学习实战阿_旭深度学习实战 AI应用软件开发实战计算机视觉 YOLO 深度学习 python 车辆行人检测目标检测
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p