ClarissaYL

目标检测论文笔记 2019.11

初入门目标检测，近两个月看的一些论文笔记汇总。
尽量用简单的语言概括论文的思想，提出highlight，具体实现细节参考各论文。

文章目录

General

《MoCo: Momentum Contrast for Unsupervised Visual Representation Learning 》2019

Instance Segmentation

《Mask RCNN》2018

Object detection

Pipeline

《selective search for object recognition》2012
《R-CNN》2014 /《Fast R-CNN》2015 /《Faster R-CNN》2015 /《R-FCN》2016
《Cascade R-CNN: delving into high quality object detection》
《Grid R-CNN》
《YOLO: you only look once》2016
《YOLO v2》2016 / 《YOLO v3》2018
《SSD:single shot multibox detector》2016
《CornerNet: detecting objects as paired keypoints》2019
《CenterNet: Objects as points》2019
《FCOS: Fully convolutionall one-stage object detection》2019

Tricks

《FPN: feature pyramid networks for object detection》 2017
《DCN: Deformable convolutional networks》2017
《RetinaNet: Focal loss for dense object detection》2018
《GA: Region Proposal by Guided Anchoring 》2019

General

《MoCo: Momentum Contrast for Unsupervised Visual Representation Learning 》2019

阅读日期：2019.11.21

Highlight

unsupuvised visual representation learning
buiding large and consistent dictionary
- Dictionary as Queue: 解耦dict大小与mini-batch大小，使得dict可以足够大，不受制于内存
- Momentum update: 逐渐更新key encoder的模型参数，保持queue中keys的一致性
shuffling BN：多块GPU各自进行BN。在key_encoder进行编码前，先shuffle minibatch，编码完后shuffle back，而query_encoder不进行shuffle，保证两者进行BN用的batch信息不来自同一组batch，避免intra-batch信息泄漏，使模型过于容易找到一个low-loss solution，而representation的提取却不够general.

算法流程

query-encoder 和 key-encoder 初始化为相同的网络
对于每个minibatch，对图像做两次随机增强，分别用两个encoder进行编码(生成queries和keys)，keys不计算梯度
将当前batch对应图片生成的key作为正例(1个)，Queue中的所有keys作为负例，计算交叉熵损失

contrastive loss: similarity of sample pairs in representation space

$L_q = -log{exp(q·k_+/\tau) \over \sum_{i=0}^K exp(q·k_i/\tau)}$

back propagation 更新query-encoder的模型参数， momentum update 更新key-encoder
更新Queue(Dictionary): enqueue current minibatch, dequeue the earliest minibatch

Instance Segmentation

《Mask RCNN》2018

阅读日期：2019.11.22

Highlight

在faster-RCNN上做了微小改动，添加一个head用于预测binary mask，实现实例分割，5FPS。还可以被拓展用于keypoint检测任务，把每个关键点作为一个one-hot mask.
提出RoI Align，通过双线性插值，避免量化，使提取的特征更好地保持原图位置信息，这一点对生成准确的mask非常重要，而分类任务则对位置信息更鲁棒一些。

解耦classification和segmentation，对每个类别都分别预测一个binary mask，避免类别竞争

	Models	Per pixel	Loss
解耦	Mask RCNN	sigmoid	BCE
竞争	traditional FCN	Softmax	Multinomial cross-entropy

Object detection

Pipeline

Two-stage系列：R-CNN，fast R-CNN，faster R-CNN，R-FCN

One-stage with anchor：YOLO，SSD

One-stage anchor-free ：CornerNet，CenterNet，FCOS

《selective search for object recognition》2012

阅读日期：2019.10.23

Highlight

结合exhaustive search & segmentation提出了一种类别无关的region proposal方法，召回率99%
捕捉多尺度信息(by hierarchical algorithm)，多样化的选区合并策略，计算速度快(在当时可能成立，但在R-CNN系列成为性能瓶颈)

算法流程

生成原始选区(using region-based feature algorithm)，加入region proposals $L$
计算选区间相似度（多样化策略：颜色/纹理/大小/吻合度），放入 $S$
通过贪心策略每次合并相似度最高的两个选区，合并结果放入 $L$ ，从 $S$ 中删除原来两个小选区相关的相似度，并计算新选区与各剩余选区的相似度放入 $S$ 。重复直到最终所有选区合并为一个大选区( $S=\phi$ )
输出所有region proposal $L$

《R-CNN》2014 /《Fast R-CNN》2015 /《Faster R-CNN》2015 /《R-FCN》2016

阅读日期：2019.10.23 -24

共同点：都属于two-stage detection，先生成类别无关的proposal region(区分前景/背景)，再对每个proposal进行分类。利用了transfer learning的思想。考虑平移不变性，多尺度性。采用非极大值抑制消重。

不同点：速度越来越快(faster RCNN可以达到实时5fps)，共享参数越来越多，整体网络结构越来越整合。

R-CNN

先由selective search算法提出region proposal，每个proposal分别通过CNN编码为一个4096维的特征，再单独训练SVM针对不同类别进行打分。额外训练一个CNN对bbx的位置进行回归修正。

每个阶段都是单独训练的，所以开销大。训练/测试时间都很长。

Fast R-CNN

Feature map sharing & ROI pooling layer

在R-CNN中，每个proposal分别做卷积有大量重复操作，因此本论文提出对整张输入图片做卷积，生成一个被全体proposal共享的feature map，大大减少了卷积次数。各proposal根据感受野映射到feature map上，再通过RoI pooling layer转换为同样大小的特征。

trained end-to-end with multi-task loss: 同时做分类和bbox regression

RoI feature vector同时连接两个sibling FC layer，一个做分类，一个做回归

Faster R-CNN

Region proposal network(RPN)

对于前两种算法而言，bottleneck都是最初提出region proposal的速度太慢。因此本论文提出一种通过CNN，自动预测每个位置的bbx和objectness score的方法。

通过pyramid of anchors，达到高效的多尺度提取的效果(相比于pyramids of features / pyramids of filters)。虽然每个feature感受野一样，得益于anchor，能够提取不同尺度的信息。

merge RPN and Fast R-CNN -> train a unified single network

RPN和detection network共享feature map层，通过alternate training的方法(4-step)进行训练。

R-FCN region-based fully convolutional networks

论文提出观点，分类的平移不变性&目标检测的平移敏感性，这两者之间的矛盾导致使用普通的全共享卷积网络进行目标检测精度极低(用于分类的全卷积网络对位置信息不敏感)。为了解决这个问题，先前的方案插入了RoI-wise子网，在其后构造更深的网络来提高精度，但每个RoI计算不共享导致速度慢。

本论文提出将所有耗时的卷积操作放在整张图片上，并生成最终的position-sensitive score maps在所有RoI之间共享。position-sensitive RoI pooling之后，没有任何需要学习的参数，简单计算平均得分即可得出每个分类上的分数。简单起见，使用了类别无关的bbx的回归。

《Cascade R-CNN: delving into high quality object detection》

阅读日期：2019.11.8

这篇论文的关注点很有意思。在two-stage detecor训练过程中，我们都要人为设定一个IoU_threshold，第一阶段提出的proposal的IoU高于阈值的作为正样本，继续第二阶段分类器的训练。根据经验大多设置为0.5，但是为什么要这样设置，这是最好的选择吗？作者对此进行了实验。

实验发现，随着提高训练的IoU_thr至0.7，检测精度反而下降，主要原因有二：

正样本更少，导致过拟合
inference时，由RPN提出的proposal的IoU低于训练时输入的正样本，导致mismatch (作者通过另一实验发现，regressor在输入图片的IoU与设置的IoU_thr接近时优化效果最好，且regressor输出图片的IoU普遍高于输入。也就是说，regressor有普遍优化效果，且对与自身训练精度一致的图片优化更好)

基于上述发现，提出级联式检测器 cascade R-CNN 解决上面两个问题：

Resampling：每个stage进行resample，调整合适的正负样本比例，同时因为cascade RCNN能在每个stage逐步提高输出图片的IoU，因此提高IoU_thr后正样本数量不会减少太多
级联训练 & 级联检测：保持训练和检测时输入图片的IoU一致性

highlight
这是一个逐步优化的过程，前一个stage的输出是精度更高的图片，该分布刚好适合下一个stage中IoU_thr更高的regressor进行训练。实验证明，该级联训练的方法对二阶段检测算法有着普遍的效果提高。

《Grid R-CNN》

阅读日期：2019.11.9

highlight

传统RCNN中将bbox的定位用fc+回归的方式来做，本文提出了用FCN来保持空间信息，通过预测pixel level的grid points来定位物体。
Feature map level information fusion：对相邻点的feature map进行融合，互相矫正
Extended region mapping：第一阶段提出的proposal很可能没覆盖整个object，导致许多grid point 没有落在proposal中。如果简单使用enlarge proposal进行RoI pooling会导致引入背景信息或其他物体，导致detector精度下降；本文提出RoI不变，在FCN得到的heatmap映射为原图时，映射到原proposal的两倍大小

模型架构：只是修改了二阶段检测器的bbox regressor部分 -> FCN

将物体的bbox划分为N*N的grid，共生成N*N个grid point（包括内部）
对backbone的输出的特征做FCN，得到N*N张heatmap，每个heatmap对应一个grid point的分布概率
grid points feature fusion：对相邻点的heatmap做融合（卷积后叠加），起校准效果
每个heatmap中找到最大值点作为grid point，映射回原图(extended region mapping)，bbox的真实边界通过同一条边上的grid point的heatmap概率加权得到

《YOLO: you only look once》2016

阅读日期：2019.10.24

Highlight

提出了一种one-stage的目标检测方法，将目标检测作为一个回归任务(同时对bbx和分类概率)，使用简单单一的网络结构，训练方便
相比于SOTA的方法，localization error更高，但对背景的假正例预测更少
速度极快！YOLO 45 fps, fast YOLO 155 fps
泛化能力强：能在自然风景上训练，在艺术作品上预测

模型架构

将输入的完整图像划分为 $S * S$ 个grid，对每个grid预测 $(5 * B + C)$ 个值 -> 卷积+全连接
- B个bbx : 包括五个参数，位置x,y,w,h, 包含物体的概率$confidence $(IoU)
- 针对每个分类的条件概率，共C个
测试时各bbx的confidence乘以各分类条件概率p，可得到各bbx属于某分类的概率，再做NMS
训练时先在ImageNet上预训练卷积层，再fine tune。训练时对每个ground truth object只取一个IoU最大的bbx作为responsible bbx。

Multi-part loss = bbx + confidence + classification

Limitations

对一群出现的小物体识别能力差 <- 空间限制强，每个grid提出的bbx少
难以泛化到特殊长宽比例的物体 <- 通过数据来学习预测bbx
localization的精度差

《YOLO v2》2016 / 《YOLO v3》2018

阅读日期：2019.10.25

《YOLO9000: Better, Faster, Stronger》

改进YOLO，简化网络结构

Batch normalization 替代 dropout 来预防过拟合

使用更高分辨率的图片先在分类网络上fine tune，再迁移到detection任务上微调

使用类似faster RCNN的 anchor box 替代原YOLO只对每个grid预测两个bbx

提出更多的预选bbx，解决YOLO对密集小物体的检测缺陷

对每个anchor box预测分类条件概率、objectiveness、边界框修正（YOLO的分类条件概率是对每个grid进行预测，而不是对每个bbx）

对anchor的形状先验不再人工指定，而是用在训练集做k-means的方法得到更能表征的anchor

边界框修正的参数进行约束，预测绝对位置，使bbx的中心落在对应的grid cell中

添加feature map的通道数，通过stack前面高分辨率的特征(passthrough layer)类似ResNet

Multi-scale training

因为网络是全卷积的，所有在训练时使用不同大小的图片，这样网络对不同分辨率的图片的特征提取能力都会提升，在test time就可以用同一个模型预测不同分辨率的图片，自由选择speed/accuracy trade-off

分类、检测联合训练，使YOLO v2可以分类超过9000种物体

Hierarchical classification，根据类别从属关系构造WordTree，在每个节点预测条件概率。

训练时混合detection和classification数据集，碰到detection数据时，正常BP，但对层级分类部分只传递标签分类以上的；碰到classification数据时，找到对标签分类打分最高的bbx，只在这个bbx的分类预测树上做BP。

通过这种联合训练，可对detection数据集中没有的分类进行预测，也可预测出未被方框标注过的物体。

《YOLO v3: An Incremental Improvement》

用LR对各bbx的objectness进行预测，取IOU>0.5为正例（原先是作为IOU回归任务处理的）

对multilabel分类任务，对每个类别独立使用LR并用cross entropy loss ~~对比softmax(mutual exclusive)~~

对小物体检测能力好，IOU=0.5的标准下准确度很好，但不能更精准地localization

《SSD:single shot multibox detector》2016

和YOLO很类似，一些区别如下

在多尺度的feature maps上用多个不同尺寸的anchor作bbx预测，最后将所有bbx结果合并考虑做NMS
用卷积的方法来做bbx和cls的预测，而YOLO最后采用了2个FC层

《CornerNet: detecting objects as paired keypoints》2019

阅读日期：2019.11.8

highlight

One-stage, anchor-free
把检测bbox的任务简化为检测bbox的左上和右下两个角点(heatmap)，并对每个角点生成embedding vector，用embedding的距离来匹配角点生成bbox
角点往往远离物体中心，为了找到角点，提出corner pooling
使用hourglass作为backbone，只是用网络最后一层特征输出，不用FPN
使用角点匹配的好处是，减少了bbox的离散空间， $O (w h)$ 个角点可以生成 $O(w^2h^2)$ 个可能的bbox.

模型loss设计：先coner pooling，再生成heat map / embedding / offset

heatmap：label在gt角点周围呈高斯分布，variant of focal loss 使越接近gt的点penalty越小
offset：不同类别共享offset，SmoothL1Loss
Embedding: pull & push loss (同类相近，不同类相斥) <--有趣的loss

《CenterNet: Objects as points》2019

Highlight

通过每个类别的heatmap找到center point，其他参数（size of bbx/3D location）通过回归得到
不需要post-processing，NMS(不可微)被提取中心点时的max pooling取代，实现真正的end-to-end training

模型

Loss = keypoint probability(heatmap) + local offset of keypoint + bbx regression
Inference
- 对每个类别分别在heatmap上提取局部最大值，3*3 max pooling
- 保留数值最大的100个峰值点，把heatmap看作分类置信度
- 计算每个峰值点的offset和bbx regression，确定bbx

《FCOS: Fully convolutionall one-stage object detection》2019

阅读日期：2019.11.6

Highlight

与其他FCN-solvable tasks比如语义分割相统一，对per-pixel进行目标检测任务
anchor free & proposal free，避免敏感的超参，避免类别不平衡，且省时省内存。与CenterNet只有keypoint点是正样本不同，本模型中每个落在目标区域内的像素点都被认为是正样本
采用了FPN的结构，解决传统FCN用于目标检测的两个问题：low recall / ambiguous overlapping bboxes

在不同层级的feature map上预测不同大小的物体

模型

对每个像素点，计算classification \ centerness \ regression

classification 通过C个二分类器组成，focal loss。每个落在目标区域内的像素点都被认为是正样本。
Centerness 用于抑制目标区域内远离中心的点，因为它们回归出来的bbox不理想。
Regression 直接计算每个正样本点到对应bbox的四个距离，用 $exp(s_ix)$ 做基，FPN的不同层共享heads

Tricks

《FPN: feature pyramid networks for object detection》 2017

阅读日期：2019.11.5

Highlight：特征金字塔在手工提取特征时期被广泛使用，能够保持检测任务中的尺度不变性。本文利用深度卷积网络内在的金字塔特性，在很小的cost下构造一个多尺度的层级金字塔，并使每一层都能表达高层语义。每一层都能用于预测，并共享head部分的参数。

模型架构

Bottom-up pathway：就是backbone的前向传播CNN，把输出的空间大小相同的层分为同一个stage，取每个stage的最后一层输出作为金字塔的一层，相邻stage的大小相差2倍。
Top-down pathway and lateral connections：通过对top feature上采样得到空间上更粗粒度但语义更强的feature，再element-wise加上lateral connections(1*1 conv)来维持空间信息，最后通过一个3*3 conv 消除由上采样引入的空间偏差，生成最终的feature map。

Applications

FPN for RPN：anchor对每层feature map固定scale，取不同ratio；head参数共享。
FPN for Fast RCNN：对越小的RoI，用更高分辨率的feature map进行特征提取。

《DCN: Deformable convolutional networks》2017

阅读日期：2019.11.5

Highlight：传统CNN受卷积层几何转换的限制，本文提出一种可学习的dense offset来使高层特征可以有不规则的感受野，可解释性强效果好。减轻了对数据增强、设计变换不变特征/算法的依赖。

两种模型

deformable convolution：对输入的feature map上的每个特征点计算一个2D-offset（通过对该input feature map的卷积），应用于卷积，小数偏移量用邻近位置的双线性插值来逼近。

Deformable ROI pooling：先对RoI做普通RoI pooling得到pooled feature maps，加一个fc层得到offsets（RoI的每个bin共享一个offset，整个bin一起平移）。在实验中发现，Deformable RoI pooling得到的bins会向前景偏移。

《RetinaNet: Focal loss for dense object detection》2018

阅读日期：2019.11.6

highlight

提出观点：前景-背景样本数量的极度不平衡，是one-stage detectors精度普遍低于two-stage detectors的关键。过多的负样本主导了loss，使正样本的分类器根本无法学习。

在two-stage detecor中，可以通过(1)第一阶段region proposal过滤大量简单负样本 (2)第二阶段训练前进行有偏采样使正负样本比例保持在合适范围。one-stage detectors 多使用anchors进行密集采样，引入了大量 easy negative.
Robust loss希望outliers(hard example with large errors)贡献更少的loss，而focal loss的设计理念刚好与之相反，focal loss更关注hard examples。

$FL(p_t) = -\alpha_t(1-p_t)^\gamma log(p_t).$

其中 $p_t$ 代表预测gt的概率， $\alpha_t$ 是超参数，用于调节正负样本的不平衡； $(1-p_t)^\gamma$ 使得loss更加关注hard exmaple.
focal loss的设计非常简洁直观，只是在交叉熵 $CE(p_t) = -log(P_t)$ 上略加改动，可以很容易地应用到多种模型中。且其效果很好，应用了该loss的RetinaNet能够达到one-stage的速度，同时超过two-stage的精度。

《GA: Region Proposal by Guided Anchoring 》2019

阅读日期：2019.11.23

hightlight

dense amd predefined anchors -> Non-uniform and arbitrary shaped sparse anchors

产生更少的anchor，recall几乎不变，precision提高
将anchor的联合分布拆解为两个条件概率分布(location/wh)的连乘
提出anchor应该遵循的原则：alignment / consistency
- 为保证alignment，不对center位置作回归，只回归wh
- feature adaption: 由于在同一层feature上使用了任意形状大小的anchor，要求feature map上不同位置的表意程度也不同，要适应该位置对应的anchor(即consistency)，采用deformable conv

model

YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
从入门到实战：YOLOv13 安装与使用全攻略奔跑吧邓邓子必备核心技能 YOLO 目标跟踪人工智能安装使用全攻略
目录一、YOLOv13简介1.1目标检测与YOLO系列1.2YOLOv13核心技术亮点1.3性能优势展现二、前期准备2.1系统环境要求2.2软件依赖安装三、安装流程3.1获取源码3.2环境搭建3.3安装验证四、使用指南4.1模型验证4.2模型训练4.3模型推理4.4模型导出五、应用案例与技巧5.1实际应用场景展示5.2常见问题与解决方法5.3优化技巧分享六、总结与展望6.1YOLOv13回顾6.2
YOLOv13：目标检测的全面攻略与实战指南奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能全攻略实战
目录一、YOLOv13简介1.1YOLO系列发展回顾1.2YOLOv13的特点与优势二、YOLOv13原理剖析2.1HyperACE技术详解2.2FullPAD技术详解2.3轻量级卷积替换技术详解三、YOLOv13性能对比3.1与其他YOLO版本对比3.2实际应用场景对比四、YOLOv13项目结构与使用方式4.1仓库文件结构介绍4.2快速上手步骤五、YOLOv13优化技巧5.1数据增强技巧5.2锚
番外篇 | SEAM-YOLO：引入SEAM系列注意力机制，提升遮挡小目标的检测性能小哥谈 YOLOv8：从入门到实战 YOLO 深度学习人工智能机器学习计算机视觉神经网络
前言：Hello大家好，我是小哥谈。SEAM(Squeeze-and-ExcitationAttentionModule)系列注意力机制是一种高效的特征增强方法，特别适合处理遮挡和小目标检测问题。该机制通过建模通道间关系来自适应地重新校准通道特征响应。在遮挡小目标检测中的应用优势包括：1）通道注意力增强：SEAM通过全局平均池化捕获通道级全局信息，帮助网络在遮挡情况下仍能关注关键特征。2）多尺度特
目标追踪数据标注 sethrsinine 目标跟踪
在将YOLO（目标检测）和DeepSORT（目标追踪）结合时，数据标注需要同时满足检测和追踪的需求。以下是具体的分阶段标注策略和操作指南：一、标注的核心要求检测标注：每帧中目标的边界框（BoundingBox）和类别标签（如行人、车辆）。追踪标注：跨帧的目标ID（TrackID），确保同一目标在不同帧中ID一致。二、分阶段标注流程阶段1：视频预处理•目标：将视频转换为可标注的帧序列。•操作：使用F
【目标检测】YOLOv13：超图增强的实时目标检测新标杆，值得收藏。 Carl_奕然机器视觉与目标检测目标检测 YOLO 人工智能
一文掌握YOLOv13最新特性1、引言2、Yolov13详细讲解2.1发布时间与背景2.2相对于YOLOv12的核心提升2.2.1精度显著提升2.2.2轻量化与效率优化2.2.3高阶语义建模能力2.3架构设计与核心创新2.3.1超图自适应关联增强（HyperACE）2.3.2全流程聚合-分发（FullPAD）2.3.3轻量化模块设计2.4性能对比2.4代码示例2.4.1环境配置2.4.2训练代码2
RDK X5/X3 yolov5目标检测从环境搭建到设备集成激萌の小宅 YOLO YOLO 目标检测人工智能
1、RDKX5yolov5目标检测之训练环境搭建2、RDKX5yolov5目标检测之pt转onnx3、RDKX5yolov5目标检测之开发机环境部署4、RDKX5yolov5目标检测之onnx转bin5、RDKX5yolov5目标检测之开发板运行
口罩检测数据集-1591张图片疫情防控管理智能门禁系统公共场所安全监控 cver123 数据集目标跟踪人工智能计算机视觉目标检测 pytorch
口罩检测数据集-1591张图片已发布目标检测数据集合集（持续更新）口罩检测数据集介绍数据集概览包含类别应用场景数据样本展示文件结构与使用建议使用建议技术标签YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参
基于YOLOv5的监控摄像头遮挡检测系统：从数据集到UI界面的完整实现芯作者 D2:YOLO YOLO 神经网络
实时守护监控设备安全，智能识别遮挡攻击的AI解决方案一、问题背景与系统价值在安防监控领域，摄像头遮挡是常见的恶意攻击手段——统计显示35%的安防失效源于摄像头被遮挡。传统方案依赖人工巡查，效率低下且响应延迟。本文将带你构建完整的AI遮挡检测系统，核心创新点：双模检测机制：YOLOv5目标检测+背景建模异常分析轻量化部署：模型量化压缩至1.8MB动态学习：运行时自动更新异常样本库二、系统架构设计[视
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
基于YOLOv8和Faster R-CNN的输电线路异物目标检测项目检测输电线异物数据集输电线缺陷数据集绝缘子如何使用YOLOv8和Faster R-CNN训练输电线路异物目标检测数据集 QQ67658008 YOLO r语言 cnn 输电线路绝缘子线路异物目标检测
电力篇-输电线路缺陷数据集输电线路异物目标检测数据集16000张5种检测目标：‘burst’-爆裂‘defect’-缺陷‘foreign_obj’-异物‘insulator’-绝缘体‘nest’-窝（巢）带标注-YOLO格式可直接用于YOLO系列目标检测算法模型训练如何使用YOLOv8和FasterR-CNN训练输电线路异物目标检测数据集的详细步骤和代码。假设数据集包含16000张图片和5种检测目
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
YOLOv5-7.0解决报错 wandb: Network error (TransientError), entering retry loop. Paper Clouds Yolo目标检测 YOLO 人工智能机器学习 python pytorch 深度学习目标检测
前言最近在复习yolov5目标检测代码时用了yolov5的最新7.0版本，之前用的是5.0版本，这一新版本相对于之前做了一些提升，对于package的兼容也要好了很多，但也不是说下载了直接就能运行，实际使用过程中还是遇到了许多新的问题，下面就我自己碰到的问题提出解决方法。问题wandb是非常好用的可视化工具，但是国内的话，使用时常常会无法同步数据，需要借助魔法来连接服务器，而yolov5的源码恰恰
C++ OpenCV4 实现鱼眼镜头矫正朝风工作室 c++开发语言
一、为什么需要鱼眼镜头矫正？鱼眼镜头通过特殊的光学设计实现180°甚至更广的视野，广泛应用于全景相机、自动驾驶、安防监控等领域。但这种广角特性会引入严重的桶形畸变：直线边缘会向内弯曲（如图像边缘的门框变成弧线），物体尺寸在边缘区域会被拉伸。矫正的核心目标：将鱼眼镜头拍摄的畸变图像还原为接近人眼视觉的正常图像，便于后续的目标检测、图像拼接等处理。矫正前后效果对比（此处可插入图片）矫正前图像（鱼眼畸变
使用随机森林实现目标检测司南锤 python基础学习 AI 随机森林
核心实现思路滑动窗口策略：在图像上滑动固定大小的窗口，对每个窗口进行分类多维特征提取：结合统计特征、纹理特征、边缘特征、形状特征等随机森林分类：训练二分类器判断窗口是否包含目标后处理优化：使用非极大值抑制减少重复检测特征工程的重要性LBP纹理特征：捕捉局部纹理模式灰度共生矩阵：描述纹理的统计特性边缘密度：反映目标边界信息形状描述符：圆形度、面积比等几何特征实际应用建议数据收集：收集大量正负样本进行
深度学习目标检测中使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化计算机C9硕士_算法工程师深度学习目标检测 YOLO
深度学习目标检测中使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化文章目录1.环境设置2.数据准备3.模型训练4.推理与结果可视化推理代码示例5.构建可视化界面PyQt5GUI代码示例总结以下文字及代码仅供参考。树冠检测数据集的训练及推理1使用YOLOv8训练树冠检测数据集，从环境设置、数据准备、模型训练、推理和结果可视化等方面进行详细介绍。1.环境设置首先确保
学习昇腾开发的第8天派晟电子工作室学习昇腾
1、目标检测样例：MindXSDK应用开发入门-Atlas200IDKA2开发者套件23.0.RC3-昇腾社区配置环境变量。：./usr/local/Ascend/mxVision/set_env.sh2、修改IP地址：以root用户名登录开发者套件。打开配置文件。Ubuntu操作系统：执行cd/etc/netplan命令进入“netplan”目录，执行ll命令查看目录下是否有类似“xxxx-ne
DFT ATPG中core chain 和wrap chain区别芯作者 DFT技术分享智能硬件硬件工程
在DFT（可测试性设计）中，CoreChain（核心扫描链）和WrapChain（封装扫描链）是两种不同的扫描链结构，分别服务于内部逻辑测试（Intest）和互连测试（Extest）。它们的核心区别如下：一、本质区别特性CoreChain（核心扫描链）WrapChain（封装扫描链）作用对象芯片内部逻辑单元（如寄存器、组合逻辑）芯片I/O端口（输入/输出引脚）测试目标检测内部故障（Stuck-At
Python 人工智能Ai视觉模型 YOLOv8 GHY云端大师 python AI 大模型视觉训练人工智能 YOLO
YOLOv8简介：Python中的高效AI视觉模型YOLOv8是Ultralytics公司开发的最新目标检测模型，属于YOLO(YouOnlyLookOnce)系列的最新版本，以其高效和准确著称。核心特点高性能：在速度和精度之间取得了更好的平衡多功能：支持目标检测、实例分割和图像分类用户友好：简化了API设计，更易于使用可扩展性：支持从移动端到云端的多种部署场景主要改进更高的检测精度更快的推理速度
AI人工智能目标检测在体育赛事中的应用 AI大模型应用之禅人工智能目标检测计算机视觉 ai
AI人工智能目标检测在体育赛事中的应用关键词：目标检测、计算机视觉、深度学习、体育分析、YOLO、运动员追踪、比赛统计摘要：本文深入探讨了AI目标检测技术在体育赛事中的创新应用。我们将从计算机视觉基础出发，详细分析目标检测的核心算法原理，特别是YOLO系列模型在运动员和球类追踪中的实现方式。文章包含完整的数学模型解释、Python实战项目演示，以及在实际体育场景中的应用案例分析。最后，我们展望了这
【推理加速】TensorRT C++ 部署YOLO11全系模型 gloomyfish c++开发语言
YOLO11YOLO11C++推理YOLO11是Ultralytics最新发布的目标检测、实例分割、姿态评估的系列模型视觉轻量化框架，基于前代YOLO8版本进行了多项改进和优化。YOLO11在特征提取、效率和速度、准确性以及环境适应性方面都有显著提升，达到SOTA。TensorRTC++SDK最新版本的TensorRT10.x版本已经修改了推理的接口函数与查询输入输出层的函数，其中以YOLO11对
YOLO + OpenVINO 在英特尔平台部署实战：性能调优与跨架构加速全流程指南
YOLO+OpenVINO在英特尔平台部署实战：性能调优与跨架构加速全流程指南关键词：YOLOv5、YOLOv8、OpenVINO、英特尔部署、IR模型、异构加速、CPU推理、VPU、GPU、多设备调度、边缘计算摘要：本篇文章聚焦如何使用OpenVINO在英特尔平台高效部署YOLO系列目标检测模型，结合当前主流的YOLOv5与YOLOv8架构，详解模型格式转换、推理接口调用、多设备异构调度与性能优
深度解析YOLOv8：CSPHet卷积结构如何实现极致轻量化向哆哆 YOLO创新涨点系列 YOLO yolov8 架构目标检测机器学习
文章目录一、背景介绍1.1YOLOv8的现状1.2降参数的必要性二、相关技术介绍2.1Dual思想2.2HetConv三、CSPHet结构设计3.1CSP模块的改进3.2结合HetConv3.3参数量的下降四、CSPHet的代码实现五、实验结果六、总结与展望在目标检测领域，YOLO系列算法一直以其卓越的速度和准确率受到广泛关注。随着深度学习技术的不断发展，研究人员不断探索如何进一步优化YOLO算法
【深度学习加速探秘】Winograd 卷积算法：让计算效率 “飞” 起来 heimeiyingwang 算法深度学习算法人工智能
一、为什么需要Winograd卷积算法？从“卷积计算瓶颈”说起在深度学习领域，卷积神经网络（CNN）被广泛应用于图像识别、目标检测、语义分割等任务。然而，卷积操作作为CNN的核心计算单元，其计算量巨大，消耗大量的时间和计算资源。随着模型规模不断增大，传统卷积算法的计算效率成为限制深度学习发展的一大瓶颈。Winograd卷积算法的出现，犹如一把利刃，直击传统卷积计算的痛点。它通过巧妙的数学变换，大幅
深入研究YOLO算法改进中的注意力机制周立-ric
本文还有配套的精品资源，点击获取简介：YOLO算法因其高效和准确而在实时目标检测领域备受青睐。注意力机制的引入对YOLO算法的性能提升起到了关键作用，尤其是通过关注图像关键区域来提高检测精度。注意力机制可以细分为通道注意力、空间注意力、自注意力、多尺度注意力和位置感知注意力等类型，每种类型的注意力机制都旨在优化模型对图像特征的理解和处理。本文档提供了一个包含实现这些注意力机制的代码的压缩包，并介绍
目标检测——YOLOX算法解读
论文：YOLOX:ExceedingYOLOSeriesin2021(2021.7.18)作者：ZhengGe,SongtaoLiu,FengWang,ZemingLi,JianSun链接：https://arxiv.org/abs/2107.08430代码：https://github.com/Megvii-BaseDetection/YOLOXYOLO系列算法解读：YOLOv1通俗易懂版解读、
目标检测——YOLO11算法解读 lishanlu136 #目标检测目标检测 YOLO11 YOLO系列算法解读
作者：Ultralytics公司代码：https://github.com/ultralytics/ultralyticsYOLO系列算法解读：YOLOv1通俗易懂版解读、SSD算法解读、YOLOv2算法解读、YOLOv3算法解读、YOLOv4算法解读、YOLOv5算法解读、YOLOR算法解读、YOLOX算法解读、YOLOv6算法解读、YOLOv7算法解读、
（二十一）YOLO 全解析：从实时目标检测到多任务视觉智能只有左边一个小酒窝深度学习 YOLO 目标检测人工智能深度学习计算机视觉
1YOLO的发展脉络与技术定位1.1发展脉络YOLOv1（2015年）：将目标检测重新定义为单一回归问题，把输入图像划分为S×S网格，每个网格单元负责预测固定数量的边界框及对应的类别概率，直接从像素回归预测物体的边界框坐标和类别概率。但存在小目标检测能力弱、定位精度不足等局限。YOLOv2（2016年）：引入批量归一化、锚框、维度集群等技术，还提出了高分辨率分类器、直接位置预测、细粒度特征融合、多
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

目标检测论文笔记 2019.11

文章目录

General

《MoCo: Momentum Contrast for Unsupervised Visual Representation Learning 》2019

Instance Segmentation

《Mask RCNN》2018

Object detection

Pipeline

《selective search for object recognition》2012

《R-CNN》2014 /《Fast R-CNN》2015 /《Faster R-CNN》2015 /《R-FCN》2016

《Cascade R-CNN: delving into high quality object detection》

《Grid R-CNN》

《YOLO: you only look once》2016

《YOLO v2》2016 / 《YOLO v3》2018

《SSD:single shot multibox detector》2016

《CornerNet: detecting objects as paired keypoints》2019

《CenterNet: Objects as points》2019

《FCOS: Fully convolutionall one-stage object detection》2019

Tricks

《FPN: feature pyramid networks for object detection》 2017

《DCN: Deformable convolutional networks》2017

《RetinaNet: Focal loss for dense object detection》2018

《GA: Region Proposal by Guided Anchoring 》2019

你可能感兴趣的:(目标检测)