不断进步的咸鱼

【目标检测】CenterNet:Objects as Points论文理解

文章目录

摘要
1 介绍
2 相关工作
3 准备工作
4 目标作为点
- 4.1 3D检测
- 4.2 人体姿态估计
5 实现细节
6 实验
- 6.1 目标检测
- - 6.1.1 额外实验
- 6.2 3D检测
- 6.3 姿态估计
7 结论
8 附录
- 8.1 附录A——碰撞实验细节
- 8.2 附录B——Pascal VOC实验
- 8.3 附录C——错误分析

摘要

目标检测：
将目标识别为图像中与轴对齐的方框。大多数成功的目标检测器列举出几乎详尽的潜在目标位置列表，并进行分类。这种方式浪费、效率低下，并且需要额外的后处理。
本文：
采用了一种不同的方法，将目标建模为一个单一点——目标边界框的中心点。目标检测器使用关键点估计来找到目标中心点，并回归目标的所有其他属性，如大小、3D位置、方向、甚至姿态。
本文基于中心点的方法——CenterNet，是端到端可微的（不需要后处理操作，如NMS），比相应的基于边界框的检测器更简单、更快、更准确。
实验结果：
（1）目标检测：CenterNet在MS COCO数据集上取得了最好的速度-精度平衡。
（2）3D目标检测&人体姿态估计：与复杂的多阶段方法具有竞争力，并实时运行。

1 介绍

目标检测是计算机视觉的基础技术：
目标检测为许多视觉任务提供了强大的功能，如实例分割、姿态估计、跟踪和动作识别。它的下游应用有监控、自动驾驶、视觉问答。
当前目标检测器：
当前的目标检测器：首先，通过一个紧密包含目标且与轴对其的边界框来表示每个目标；然后，将目标检测简化为大量潜在目标边界框的分类，对于每个边界框，分类器确定边界框内容是特定目标还是背景。
（1）单阶段检测器：在图像上滑动复杂排列的anchor boxes，不指定框内容直接对它们进行分类。
（2）两阶段检测器：重新计算每个潜在边界框内的图像特征，然后对这些特征进行分类。
后处理（NMS）通过计算边界框IoU来移除相同实例的重复检测。 后处理很难区分和训练，因此目前大多数检测器都是端到端不可训练的。 尽管如此，在过去的5年里，这一想法取得了很好的实证成功。
（3）基于滑动窗口的目标检测器：需要枚举所有可能的目标位置和尺寸，浪费。
本文方法：

提供一个更简单、有效的替代方案。使用目标边界框的中心点来表示目标(图2)，直接从中心点位置的图像特征回归得到目标其他属性如目标大小、维度、3D范围、方向和姿态。CenterNet使目标检测变为一个标准的关键点估计问题，只需将输入图像输入到一个全卷积网络生成热图，热图中的峰值与目标中心相对应，每个峰值处的图像特征预测目标的边界框高度和宽度。训练：使用标准密集监督学习进行训练。推理：是一个单一网络的前向传递，没有非极大值抑制的后处理操作。
本文方法优点：
（1）通用的，可以扩展到其他的任务，如3D目标检测、人体姿态估计。
（2）运行速度快，如图1。

代码：https://github.com/xingyizhou/CenterNet

2 相关工作

基于区域分类的目标检测：
（1）RCNN：第一个成功的基于深度学习的目标探测器，从大量候选区域中枚举目标位置，裁剪图像块，并使用深度网络分类。
（2）Fast RCNN：为节省计算，裁剪图像特征。
上述方法都依赖于缓慢的低级区域提议方法，如选择性搜索算法。
使用隐式anchor的目标检测：
（1）Faster RCNN：在检测网络内生成区域建议——在低分辨率图像网格周围采样固定形状的边界框（anchors）；将每个边界框分类为“前景”(与GT的IoU>0.7的锚框)或“背景”(与任意GT的IoU<0.3的锚框)，其他IoU的锚框被忽略；之后每个生成的区域建议被再次分类。
（2）单阶段检测器：将区域建议分类器改变为多类分类，形成了单阶段检测器的基础。单阶段检测器的一些改进包括先验anchor形状、不同特征分辨率、不同样本之间的损失重加权。
（3）本文方法：与基于anchor的单阶段方法密切相关——一个中心点可以被看作一个单一的形状无关的anchor(见图3)。

与基于anchor的单阶段方法的区别：
①CenterNet分配“anchor”完全基于位置，而不是框重叠，对于前景和背景分类，没有人工阈值。
②每个目标只有一个正“anchor”，因此不需要非极大值抑制(NMS)，只需简单提取关键点热图中的局部峰值。
③与传统单阶段目标检测器(stride=16)相比，CenterNet使用了更大的输出分辨率(stride=4)，消除了对多个anchos的需要。
基于关键点估计的目标检测：
本文不是第一个使用关键点估计来检测目标的。
（1）CornerNet：检测两个边框角作为关键点
（2）ExtremeNet：检测所有目标的顶部、左边、底部、右边和中心点。
CornerNet、ExtremeNet都建立在与CenterNet相同的关键点估计网络。然而，它们需要在关键点检测后进行组合分组，大大降低了算法的运行速度。本文CenterNet只为每个目标提取一个中心点，而不需要进行分组或后处理。

3 准备工作

（1）网络输入：为宽W高h的输入图像。
（2）网络输出（预测关键点热图）：为关键点热图，R为输出步长，输入图像以输出因子R被下采样（默认R = 4），C为关键点类型数，在目标检测中C = 80个目标类别。
中心关键点：代表检测到的一个关键点，在关键点热图中该点的值为1。
背景：为检测到的背景，在关键点热图中该位置的值为0。
（3）主干网络：
使用几种不同的全卷积编码-解码器网络，从输入图像I中预测热图ˆY，包括堆叠沙漏网络（hourglass ）、反卷积残差网络(ResNet)和深层聚合(DLA)网络。
（4）GT关键点热图：
首先，对每一个c类的GT关键点p∈R²计算一个低分辨率的等价标识
然后，将所有的GT关键点使用一个高斯核映射到热图，其中σ_p为目标大小自适应的标准差。如果同一类的两个高斯分布重叠，取元素的最大值。
（5）中心点预测损失&偏移损失：
中心点预测损失： 使用GT关键点热图和网络预测的关键点热图进行计算得到

其中α和β为focal损失的超参数，N为图像I中关键点的个数，选择N归一化将所有正focal实例归一化为1，实验均采用α = 2和β = 4。
中心点偏移损失： 为了恢复输出步长引起的离散化误差，对每个中心点预测一个局部偏移所有类c共享相同的偏移预测。用L1损失来训练偏移量

该监督仅作用于GT关键点位置p~，其他所有位置均被忽略。

4 目标作为点

边界框：目标k类别c_k的边界框。
边界框中心点：
边界框大小： 目标大小
边界框大小损失： 使用关键点估计器ˆY（既关键点热图）来预测所有目标中心点，并对每个目标k回归到目标大小。为了限制计算量，对所有目标类别使用单个大小预测。目标大小L1损失:
总损失：
不归一化尺度而是直接使用原始像素坐标。总的训练损失是：关键点预测损失、关键点偏移损失、边界框大小损失

除特别说明实验设定λ_size= 0.1，λ_off = 1。使用单个共享的全卷积骨干网来预测目标关键点ˆY、关键点偏移ˆO、目标大小ˆS，每个预测头部，主干的特征都通过一个3 × 3卷积、ReLU和另一个1 × 1卷积。（图4网络输出概述）网络在每个位置预测C + 4输出——C为类别数量、2为中心点偏移、2为目标大小

从点到边界框：
（1）提取C类热图的峰值，获取C类目标中心点： 推理时首先独立地提取每个类热图中的峰值——既检测该类热图中所有值大于或等于它的8个连接邻居的响应点（峰值），保持前100个峰值。
（2）中心点产生边界框： ˆP_c为c类的n个检测到的中心点集合，每个中心关键点的位置由整数坐标(x_i, y_i)给出。关键点值为检测置信度的度量，在该关键点位置产生一个边界框

其中是偏移量预测是边界框大小预测。
总结：所有输出直接从关键点估计产生，不需要基于IoU的非极大值抑制(NMS)或其他后处理。峰值关键点提取作为一种充分的NMS替代方案，可以在设备上使用3 × 3最大池操作有效实现。

4.1 3D检测

4.2 人体姿态估计

5 实现细节

四种架构：
ResNet-18、ResNet101、DLA-34和Hourglass-104。使用可变形卷积层修改了ResNet和DLA-34。

（1）沙漏网络： 堆叠的沙漏网络对输入进行4×采样，然后是两个连续的沙漏模块。每个沙漏模块是一个对称的5层卷积-向上卷积网络，并带有跳跃连接。这个网络相当大，但通常产生最佳的关键点估计性能。
（2）ResNet： 用三个向上卷积网络增强标准残差网络，以实现更高分辨率的输出(输出步幅为4)。首先将三个上采样层的通道分别更改为256,128,64以节省计算；然后在每个向上卷积之前分别添加一个3 × 3可变形卷积层，通道分别为256,128,64，反卷积核初始化为双线性插值。
（3）DLA ： Deep Layer Aggregation (DLA)是一种具有分层跳跃连接的图像分类网络。利用DLA的全卷积上采样版本进行密集预测，该网络使用迭代深度聚合来对称地增加特征图分辨率，我们通过可变形卷积从下层到输出增强了跳跃连接。具体来说，在每一个上采样层，用3×3变形卷积代替原来的卷积。
主干架构输出特征图，该特征图作为3个预测头部（热图、偏移、尺寸）的输入，三个预测头部由一个256通道的3 × 3卷积和一个1 × 1的卷积构成，然后产生期望的输出。
训练设置：
（1）输入和输出： 在512 × 512的输入分辨率上进行训练。产生一个输出分辨率为128×128。
（2）数据增强： 随机翻转、随机缩放(0.6-1.3)、裁剪和颜色抖动
（3）优化器： 使用Adam优化器来优化整体目标。
（4）批量和学习率：
ResNet和DLA-34，使用批量大小为128和5e-4的学习速率进行140个epoch的训练，在90和120个epoch学习速率分别下降10×。
Hourglass-104，使用批量大小29和学习率2.5e-4，训练50个epoch，在40个epoch学习率下降10×。
（5）预训练模型： 微调了ExtremeNet中的Hourglass-104以节省计算。利用ImageNet预训练模型对Resnet101和DLA-34的下采样层进行初始化，对上采样层进行随机初始化。
（6）训练时间： resnet - 101和DLA-34在8个TITAN-V GPU上训练需要2.5天，而Hourglass-104则需要5天。
推理设置：
使用三种程度的测试增强：无增强、翻转增强、翻转和多尺度增强(0.5,0.75,1,1.25,1.5)。
对于翻转，在解码边界框之前对网络输出进行平均；对于多尺度，使用NMS来合并结果。
这些增强会产生不同的速度-精度权衡。

6 实验

实验数据： 在包含118k训练图像(train2017)、5k验证图像(val2017)和20k测试验证图像(test-dev)的MS COCO数据集上评估目标检测性能。
实验度量： IOU阈值下的平均精度(AP)，IOU阈值0.5(AP50)和0.75 (AP75)时的AP。
补充含有额外PascalVOC实验。

6.1 目标检测

表1显示了使用不同的主干和测试选项进行COCO验证的结果。图1比较了CenterNet和其他实时检测器。
Hourglass-104： 以相对较快的速度获得了最佳的精度（7.8 FPS和42.2%AP）。CenterNet利用该主干网络在速度和精度上都优于CornerNet(40.6% AP和4.1 FPS)和ExtremeNet(40.3% AP和 3.1 FPS)。速度改进来自于更少的输出头部和更简单的边界框解码方案。精度改进表明中心点比角点或极端点更容易检测。
ResNet-101： 使用相同主干表现优于RetinaNet。本文只在上采样层使用了可变形的卷积，这不影响RetinaNet。同样的精度下，CenterNet速度是RetinaNet的两倍多。CenterNet使用ResNet-18模型在142帧/秒的情况下也达到了28.1%的性能。
DLA-34： 提供了最好的速度/精度平衡，它以每秒52帧的速度运行，AP为37.4%，速度是YOLOv3的两倍多，AP高4.4%。通过翻转测试，本文模型仍然提供比YOLOv3快，并且达到了faster - rcnn - fpn的精度水平。
最先进检测器比较：

表2与其他最先进的检测器进行比较。通过多尺度评估，CenterNet+Hourglass104的AP达到45.1%，优于现有的所有单阶段检测器。复杂的两阶段检测器更精确，但也更慢。CenterNet的行为与常规检测器类似，只是速度更快。

6.1.1 额外实验

在不幸的情况下，两个不同的目标如果完全对齐可能共享同一个中心，在这种情况下，CenterNet将只检测其中一个。首先研究这种情况在实践中发生的频率，并将其与竞争方法的漏检联系起来。
（1）实践中发生的概率： 在COCO训练集中，有614对目标在步长为4的特征图上碰撞同一个中心点，而COCO数据集中总共有860001个目标，由于中心点碰撞，CenterNet无法预测的目标数量< 0.1%。远远小于slow或fastRCNN由于不完美区域建议而造成的漏检(~2%)，也小于基于anchor的方法由于锚点放置不足而造成的漏检。此外，715对目标边界框之间的IoU > 0.7，将被分配到两个anchor，因此基于中心的分配导致较少的碰撞。
（2）NMS： 为了验证CenterNet不需要基于IoU的NMS，使用NMS作为CenterNet预测的后处理步骤运行时。DLA-34 (翻转测试)的AP从39.2%提高到39.7%。Hourglass-104, AP保持在42.2%。考虑到轻微的影响，不使用NMS。
（3）训练和测试分辨率： 在训练期间，将输入分辨率固定到512×512。在测试过程中，遵循CornerNet保持原始图像的分辨率，并将输入0填充至网络最大步幅。对于ResNet和DLA，使用最多32像素填充图像，对于HourglassNet，使用128像素。如表3a所示，保持原来的分辨率比固定测试分辨率稍好。在较低分辨率(384 × 384)下训练和测试速度要快1.7倍，但AP会下降。

（4）回归损失： 比较普通的L1损失和Smooth L1损失。我们在表3c中的实验表明，L1比平滑L1要好得多。它在精细尺度上产生更好的精度，这是在关键点回归中独立观察到的。

（5）边界框大小权重： 分析本文方法对损失权值λ_size的敏感性。表3b显示0.1有一个好的结果。当AP值较大时，由于损失的范围从0到输出大小w/R或h/R，而不是从0到1,AP的退化很明显。但是对于较低的权重，该值不会显著降低。

（6）训练流程： 默认情况下，对关键点估计网络进行140epoch训练，学习速率在90epoch时下降。在降低学习率之前将训练时间加倍，则性能将进一步提高1.1个AP(表3d)，代价是更长的训练时间。为了节省计算资源在消融实验中使用了140个epoch，但与其他方法相比，DLA使用了230个epoch。

最后通过回归到多个目标大小来尝试CenterNet的多个“anchor”版本。这些实验没有取得任何成功，见补充。

6.2 3D检测

6.3 姿态估计

7 结论

提出了一种新的目标表示方法——作为点。CenterNet目标检测器建立在成功的关键点估计网络上，找到目标中心，并回归目标的大小。该算法简单、快速、准确、端到端可微，无需任何NMS后处理。
本文设计理念是通用的，并且有广泛的应用，不仅仅是简单的二维检测。CenterNet可以在一次向前传播中估算一系列额外的目标属性，如姿态、3D方向、深度和范围。
为实时目标检测和相关任务开辟了新的方向。

8 附录

8.1 附录A——碰撞实验细节

分析COCO训练集标注：
目的是显示碰撞案例发生的频率。COCO训练集(train 2017)包含N = 118287幅图像和M= 860001个目标(M_S= 356340个小型目标，M_M= 295163个中型目标，M_L= 208498个大型目标)，共80个类别。
中心点碰撞：
令图像K的类别为c的第i个边界框是边界框中心在4×步长下为，n ^(kc)为图像k中类别c的目标个数。中心点碰撞次数计算为：

在数据集上得到Ncenter= 614。
IoU的碰撞：
类似地计算两个边界框基于IoU的碰撞

得到N_{[email protected]}= 715和N_{[email protected]}= 5179。
基于anchor的检测器漏检的目标：
RetinaNet将anchor分配给与其IoU> 0.5的GT框，如果一个GT框没有任何anchor与其IoU > 0.5，则将IoU最大的anchor赋给它。
计算这种强制分配发生的频率，在stride S = 16时，使用15个anchors(5个大小：32,64,128,256,512，和3个长宽比：0.5,1,2)。对于每幅图像，将其短边大小调整为800后，将这些anchor放置在位置，其中和
。W, H是图像的宽和高(较小的等于800)。这导致一系列锚点A .
。通过以下方法计算强制分配的anchor的数量

RenitaNet需要强制分配的数量为N_anchor= 170220，其中125831用于小型目标(小型目标的35.3%)，18505用于中型目标(中型目标的6.3%)，25884用于大型目标(大型目标的12.4%)。

8.2 附录B——Pascal VOC实验

Pascal VOC数据集：
Pascal VOC是一种流行的小目标检测数据集。在VOC 2007和VOC 2012训练集上进行训练，在VOC 2007测试集上进行测试，包含16551个训练图像，4962个测试图像，类别数量为20。评估指标是IoU=0.5的均值平均精度(mAP)。
网络训练设置：
改进的ResNet-18、ResNet101和DLA-34在384×384和512×512两个分辨率下进行实验。所有网络训练70epoch，学习速率分别在45和60epoch时下降10倍；批量32和学习率1.25e-4，遵循线性学习率规则。
网络训练时间：
单个GPU上，384×384分辨率下训练ResNet-101和DLA-34分别需要7小时/ 10小时。对于512 × 512，在两个gpu上训练花费的时间是一样的。翻转增强用于测试，所有其他超参数都与COCO实验相同。从零开始训练Hourglass104时，它不能在合理的时间(2天)内收敛

网络性能比较：
结果如表，最好的CenterNet-DLA模型与顶级方法具有竞争力，并保持实时速度。

8.3 附录C——错误分析

通过用GT值替换每个输出头来进行误差分析：
对于中心点热图，使用渲染的高斯GT值热图。
对于边界框盒大小，对每个检测使用最近的GT大小。

表7结果表明，两个尺寸映射的改进都会带来适度的性能提升，而中心映射的提升则要大得多。如果没有预测关键点偏移量，则最大AP值为83.1。由于高斯热图渲染中的离散化和估计误差，整个GT流失了约0.5％的目标。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
目标检测之数据增强
数据翻转，需要把bbox相应的坐标值也进行交换代码：importrandomfromtorchvision.transformsimportfunctionalasFclassCompose(object):"""组合多个transform函数"""def__init__(self,transforms):self.transforms=transformsdef__call__(self,ima
模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测明月醉窗台 #深度学习实战例程人工智能 c++YOLO 目标检测计算机视觉人工智能
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程+all代码1.Python环境下推理直接命令行推理，巨简单yolodetectpredictmodel=yolov8n.ptsource='https
【零基础学AI】第31讲：目标检测 - YOLO算法 1989 0基础学AI 人工智能目标检测 YOLO rnn lstm tensorflow
本节课你将学到YOLO算法的核心思想和工作原理如何使用YOLO进行物体检测构建一个简单的物体检测系统开始之前环境要求Python3.8+需要安装的包：opencv-python,numpy,matplotlib硬件要求：推荐使用GPU（非必须）前置知识基本Python编程能力了解卷积神经网络（CNN）的基本概念（第24讲内容）核心概念什么是目标检测？目标检测就像教计算机"看"图片中的物体。它不仅要
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
如何使用目标检测深度学习框架yolov8训练钢管管道表面缺陷VOC+YOLO格式1159张3类别的检测数据集步骤和流程 FL1623863129 深度学习目标检测深度学习 YOLO
【数据集介绍】数据集中有很多增强图片，大约300张为原图剩余为增强图片数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1159标注数量(xml文件个数)：1159标注数量(txt文件个数)：1159标注类别数：3所在仓库：firc-dataset标注类别名称(注意yo
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
万字长文详解YOLOv8 yaml 文件，结合模型输出的网络结构图分析Parameters /backbone/head以及三者的数学关联 YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例之前写过一篇YOLOv8yaml配置文件逐层的解析：结合YOLOv8源码逐层解读yaml文件的配置，本文主要从整体的角度去解析yaml。YOLOv8模型YOLOv8提供了非常多的模型，详见：https:
万字长文带你搞懂yolov5和yolov8以及目标检测相关面试起个别名 C++YOLO 目标检测目标跟踪
一、与yoloV4相比，yoloV5的改进输入端：在模型训练阶段，使用了Mosaic数据增强、自适应锚框计算、自适应图片缩放基准网络：使用了FOCUS结构和CSP结构Neck网络：在Backbone和最后的Head输出层之间插入FPN_PAN结构Head输出层：训练时的损失函数GIOU_Loss，预测筛选框的DIOU_nms二、yolov5网络结构预处理在模型预处理阶段，使用了Mosaic数据增强
YOLOv11模型轻量化挑战技术文章大纲程序猿全栈の董（董翔） github YOLOv11
模型轻量化的背景与意义目标检测模型YOLOv11的性能与应用场景轻量化的必要性：边缘设备部署、实时性需求、计算资源限制轻量化面临的挑战：精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化：深度可分离卷积、分组卷积、瓶颈设计模型剪枝：结构化剪枝与非结构化剪枝策略知识蒸馏：教师-学生模型框架与特征匹配方法量化与低比特压缩：FP16/INT8量化与二值化网络轻量化实现的具体方
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
NanoDet 深度学习物料自动分类系统 YOLO实战营深度学习分类人工智能数据挖掘 NanoDet
引言随着工业自动化和物料管理的不断发展，物料的自动分类在仓储、物流、生产线等场景中的应用越来越广泛。传统的物料分类方式往往依赖人工操作，效率低下且容易出错，而基于深度学习的自动分类系统能够大大提高工作效率、降低错误率并实现高效管理。在众多深度学习技术中，物体检测算法被广泛应用于自动分类系统。NanoDet作为一款轻量级的目标检测算法，凭借其出色的速度与准确性，成为解决物料自动分类问题的一种理想选择
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
apache ftpserver-CentOS config gengzg apache
<server xmlns="http://mina.apache.org/ftpserver/spring/v1" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://mina.apache.o
优化MySQL数据库性能的八种方法 AILIKES sql mysql
1、选取最适用的字段属性　　MySQL可以很好的支持大数据量的存取，但是一般说来，数据库中的表越小，在它上面执行的查询也就会越快。因此，在创建表的时候，为了获得更好的性能，我们可以将表中字段的宽度设得尽可能小。例如，在定义邮政编码这个字段时，如果将其设置为CHAR(255),显然给数据库增加了不必要的空间，甚至使用VARCHAR这种类型也是多余的，因为CHAR(6)就可以很
JeeSite 企业信息化快速开发平台 Kai_Ge JeeSite
JeeSite 企业信息化快速开发平台平台简介 JeeSite是基于多个优秀的开源项目，高度整合封装而成的高效，高性能，强安全性的开源Java EE快速开发平台。 JeeSite本身是以Spring Framework为核心容器，Spring MVC为模型视图控制器，MyBatis为数据访问层， Apache Shiro为权限授权层，Ehcahe对常用数据进行缓存，Activit为工作流
通过Spring Mail Api发送邮件 120153216 邮件 main
原文地址：http://www.open-open.com/lib/view/open1346857871615.html 使用Java Mail API来发送邮件也很容易实现，但是最近公司一个同事封装的邮件API实在让我无法接受，于是便打算改用Spring Mail API来发送邮件，顺便记录下这篇文章。【Spring Mail API】 Spring Mail API都在org.spri
Pysvn 程序员使用指南 2002wmj SVN
源文件:http://ju.outofmemory.cn/entry/35762 这是一篇关于pysvn模块的指南. 完整和详细的API请参考 http://pysvn.tigris.org/docs/pysvn_prog_ref.html. pysvn是操作Subversion版本控制的Python接口模块. 这个API接口可以管理一个工作副本, 查询档案库, 和同步两个. 该
在SQLSERVER中查找被阻塞和正在被阻塞的SQL 357029540 SQL Server
SELECT R.session_id AS BlockedSessionID , S.session_id AS BlockingSessionID , Q1.text AS Block
Intent 常用的用法备忘 7454103 .net android Google Blog F#
Intent 应该算是Android中特有的东西。你可以在Intent中指定程序要执行的动作（比如：view,edit,dial），以及程序执行到该动作时所需要的资料。都指定好后，只要调用startActivity()，Android系统会自动寻找最符合你指定要求的应用程序，并执行该程序。下面列出几种Intent 的用法显示网页:
Spring定时器时间配置 adminjun spring 时间配置定时器
红圈中的值由6个数字组成，中间用空格分隔。第一个数字表示定时任务执行时间的秒，第二个数字表示分钟，第三个数字表示小时，后面三个数字表示日，月，年，< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" /> 测试的时候，由于是每天定时执行，所以后面三个数
POJ 2421 Constructing Roads 最小生成树 aijuans 最小生成树
来源：http://poj.org/problem?id=2421 题意：还是给你n个点，然后求最小生成树。特殊之处在于有一些点之间已经连上了边。思路：对于已经有边的点，特殊标记一下，加边的时候把这些边的权值赋值为0即可。这样就可以既保证这些边一定存在，又保证了所求的结果正确。代码： #include <iostream> #include <cstdio>
重构笔记——提取方法（Extract Method） ayaoxinchao java 重构提炼函数局部变量提取方法
提取方法（Extract Method）是最常用的重构手法之一。当看到一个方法过长或者方法很难让人理解其意图的时候，这时候就可以用提取方法这种重构手法。下面是我学习这个重构手法的笔记：提取方法看起来好像仅仅是将被提取方法中的一段代码，放到目标方法中。其实，当方法足够复杂的时候，提取方法也会变得复杂。当然，如果提取方法这种重构手法无法进行时，就可能需要选择其他
为UILabel添加点击事件 bewithme UILabel
默认情况下UILabel是不支持点击事件的，网上查了查居然没有一个是完整的答案，现在我提供一个完整的代码。 UILabel *l = [[UILabel alloc] initWithFrame:CGRectMake(60, 0, listV.frame.size.width - 60, listV.frame.size.height)]
NoSQL数据库之Redis数据库管理(PHP-REDIS实例) bijian1013 redis 数据库 NoSQL
一.redis.php <?php //实例化 $redis = new Redis(); //连接服务器 $redis->connect("localhost"); //授权 $redis->auth("lamplijie"); //相关操
SecureCRT使用备注 bingyingao secureCRT 每页行数
SecureCRT日志和卷屏行数设置一、使用securecrt时，设置自动日志记录功能。 1、在C:\Program Files\SecureCRT\下新建一个文件夹(也就是你的CRT可执行文件的路径），命名为Logs； 2、点击Options -> Global Options -> Default Session -> Edite Default Sett
【Scala九】Scala核心三：泛型 bit1129 scala
泛型类 package spark.examples.scala.generics class GenericClass[K, V](val k: K, val v: V) { def print() { println(k + "," + v) } } object GenericClass { def main(args: Arr
素数与音乐 bookjovi 素数数学 haskell
由于一直在看haskell，不可避免的接触到了很多数学知识，其中数论最多，如素数，斐波那契数列等，很多在学生时代无法理解的数学现在似乎也能领悟到那么一点。闲暇之余，从图书馆找了<<The music of primes>>和<<世界数学通史>>读了几遍。其中素数的音乐这本书与软件界熟知的&l
Java-Collections Framework学习与总结-IdentityHashMap BrokenDreams Collections
这篇总结一下java.util.IdentityHashMap。从类名上可以猜到，这个类本质应该还是一个散列表，只是前面有Identity修饰，是一种特殊的HashMap。简单的说，IdentityHashMap和HashM
读《研磨设计模式》-代码笔记-享元模式-Flyweight bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.HashMap; import java.util.List; import java
PS人像润饰&调色教程集锦 cherishLC PS
1、仿制图章沿轮廓润饰——柔化图像，凸显轮廓 http://www.howzhi.com/course/retouching/ 新建一个透明图层，使用仿制图章不断Alt+鼠标左键选点，设置透明度为21%，大小为修饰区域的1/3左右（比如胳膊宽度的1/3），再沿纹理方向（比如胳膊方向）进行修饰。所有修饰完成后，对该润饰图层添加噪声，噪声大小应该和
更新多个字段的UPDATE语句 crabdave update
更新多个字段的UPDATE语句 update tableA a set (a.v1, a.v2, a.v3, a.v4) = --使用括号确定更新的字段范围
hive实例讲解实现in和not in子句 daizj hive not in in
本文转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法，所以只能通过left join实现。假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户，字段只有一个uid)，这两个表都包含
一道24点的10+种非人类解法（2,3,10,10） dsjt 算法
这是人类算24点的方法？！！！事件缘由：今天晚上突然看到一条24点状态，当时惊为天人，这NM叫人啊？以下是那条状态朱明西 : 24点，算2 3 10 10，我LX炮狗等面对四张牌痛不欲生，结果跑跑同学扫了一眼说，算出来了，2的10次方减10的3次方。。我草这是人类的算24点啊。。然后么。。。我就在深夜很得瑟的问室友求室友算刚出完题，文哥的暴走之旅开始了 5秒后
关于YII的菜单插件 CMenu和面包末breadcrumbs路径管理插件的一些使用问题 dcj3sjt126com yii framework
在使用 YIi的路径管理工具时，发现了一个问题。 <?php
对象与关系之间的矛盾：“阻抗失配”效应[转] come_for_dream 对象
概述 “阻抗失配”这一词组通常用来描述面向对象应用向传统的关系数据库（RDBMS）存放数据时所遇到的数据表述不一致问题。C++程序员已经被这个问题困扰了好多年，而现在的Java程序员和其它面向对象开发人员也对这个问题深感头痛。 “阻抗失配”产生的原因是因为对象模型与关系模型之间缺乏固有的亲合力。“阻抗失配”所带来的问题包括：类的层次关系必须绑定为关系模式（将对象
学习编程那点事 gcq511120594 编程互联网
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
Reverse Linked List II hcx2013 list
Reverse a linked list from position m to n. Do it in-place and in one-pass. For example:Given 1->2->3->4->5->NULL, m = 2 and n = 4, return
Spring4.1新特性——页面自动化测试框架Spring MVC Test HtmlUnit简介 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Hadoop集群工具distcp liyonghui160com
1. 环境描述两个集群：rock 和 stone rock无kerberos权限认证，stone有要求认证。 1. 从rock复制到stone，采用hdfs Hadoop distcp -i hdfs://rock-nn:8020/user/cxz/input hdfs://stone-nn:8020/user/cxz/运行在rock端，即源端问题：报版本
一个备份MySQL数据库的简单Shell脚本 pda158 mysql 脚本
　　主脚本（用于备份mysql数据库）：　　该Shell脚本可以自动备份数据库。只要复制粘贴本脚本到文本编辑器中，输入数据库用户名、密码以及数据库名即可。我备份数据库使用的是mysqlump 命令。后面会对每行脚本命令进行说明。　　 1. 分别建立目录“backup”和“oldbackup” 　　#mkdir /backup 　　#mkdir /oldbackup 　
300个涵盖IT各方面的免费资源（中）——设计与编码篇 shoothao IT资源图标库图片库色彩板字体
A. 免费的设计资源 Freebbble:来自于Dribbble的免费的高质量作品。 Dribbble:Dribbble上“免费”的搜索结果——这是巨大的宝藏。 Graphic Burger:每个像素点都做得很细的绝佳的设计资源。 Pixel Buddha:免费和优质资源的专业社区。 Premium Pixels:为那些有创意的人提供免费的素材。
thrift总结 - 跨语言服务开发 uule thrift
官网官网JAVA例子 thrift入门介绍 IBM-Apache Thrift - 可伸缩的跨语言服务开发框架 Thrift入门及Java实例演示 thrift的使用介绍 RPC POM： <dependency> <groupId>org.apache.thrift</groupId>