BIT_Legend

CenterNet目标检测模型及CenterFusion融合目标检测模型

CenterNet是一种端到端的基于free-anchor的目标检测模型，其继承自CornerNet目标检测模型，可以很容易迁移到例如3D目标检测和人体关键点检测等任务。该模型发表自2019年，在MS COCO 数据集上在速度与准确率方面取得了最好的平衡, 142 FPS时有28.1% AP , 52 FPS时有37.4% AP，多尺度测试时可以达到45.1% AP和 1.4 FPS。CenterNet并没有完全超越STOA，而是在速度和精度之间的一种平衡。

CenterFusion是一种通过融合毫米波雷达数据和可见光相机数据进行3D目标检测模型，其包含一个CenterNet的3D目标检测子网络，该模型属于中端融合模型，其发表于2021的WACV，论文名称 “CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection“，作者在nuScenes数据集上评估了该方法，使用了challenging 3D检测基准，结果该方法比其他最优的基于图像的目标检测算法效果都好！

CenterNet论文：https://arxiv.org/abs/1904.07850
CenterNet代码：https://github.com/xingyizhou/CenterNet

CenterFusion论文：https://arxiv.org/pdf/2011.0484
CenterFusion代码：https://github.com/mrnabati/CenterFusion

一、CenterNet目标检测模型

CenterNet是端到端的无anchor的模型，采用编码器+解码器的沙漏型结构，上采样前均采用了可变形卷积模块，上采样均采用转置卷积，最终输出矩阵的分辨率是输入图片的1/4，具有更高的输出分辨率，所以不用采用fpn的结构进行多尺度输出，由于该模型直接回归出目标物的中心点坐标和宽高，不再采用anchor，所以也不用耗时的nms等后处理手段【2】。

1. 网络结构

模型的基本结构如下图所示【1】，该模型主干为一层一层的卷积网络层，输出包含3个head，分别对应深度为nclass的类别、深度为2的中心点偏移量、深度为2的宽高。每个head的空间分辨率是输入图片的1/4，如下图输入图片是3*512*512，输出矩阵是80*128*128、2*128*128、2*128*128。

论文中使用了3种backbone做对比实验，结论是：

a：Hourglass沙漏网络，45.1% COCO AP and 1.4 FPS。

b：ResNet，同时增加转置卷积(deformable conv)，28.1% COCO AP and 142 FPS。

c：原始的DLA-34语义分割网络。

d：修改过的DLA-34，增加了FPN结构，37.4% COCO AP and 52 FPS。

所以DLA-34是一种比较折中的选择，这里的DLA-34并非原生模型，原生模型的输出分辨率是输入分辨率的1/2，且没有使用可变形卷积和最后的FPN结构【7】。

2. 模型推理

模型的前向推理结构和训练结构如下图所示【3】，输入图片经过层层卷积得到三个矩阵，分别对应着类别、中心点偏移量和宽高。后处理过程为：

1. 对类别矩阵进行sigmoid操作和3*3的即8邻域范围内的极大值提取，该操作通过MaxPooling实现，实现代码见【6】，该操作代替了base-anchor中的nms操作，所以该模型不需要耗时的nms操作，据说把3*3的极大值提取更换为5*5或者7*7，mAP能有轻微提升【6】。为了说明CenterNet不依赖NMS，作者做了实验，发现在DLA-34上使用NMS比不使用NMS，AP从39.2%提升到39.7%；Hourglass-104则没有提升，保持在42.2%，所以CenterNet可以不用NMS【0】；

2. 在类别矩阵中从每一类的热力图矩阵中找到值最大的前100个点，组合不同类别后，寻找值大于响应阈值的热力图点，筛选后获得的所有热力图点就是模型所检测到的所有目标的中心点；

3. 通过每个目标物的中心点坐标在中心点偏移矩阵和宽高矩阵中寻找中心点偏移量和bbox的宽高。经过以上步骤后便可以得到所有被检测目标物的bbox。

3. 模型训练

为了训练模型需要三步：第一步确定target输出，第二步设计loss函数，第三步根据loss数值计算梯度并更新模型。

关于类别矩阵的target输出形式，如下图所示【4】，在每个目标物的几何中心处设置一个高斯圆，高斯圆的峰值是1，方差通过目标物的大小进行计算【1】，类别矩阵heatmap上的关键点之所以采用二维高斯核来表示，是由于对于在目标中心点附近的一些点，期预测出来的box和gt_box的IOU可能会大于0.7，不能直接对这些预测值进行惩罚，需要温和一点，所以采用高斯核。

关于中心点偏移量矩阵和宽高矩阵的target输出，首先需要在类别矩阵中目标范围内找到几个极值点，计算这些极值点到目标中心真值的距离，进而得到中心点偏移量矩阵的target输出，在这些极值点的对应坐标处设置目标物宽高，进而得到宽高矩阵的target输出。(该段内容需要再去代码中核实，本段内容为猜测，也有可能是在中心点附近一片范围内均设置中心点偏移量和宽高)

得到三个target输出矩阵后，需要设置相应的loss函数，中心点偏移量和宽高矩阵均采用L1损失函数，这个没必要详细介绍，需要详细介绍的是类别热力图的损失函数，该损失函数为变形的Focal Loss函数，具体函数形式如下所示【3】

这里有很多需要讲解的地方，首先解释下交叉熵损失函数的来源，如果一个事件的发生概率是p，那这个事件的信息量是-log p，一个完备事件中所有事件的信息量期望就是这个完备事件的信息熵 $\sum -p log p$ 。描述两个完备事件的相似度的方式是KL散度，经过公式推导，KL散度等于A完备事件的信息熵减去A完备事件与B完备事件的交叉熵。我们应用时一般把A作为真值，B作为预测值，那A的信息熵是固定值，所以评价预测值与真值的相似度的度量便从计算KL散度等效到计算预测值与真值的交叉熵。所以评价预测值q与真值p的相似度的度量是 $\sum -p log q$ ，注意预测值和真值都必须是一个完备事件，所以必须有求和符号。

在我们常用的分类模型中，我们经常把每个神经元的输出看做是一个完备事件(即每个神经元输出都通过一个sigmoid函数处理)，不同神经元输出之间隶属于不同的完备事件，那分类模型整体的损失函数就是 $\sum \sum -plogq$ ，第一个求和函数是求和所有的神经元输出，第二个求和函数是对完备事件的所有可能事件进行求和，而大部分情况下，每个神经元都是一个二分类神经元，所以分类模型整体的损失函数就是 $-\sum \left ( plogq +\left ( 1-p \right ) log\left ( 1-q \right )\right )$ ，在大部分情况下，我们用0和1来表示真值的两种情况，所以我们最常见的交叉熵损失函数便出现了，即真值为1时 $-\sum logq$ ，真值为0时 $-\sum log\left ( 1-q \right )$ ，在这两项前面分别加入调整正负样本数量不均衡的参数和调整难易样本权重的系数便是focal Loss了。但是，一定要注意这种loss是建立在每个神经元的输出是一个0/1的二分类器的情况下，如果每个神经元不是离散分类，那就不能使用交叉熵损失函数，例如线形回归问题一般使用L1或L2损失函数；如果每个神经元不是0/1分类，而是其他介于0~1之间的数值，那必须使用 $-\sum \left ( plogq +\left ( 1-p \right ) log\left ( 1-q \right )\right )$ 函数形式，这个形式也可以按照focal loss进行修改，例如常用的label smoothing手段，就需要用这种形式的损失函数；如果不是把每个神经元的多次输出看做一个完备事件，而是把所有神经元同一次的输出看做一个完备事件(即所有神经元的输出统一通过softmax进行处理)，那一个输入数据单次推理的损失就是 $\sum -p log p$ ，只包含一个求和符号，表示的是所有神经元输出求和。

在CenterNet中，相比标准focal loss，在下面一行中多了 $\left ( 1-Y_{xyz} \right )^{\beta }$ ，且热力图中有一部分真值介于0~1之间，在上面公式中，当为 $Y_{xyz}$ 为1时，loss等于上面一行，是标准的focal loss正向损失；当 $Y_{xyz}$ 为0时，是下面一行去除 $\left ( 1-Y_{xyz} \right )^{\beta }$ 的结果，是标准的focal loss负向损失；当 $Y_{xyz}$ 介于0~1之间时，按照上面的分析，属于非0/1二分类问题，所以标准的损失函数是 $-\sum \left ( plogq +\left ( 1-p \right ) log\left ( 1-q \right )\right )$ ，而在CenterNet中并没有使用这种标准形式，而是采用了负向损失乘以权重系数的形式，权重系数就是 $\left ( 1-Y_{xyz} \right )^{\beta }$ 。原因有两点，第一点，虽然 $Y_{xyz}$ 是介于0~1之间数值x，但是我们希望这个完备事件的概率之和就是x而不是1，即正事件的概率(或表示)是x，负事件的概率(或表示)是0，或者说，这些神经元输出并不是一个完备事件，不能用KL散度来描述，所以不能用标准focal loss来计算损失；第二点，如果仅仅采用负向损失来描述 $Y_{xyz}$ 介于0~1之间神经元损失，显然是不合适的，负向损失描述的是神经元输出趋向于0的程度，而不是趋向于x的程度，所以x数值越大，用负向损失描述loss的误差越大，当x数值趋近于0时，用负向损失描述loss的误差也趋近于0，为了解决这一问题，作者在负向损失前增加了一个权重系数 $\left ( 1-Y_{xyz} \right )^{\beta }$ ，当x数值很大时，即loss的误差很大时，该系数很小，减小了这个误差很大的loss在总loss中的占比，当x数值很小时，即loss的误差很小时，该系数很大，增大了这个误差很大的loss在总loss中的占比。以上便是对CenterNet中损失函数的分析，感觉对于类别损失函数中真值介于0~1之间的部分有优化的空间。关于这个损失函数还有类似的其他版本的解释【0】

有了损失函数以后，按照一定比例组合不同Head的loss得到总的loss，然后进行反向训练，变实现了模型的训练。在论文中，作者还对训练推理过程图片分辨率，回归Loss是选L1还是Smooth L1，各个Loss的权重，训练策略做了实验说明。

4. 模型优劣

CenterNet模型的优点是输出分辨率高，不需要多分辨率输出和nms结构，不需要设置anchor的超参，是端到端的模型，实现了精度和速度的更好的平衡，其模型结构很容易扩展到3D目标检测和人体骨架检测等任务。缺点是两个目标中心点重合时，网络是不能有效区分的，针对这个问题，作者统计了COCO数据集中在下采样4倍以后，发生这样情况的概率，最终得到的结果是小于0.1%，作者认为比例不是很高，CenterNet整体效果好，瑕不掩瑜。当然这是作者在COCO数据集上的分析，CenterNet天生存在，实际应用过程中，我们还得结合自己的数据集做具体分析，可以通过多分辨率输出等方式尝试解决。

5. anchor_based和anchor_free优缺点

CenterNet模型是一个anchor_free的模型，常用的yolov5v6是anchor_based模型，他们各有优缺点【8】。

anchor based
优点
1. 使用anchor机制产生密集的anchor box，使得网络可直接在此基础上进行目标分类及边界框坐标回归。加入先验，训练更容易更稳定。
2. 密集的anchor box可有效提高网络目标召回能力，对于小目标检测来说提升非常明显。
缺点
1. anchor机制中，需要设定的超参，这需要较强的先验知识。
2. 冗余框非常之多，一张图像内的目标毕竟是有限的，基于每个anchor设定大量anchor box会产生大量的负样本，即完全不包含目标的背景框。这会造成正负样本严重不平衡问题，也是one-stage算法难以赶超two-stage算法的原因之一。
3. 网络实质上是看不见anchor box的，在anchor box的基础上进行边界回归更像是一种在范围比较小时候的强行记忆。
4. 基于anchor box进行目标类别分类时，IOU阈值超参设置也是一个超参问题。
anchor free
优点
1. 更大更灵活的解空间、摆脱了使用anchor而带来计算量从而让检测和分割都进一步走向实时高精度
缺点
1. 正负样本极端不平衡
2. 语义模糊性（两个目标中心点重叠），现在这两者大多是采用Focus Loss和FPN来缓解的，但并没有真正解决。
3. 检测结果不稳定，需要设计更多的方法来进行re-weight
对比
anchor-free和anchor-based实际上最大的区别应该是解空间上的区别。anchor-free本质上都是dense prediction的方法，庞大的解空间使得简单的anchor-free的方法容易得到过多的false positive，而获得高recall但是低precision的检测结果；anchor-based由于加入了人为先验分布，同时在训练的时候prediction（尤其是regression）的值域变化范围实际上是比较小的，这就使得anchor-based的网络更加容易训练也更加稳定。

6. 扩展

CenterNet模型很容易扩展到3D目标检测和人体骨架检测等任务。

姿态估计：

将目标类别数量设置为17，对应人体姿态估计的17 个关键点，预测17维的热力图得到所有17类别的中心点，然后回归一个34（2*17）维的每个人体中心点到17个关键点的偏移值（因为有17 个x,y坐标偏移），人体中心点加上这个34 维的偏移量可以得到每个物体的17个关键点，再将17维的热力图中心点分配到距离最近的每个人体上，再回归一个二维的关键点偏移量作为最终的准确关键点。

3D目标检测：

这里回归的将是3维的box size, 加上一个1维的深度，和一个8维的方向，最终得到3D box。

二、CenterFusion融合目标检测模型

自动驾驶汽车的感知系统负责对周围环境进行检测和跟踪物体。这个通常通过利用多种传感方式来提高鲁棒性和准确性，这使得传感器融合成为感知系统的关键部分。

本文针对毫米波雷达和相机传感器的融合问题，提出了一种利用毫米波雷达和摄像机数据进行三维目标检测的中间融合方法。我们称为CenterFusion的方法首先使用中心点检测网络，通过识别图像上的中心点来检测对象。然后利用一种新的基于视锥的方法来解决关键的数据关联问题，将毫米波雷达探测到的目标与其对应的目标中心点关联起来。相关的毫米波雷达检测用于生成基于雷达的特征图，以补充图像特征，并回归到目标的深度、旋转和速度等属性。【9】

论文主要贡献：

1、论文提出了CenterFusion，一种利用毫米波雷达和摄像机数据进行三维目标检测的中间融合方法。

2、CenterFusion的重点是将毫米波雷达检测与从图像中获得的初步检测结果关联起来，然后生成雷达特征图，并将其与图像特征一起用于精确估计物体的三维边界框。

3、论文使用关键点检测网络生成初步的三维检测结果，并提出了一种新的基于截锥的雷达关联方法，以准确地将毫米波雷达检测与三维空间中的相应目标关联起来。然后，这些雷达检测被映射到图像平面，并用于创建特征映射，以补充基于图像的特征。最后，利用融合后的特征精确估计物体的三维属性，如深度、旋转和速度。

1. 数据来源【10】

相机和激光雷达:

相机和激光雷达对于恶劣环境都很敏感，会大大降低 fov 和感知效果。
相机和激光雷达在没有时间信息的情况下，不能检测物体的速度。
在时间紧迫的情况下，依赖时间信息可能不是一个可行的解决方案。

毫米波雷达:

毫米波雷达在极端环境下的鲁棒性很好，且能检测非常远的距离。
毫米波雷达使用多普勒效应能够准确的估计所有检测无的速度，且不需要依赖时间信息。
与激光雷达相比，雷达点云在用作目标检测结果之前需要的处理更少。
由于激光雷达与雷达点云的内在差异，将现有的基于激光雷达的算法应用到雷达点云中或对其进行自适应是非常困难的。
雷达点云明显比激光雷达的对应部分稀疏，这使得它无法用于提取目标的几何信息。
聚合多个雷达扫描会增加点的密度，但也会给系统带来延迟。
没有 z 轴信息，有也不准。
只能识别动态目标，对于静态目标容易错检。

2. 网络结构

CenterFusion的网络结构如下图所示，该模型的主体结构就是一个CenterNet模型，相比原生CenterNet模型，只是多了一个特征融合层和新的几个head而已。

3. 模型推理

从上面的流程图可以看出，输入可见光图片首先经过CenterNet模型，完成基于图像的2D和3D预测，得到目标物的中心点热力图、中心点偏移量、2D宽高、3D维度、距离和旋转角度，其中，中心点热力图、中心点偏移量、2D宽高、3D维度就是最终输出，不会再次预测，(这一步操作对应流程图中左上部分)。同步的，需要对毫米波雷达数据进行Pillar Expansion操作【11】，然后通过自车坐标系关联关系，将刚刚模型预测的物体范围映射到毫米波雷达数据中，在这个物体范围内提取毫米波雷达数据，这在论文中称之为RoI截锥关联方法，示意图如下图【12】，(这一步操作对应流程图中左下部分)。从物体截锥体范围内提取的毫米波雷达数据就是深度信息和速度信息，将radar的深度和速度信息，作为图像的补充特征，生成3个热力图通道 d, vx, vy【11】，将这3个新的热力图通道与之前CenterNet模型的bachbone的输出特征沿深度维拼接在一起，如此便实现了毫米波雷达信息与可见光相机数据的中段融合，(这一步操作对应流程图中中间部分的img+Rad Features)。在这个新的特征的基础上加入4个head实现对深度、速度、旋转角度和属性的预测，(这一步操作对应流程图中右下部分)。最后将第一次纯可见光图片的预测结果与第二次融合毫米波雷达数据后的预测结果进行联合解析，得到最终输出结果，(这一步操作对应流程图中右上部分)。

在nuScenes数据集上应用评估，在3D目标检测标签下，比之前所有基于Camera的目标检测方法都要好！！！利用radar信息，提高目标的速度检测精度，不使用任何时间信息！！！部分代码解析可见【13】

三、参考

0. Centernet论文详解

1. CenterNet原理详解

2. 超越yolov3,Centernet 原理详解（object as points）

3. [目标检测]CenterNet

4. CenterNet(Object as Points)

5. 论文也撞衫，你更喜欢哪个无锚点CenterNet？

6. CenterNet测试推理过程

7. DLA模型(分类模型+改进版分割模型) + 可变形卷积

8. 目标检测之anchor_based和anchor_free优缺点

9. CenterFusion: 基于Radar和Camera融合的3D检测算法

10. 雷达相机融合：CenterFusion: Center-based Radar and Camera Fusion for 3D Object Detection

11. 【论文笔记】CenterFusion：Radar+Camera融合

12. CenterFusion 项目网络架构详细论述

13. 多传感器融合目标检测系列：CenterFusion(基于CenterNet)源码深度解读: ：DLA34 (四)

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
目前主流图像分类模型的详细对比分析 @comefly 闲聊 linux 运维服务器
以下是目前主流图像分类模型的详细对比分析，结合性能、架构特点及应用场景进行整理：一、主流模型架构分类与定量对比模型名称架构类型核心特点ImageNetTop-1准确率参数量（百万）计算效率典型应用场景ResNetCNN残差连接解决梯度消失，支持超深网络（如ResNet-152）76.1%25.6中等通用分类、目标检测ViTTransformer将图像分割为patches，用标准Transforme
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {