极智视界

【模型训练】目标检测实现分享四：详解 YOLOv4 算法实现

欢迎关注我的公众号 [极智视界]，回复001获取Google编程规范

O_o >_< o_O O_o ~_~ o_O

大家好，我是极智视界，本文详细介绍一下 YOLOv4 算法的设计与实践，实践部分包括 darknet 与 pytorch。

本文是目标检测类算法实现分享的第四篇，前面已经写过三篇，感兴趣的同学可以查阅：

(1) 《【模型训练】目标检测实现分享一：详解 YOLOv1 算法实现》；

(2) 《【模型训练】目标检测实现分享二：听说克莱今天复出了？详解 YOLOv2 算法与克莱检测》；

(3) 《【模型训练】目标检测实现分享三：详解 YOLOv3 算法实现》；

YOLOv4 是 YOLO 系列的第四个版本，在论文《YOLOv4：Optimal Speed and Accuracy of Objecti Detection》中提出，集目标检测领域各种 state-of-the-art tricks 大荟萃，通过阅读 YOLOv4 论文及进行训练实践，可以对近年来目标检测领域涌现出的众多优秀 tricks 有个宏观把控。作者试验并集众多 tricks 于一身，就此催生出了性能出众的 YOLOv4 网络。

话不多说，让我们来看。

同样这里不止会讲原理也会讲实践。

文章目录

- 1、YOLOv4 原理
- - 1.1 Input
  - - 1.1.1 Mosaic
    - 1.1.2 CmBN
    - 1.1.3 SAT
  - 1.2 Backbone
  - - 1.2.1 CSPDarknet53
    - 1.2.2 Mish
  - 1.3 Neck
  - - 1.3.1 SPP
    - 1.3.2 FPN + PAN
  - 1.4 Dense Prediction
  - - 1.4.1 Yolo
    - 1.4.2 IOU Loss
- 2、YOLOv4 实现
- - 2.1 训练
  - - 2.1.1 darknet 训练
    - 2.1.2 pytorch 训练
  - 2.2 验证

1、YOLOv4 原理

老规矩，先上性能数据：

上图测试数据集为 MS COCO，推理硬件为 Nvidia V100，横轴为帧率 FPS，纵轴为精度 AP，所以从 兼顾效率和精度 角度来看，越往右上越好。可以看到 YOLOv4 相比 EfficientDet 要快两倍，相比 YOLOv3，AP 和 FPS 分别提升了 10% 和 12%。

来看一个分别跑在 Maxwell、Pascal、Volta 架构上的 AP&FPS 性能图：

可以看到作者对比了很多先进的目标检测网络，但不管是在 Maxwell、Pascal 还是 Volta 架构上，YOLOv4 总是右上角最闪亮的那颗星。

再来看一组更加详细的性能数据，这组数据是在 Volta 架构的 GPU 上测得：

上图性能数据是在 batch=1 且没有使用 TensorRT 进行加速的情况下测得，蓝色条表示帧率 FPS > 30，也即可以达到实时检测。可以看到 YOLOv4 的三个输入分辨率都能轻松达到实时，另外像 CenterMask-Lite、EFGRNet-VGG16-320、HSD-VGG16-320、DAFS-VGG16-512 也可以达到实时。另外在精度方面， AP、AP50、AP75、APs、APm 已经被 YOLOv4-CSPDarknet53-608 霸榜了，在 APl 上 CenterMask-Lite-VOVNet39-FPN-600x 要略优 0.2 个点。

从以上实验数据可以看出 YOLOv4 的性能是非常强悍的，它的提出主要有以下两个贡献：

(1) 提出了一个高效又强大的检测模型，任何人都可以只用一张 2080Ti GPU 卡就可训练出一个好用的检测器；

(2) 试验了众多 state-of-the-art 的检测 tricks，并融入到 YOLOv4 中，使其更加的高效和强大；

下面让我们来好好研究一下。

YOLOv4 的网络结构划可分为 Input、Backbone、Neck、Head 四个模块，可以用下图表达：

然后在模型结构和训练策略上分别加入了一些被称为 “Bag of freebies” 和 “Bag of specials” 的 tricks，解释一下这两个词：

Bag of freebies (BoF)：只改变训练策略或只增加训练成本，而不增加推理成本从而提高性能的方法，如数据增强；
Bag of specials (BoS)：稍微增加一点推理成本，但可以极大提升检测精度的方法，如插件模块和后处理方法；

YOLOv4 中融入了大量的 BoF 和 Bo

YOLOv4 的网络结构划分为 Input、Backbones、Neck、Heads 四个模块组成，差不多像下图：

下面来看各个模块中的 tricks。

1.1 Input

YOLOv4 在训练时对输入进行了很多创新性改进，包括 Mosaic 数据增强、cmBN、SAT 自对抗训练等，下面进行详细介绍。

1.1.1 Mosaic

Mosaic 是在 CutMix 数据增强的基础上进化而来的，CutMix 是使用两张图片拼接进行数据增强，而 Mosaic 拓展到了使用四张图片拼接，且这四张图片是随机缩放、随机裁剪和随机排版的，这样可以一下子极大的丰富数据集。Mosaic 数据增强的效果如下：

1.1.2 CmBN

CmBN 是 CBN 的改进版，而 CBN 又是 BN 的改进版。BN 是对当前 mini-batch 数据进行归一化，CBN 可以看做是 Cross Batch Normalization，是对当前以及往前数 3 个 mini-batch 数据进行归一化，而 CmBN 可以看做是 Cross mini-Batch Normalization，只统计一个大 batch 中 4 个 mini-batch 之间的数据，对外隔离。BN、CBN、CmBN 的流程示意如下：

1.1.3 SAT

SAT (Self-Adversarial Training) 自对抗训练也是一种数据增强的方法，它包括两个阶段：

(1) 1st stage：使用神经网络去改变图片数据，而不是更新权重数据，可以理解为图像数据生成；

(2) 2nd stage：神经网络以正常方式在扩充后的图像数据集上进行训练。

1.2 Backbone

1.2.1 CSPDarknet53

我们知道在 YOLOv2 中 backbone 为 Darknet19，YOLOv3 中 backbone 为 Darknet53，在 YOLOv4 中 backbone 又进行了一次升级，这次称为 CSPDarknet53，主要参考了论文《CSPNet：A New Backbone that can Enhance Learning Capability of CNN》，然后和 Darknet 相结合，来看主结构：

再来看一下 CSPDarknet53 对比其他一些优秀 backbone 的参数量及性能情况，如下：

可以看到在相同输入分辨率的情况下，CSPDarknet53 具有更高的 FPS，这说明效率更高；也具有更多的参数量，说明有更多的参数可以去学习特征，往往特征学习能力会更强。

1.2.2 Mish

YOLOv4 backbone 是由很多的 CBM block (Conv + BN + Mish) 和残差结构组成，CBM block 差不多长这样：

Mish 激活函数在论文《Mish: A Self Regularized Non-Monotonic Activation Function》中提出，其数学表达为：

函数的图像表达如下，其中：

蓝色曲线为：Mish；
橙色曲线为：ln(1 + e^(x))

当然在实现的时候，也可以把 Mish 拆成由 tanh 和 softplus 组成，如在 TensorRT 的实现中往往需要这么做，即：

对比 Relu，Mish 不像 Relu 那样是两阶段的，Mish 没有明显的折点，所以经 Mish 出来的梯度更加平滑，对比效果如下：

1.3 Neck

1.3.1 SPP

SPP 指的是这个东西：

这个结构其实在 YOLOv3-SPP.cfg 中早就存在，不过在 YOLOv3 时期还没有真正上位，在 YOLOv4 的时候才算真正上位了。SPP 结构在论文《DC-SPP-YOLO: Dense Connection and Spatial Pyramid Pooling Based YOLO for Object Detection》中提出，其主要目的是增加感受野。

1.3.2 FPN + PAN

FPN 结构在 YOLOv3 中也存在，以输入分辨率 608 x 608 为例，在 YOLOv3 中通过 upsample 上采样和 Conv 下采样后，最后形成了 19 x 19、38 x 38、76 x 76 的三分支结构，示意如下：

而 YOLOv4 的不同之处在于，在 YOLOv3 FPN 的基础上再接一个 Botton-up 结构，Botton-up 中用 PAN 进行衔接，整个 YOLOv4 FPN + PAN 的结构示意如下：

YOLOv4 中的 PAN 修改了传统 PAN 中 addition 为 concatenation，这里有些不同，addition 不改变通道维度，concatenation 则会改变通道维度，示意如下：

1.4 Dense Prediction

1.4.1 Yolo

YOLOv4 中最后的 yolo 预测层沿用了 YOLOv3 的 yolo，不过需要注意的是 YOLOv4 在经过了如上的 FPN + PAN 的 Neck 后，又形成了一个很容易让人迷惑的点：

YOLOv3 的最后三个 yolo 层分别为：

(1) 第一个 yolo 层：feature map 19 x 19 ==> mask = 6, 7, 8 ==> 对应最大的 anchor；

(2) 第二个 yolo 层：feature map 38 x 38 ==> mask = 3, 4, 5 ==> 对应中等的 anchor；

(3) 第三个 yolo 层：feature map 76 x 76 ==> mask = 0, 1, 2 ==> 对应最小的 anchor；

而在 YOLOv4 中情况是相反的：

(1) 第一个 yolo 层：feature map 76 x 76 ==> mask = 0, 1, 2 ==> 对应最小的 anchor；

(2) 第二个 yolo 层：feature map 38 x 38 ==> mask = 3, 4, 5 ==> 对应中等的 anchor；

(3) 第三个 yolo 层：feature map 19 x 19 ==> mask = 6, 7, 8 ==> 对应最大的 anchor；

这个差异在开发过程中需要特别注意，很容易就把顺序搞错了。

1.4.2 IOU Loss

YOLOv4 在 Bounding box Regeression Loss 上也做了一些创新，采用 CIOU_Loss 进行回归预测，使得预测框的速度和精度更加高。

说到 CIOU_Loss，它经历了从最开始直接计算预测框的坐标点 Loss 到 IOU_Loss ，然后再进行了一系列优化的过程。这个过程差不多是这样：Smooth L1_Loss -> IOU_Loss -> GIOU_Loss -> DIOU_Loss -> CIOU_Loss。

Smooth L1_Loss：使用 Smooth L1_Loss 计算预测框的中心点或顶点相对于真实框的损失，无约束，反向传播时很容易导致梯度消失；
IOU_Loss：IOU_Loss 主要考虑检测框和真实框的交集 / 并集，存在问题：当 IOU=0时(边界框不重合) 或 IOU值一定时，情况是多样的；
GIOU_Loss：GIOU_Loss 在 IOU_Loss 的基础上，增加了相交尺度的衡量方式，解决了边界框不重合时的问题，不过还存在问题：IOU 值一定时，情况是多样的；
DIOU_Loss：DIOU_Loss 进一步在 GIOU 的基础上，考虑了重叠面积和中心点距离，覆盖的情况更多了，但还不够全面：当多个预测框的中心点刚好在以真实框中心为圆心的圆上时，情况是多样的；
CIOU_Loss：CIOU_Loss 在 DIOU_Loss 的基础上再增加了一个影响因子，加入了预测框和真实框的长宽比，可以说覆盖的情况十分全面了。

好了，以上主要介绍了 YOLOv4 的原理和改进点，下面进入实践环节。

2、YOLOv4 实现

这里实践了两种框架的 YOLOv4。

2.1 训练

2.1.1 darknet 训练

darknet 下训练数据集为 COCO，关于 COCO 数据集的制作过程就不多说了，上一篇 YOLOv3 中已经详细说过，不会的同学可以移步到上一篇。下面直接开始。

在 cfg 目录下创建 yolov4 文件夹，加入 yolov4.cfg、coco.data、coco.names，并在 yolov4 文件夹下创建 backup 文件夹用于存放中间权重，形成目录树如下：

执行训练指令：

./darknet detector train cfg/yolov4/coco.data cfg/yolov4/yolov4.cfg

当然也可以加预训练权重：

./darknet detector train cfg/yolov4/coco.data cfg/yolov4/yolov4.cfg cfg/yolov4/yolov4.conv.137

附上 yolov4.conv.137 的传送：https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov4.conv.137

然后可以看到已经开始训练：

经过很长的训练时间应该可以看到网络在慢慢收敛：

2.1.2 pytorch 训练

pytorch 是现在使用十分广泛的训练框架，以动态图和灵活性著称，当然这里少不了 YOLOv4 的 pytorch 实现了。

相关 YOLOv4-pytorch 工程代码我已为你们整理好，关注我的公众号 [极智视界] 回复 yolov4 即可领取。

我这里提供的工程内还放了 VOC 数据集格式，只需要根据提供的格式制作一下训练数据集就可以轻松跑起来。

让我们来跑一跑，直接执行工程下 train.sh 即可开始训练：

./train.sh

这样的执行方式应该非常的友好，另外你可能还想着要修改一些参数，在 train.py 脚本内做相应修改即可，比如修改是否进行 Mosaic 数据增强等：

来看看训练过程：

2.2 验证

好了，接下来我们进行验证一下，训练出来的模型是否有效。

这里拿 darknet 的模型进行验证，验证场景为春运现场，执行如下命令进行检测：

./darknet detector demo cfg/yolov4/coco.data cfg/yolov4/yolov4.cfg cfg/yolov4/backup/yolov4.weights data/chunyun.mp4

检测效果如下：

可以看到检测效果还是不错的。

也借此视频愿山河无恙、疫情早日消散，同胞们可以快快乐乐、平平安安回家过年。

以上分享了 YOLOv4 算法设计与实践，希望我的分享能对你的学习有一点帮助。

【公众号传送】

《【模型训练】目标检测实现分享四：详解 YOLOv4 算法实现》

扫描下方二维码即可关注我的微信公众号【极智视界】，获取更多AI经验分享，让我们用极致+极客的心态来迎接AI ！

你可能感兴趣的:(模型训练,算法,目标检测,人工智能,深度学习)

人类的具身智能与机器的具身智能人机与认知实验室
人类具身智能与机器具身智能的根本区别在于其基础机制和本质属性。人类具身智能是基于生物体的生理结构和神经系统的复杂交互，通过身体与环境的直接感知和体验，形成具有情感、意识和主观性的认知与行为能力。这种智能是动态的、适应性强的，并且深受个体经验、文化背景和社会互动的影响。而机器具身智能则是通过传感器、算法和数理模型来模拟与物理世界的交互，依赖于预设的规则和数据驱动的模式识别，缺乏人类的主观体验、情感和
基于单片机宠物喂食器/智能宠物窝/智能饲养
传送门其他作品题目速选一览表其他作品题目功能速览概述深夜加班时，你是否担心家中宠物饿肚子？出差旅途中，是否焦虑宠物无人照看？这些养宠族的共同痛点，正被一枚小小的单片机悄然化解。作为智慧宠物家居的核心设备，智能喂食器已从“定时撒粮”的机械玩具，进化成融合嵌入式控制、物联网通信、健康管理的科技终端。本文将深入拆解基于单片机的喂食器设计：从STM32主控芯片的选型，到0.5g精度的闭环投喂算法；从ESP
解密Claude系列：从原理到实践的全方位解析软考和人工智能学堂强化学习人工智能 Claude快速入门 Claude
引言：Claude系列模型的崛起在人工智能领域，大型语言模型(LLM)的发展日新月异。OpenAI的GPT系列和Anthropic的Claude系列无疑是这一领域的双子星。Claude系列模型以其独特的"ConstitutionalAI"理念和强大的对话能力，正在重塑人机交互的未来。本文将深入探讨Claude系列的技术原理、架构特点，并通过实践代码展示其强大能力。Claude系列的技术演进1.Cl
数据结构与算法学习 (08)字符串匹配--BF算法/RK算法暱稱已被使用
BF算法也就是串的模式匹配算法，在主串中查找与模式T（副串）相匹配的子串，如果匹配成功，找到该子串在主串出现的第一个字符。模式匹配不一定是从主串第一个字符开始，可以在主串中指定起始位置。算法思想：将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继续比较S的第二个字符和T的第二个字符；若不相等，则比较S的第二个字符和T的第一个字符，依次比较下去，直到得出最后的匹配结果。BF算法是一种
【c++】提升用户体验：问答系统的交互优化实践——关于我用AI编写了一个聊天机器人……（12） gfdhy 算法数据结构 c++c语言人工智能 tf-idf
本期依旧使用豆包辅助完成代码。从功能到体验的转变上个版本已经实现了问答系统的核心功能：基于TF-IDF算法的问题匹配和回答。它能够读取训练数据，处理用户输入，并返回最相关的答案。但在用户体验方面还有很大提升空间。让我们看看改进版做了哪些关键优化：1.引导系统上个版本仅在启动时显示简单的"Hello!输入'exit'结束对话。"提示，对于初次使用的用户来说不够友好。改进版增加了：详细的欢迎信息和功能
元宇宙：中国数字经济的新赛道——基于游戏生态、AI与区块链的创新实践 boyedu 元宇宙域名游戏人工智能区块链元宇宙
引言：数字经济时代的“新大陆”在数字技术的浪潮中，元宇宙正从科幻概念跃升为全球科技竞争的焦点。中国，作为全球数字经济规模第二大的经济体，正以独特的路径探索元宇宙的发展——以游戏生态为起点，融合人工智能（AI）与区块链技术，构建一个虚实融合的数字新世界。这一路径不仅契合中国在5G、AI、区块链等领域的技术积累，更与“数字经济”“新质生产力”等国家战略形成共振。本文将从技术融合、经济价值、社会影响三个
《目标检测模块实践手册：从原理到落地的尝试与分享》第一期加油吧zkf 目标检测模块解析与实践目标检测目标跟踪人工智能
大家好，欢迎来到《目标检测模块实践手册》系列的第一篇。从今天开始，我想以一种“实践记录者”的身份，和大家聊聊在目标检测任务中那些形形色色的模块。这些内容没有权威结论，更多的是我在实际操作中的一些尝试、发现和踩过的坑。至于这些模块在大家的具体网络应用中是否可行，还需要大家自己去验证，也非常期待能和大家交流不同的经验。目标检测任务的本质与模块的作用目标检测，简单来说，就是从输入的图像中，准确地找出我们
列车-轨道-桥梁交互仿真研究（Matlab代码实现）
欢迎来到本博客❤️❤️欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述一、研究背景与核心概念二、系统建模方法与关键技术(1)子系统建模(2)耦合机制与算法(3)激励源建模三、仿真软件工具与验证(1)主流仿真平台(2)参数设置要点(3)实验验证方法四、工程应用与典型案例(1)安全评估与优化设计(2)极端工况分析
K近邻算法【python】【sklearn】 weixin_44985842 python 近邻算法 sklearn
0定义K近邻算法（K-NearestNeighbors,KNN）是一种基于实例的监督学习算法，主要用于分类和回归任务。其核心思想是：在特征空间中，对于待预测的样本，找到与其距离最近的k个已知样本（“邻居”），根据这k个邻居的类别（分类任务）或属性值（回归任务）来决定该样本的预测结果，，常用欧氏距离公式：对于两个n维样本点xi=(xi1,xi2,...,xin)x_i=(x_{i1},x_{i2},
python学智能算法（二十五）|SVM-拉格朗日乘数法理解
引言前序学习进程中，已经对最佳超平面的求解有了一定认识。刚好在此梳理一下:函数距离首先有函数距离F，也可以称为函数间隔F：F=min⁡i=1...myi(w⋅xi+b)F=\min_{i=1...m}y_{i}(w\cdotx_{i}+b)F=i=1...mminyi(w⋅xi+b)几何距离然后有几何距离δ，也可以称为几何间隔δ：δ=min⁡i=1...myi(w∥w∥⋅xi+b∥w∥)\delt
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
智能体架构设计的五大核心原则：构建下一代AI系统的工程基石一休哥助手人工智能
引言：智能体架构的范式演进人工智能领域正经历从孤立模型向自主智能体的范式转变。2025年，全球AI智能体市场规模突破200亿美元，在金融、医疗、制造等领域的渗透率超40%。然而，智能体开发仍面临协作效率低（多智能体任务重叠率达30%）、安全风险高（工具调用错误率18%）和系统僵化（需求变更迭代周期超2周）三大痛点。本文基于产业实践提炼五大核心设计原则，为构建下一代智能体系统提供架构指南。传统LLM
排序算法—插入排序（插入、希尔）（动图演示）每天都要进步1 排序算法排序算法算法数据结构
目录十大排序算法分类插入排序算法步骤：动图演示：性能分析：代码实现（Java）：希尔排序算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的插入排序与希尔排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）插入排序工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序和冒泡排序一样，也有一种优
二叉搜索树（binary search tree）
使用场景用作系统中的多级索引，实现高效的查找、插入、删除操作。作为某些搜索算法的底层数据结构。用于存储数据流，以保持其有序状态。特点1.对于根节点满足：任意左子树节点num)cur=cur.left;//找到目标节点，跳出循环elsebreak;}//返回目标节点returncur;}插入操作1.查询插入位置，从根节点出发，根据当前节点和插入num的大小判断在左右子树，直到越过叶子节点跳出循环，（
DataWhale 二月组队学习-深入浅出pytorch-Task04 －273.15K DataWhale组队学习学习 pytorch 人工智能
一、自定义损失函数1.损失函数的作用与自定义意义在深度学习中，损失函数（LossFunction）用于衡量模型预测结果与真实标签之间的差异，是模型优化的目标。PyTorch内置了多种常用损失函数（如交叉熵损失nn.CrossEntropyLoss、均方误差nn.MSELoss等）。但在实际任务中，可能需要针对特定问题设计自定义损失函数，例如：处理类别不平衡问题（如加权交叉熵）实现特殊业务需求（如对
昇思MindSpore创新训练营·长三角站开始报名！昇思MindSpore 人工智能自然语言处理深度学习
一、介绍为充分发挥长三角研究型大学联盟教学实践基地共建共享功能，加强华东高校优秀青年学子的交流与互动，提供学生与产业界接触的机会，上海交通大学与华为技术有限公司共同发起，面向长三角研究型大学学生开设昇思MindSpore创新训练营。本次训练营以实践项目和业界需求为牵引，以学生实践为主线，让学生在实践的过程中学习和实践人工智能相关知识，掌握相关技术和工具，紧跟业界最新趋势，加深对人工智能行业的认识，
OPPO未来科技大会，科技感满满！你最爱哪些黑科技呢？冬天不冷了
#OPPO未来科技大会#OPPO携手IHSMarkit发布《智能互融：借助5G、人工智能和云技术，释放机遇》白皮书，表明人工智能、云技术和边缘设备、互联和物联网的协同努力，将为企业和消费者带来价值。看了一下早上的，是说明年绿厂要发不少好玩的产品，比如智能手表AR眼镜之类的，有些可能跟Reno3一块发，对外是说构建生态万物互联，其实就是多卖几样多赚钱，然后用这钱砸了搞技术赚更大的钱，毕竟现场说了未来
【AI论文】CLiFT：面向计算高效与自适应神经渲染的压缩光场标记
摘要：本文提出了一种神经渲染方法，该方法将场景表示为“压缩光场标记（CLiFTs）”，以保留场景丰富的外观和几何信息。CLiFT通过压缩标记实现计算高效的渲染，同时能够通过调整标记数量来表征场景，或利用单个训练好的网络渲染新视角。具体而言，给定一组图像，多视图编码器会根据相机位姿对图像进行标记化处理。潜在空间K均值聚类算法利用这些标记选取一组精简的光线作为聚类中心。随后，多视图“压缩器”将所有标记
手绘电路图的节点和端点检测一个简化版的算法实现框架 zhangfeng1133 算法
于论文描述，我将提供一个简化版的算法实现框架，用于手绘电路图的节点和端点检测，并整合生成电路原理图。以下代码结合了YOLOv5目标检测和传统图像处理技术，符合论文中提到的98.2%mAP和92%节点识别准确率的关键指标。核心算法实现（Python+OpenCV+YOLOv5）importcv2importnumpyasnpimporttorchfromyolov5importYOLOv5#需要安装
大模型核心概念 | 嵌入模型（Embedding）、向量模型（Vector Model）
一、核心概念解析1.1嵌入模型（Embedding）作为AI领域的核心基础技术，嵌入模型通过将非结构化数据映射为低维稠密向量，实现语义特征的深度捕捉：文本嵌入：如将语句转换为1536维向量，使"机器学习"与"深度学习"的向量余弦相似度达0.92跨模态嵌入：支持图像与文本的联合向量空间映射，如CLIP模型实现文图互搜1.2向量模型（VectorModel）作为嵌入技术的下游应用体系，主要包含两大方向
Python实现神经网络算法指南代码编织匠人 python 神经网络算法
Python实现神经网络算法指南神经网络是一种模拟人脑神经元结构进行信息处理的机器学习算法。在深度学习领域中，神经网络是最为强大的算法之一。Python作为一门简单易学的编程语言，也成为了许多人选择实现神经网络算法的首选语言。在本篇文章中，我们将通过Python代码来实现神经网络算法。导入必要的库为了实现神经网络算法，我们需要导入一些必要的Python库，包括numpy和matplotlib。其中
大规模图计算引擎的分区与通信优化：负载均衡与网络延迟的解决方案 LCG元系统服务架构负载均衡网络运维
目录一、系统架构设计与核心流程1.1原创架构图解析1.2双流程对比分析二、分区策略优化实践2.1动态权重分区算法实现（Python）三、通信优化机制实现3.1基于RDMA的通信层实现（TypeScript）四、性能对比与调优4.1分区策略基准测试五、生产级部署方案5.1Kubernetes部署配置（YAML）5.2安全审计配置六、技术前瞻与演进附录：完整技术图谱一、系统架构设计与核心流程1.1原创
2025年最流行跑分最高的图片理解大模型调研报告
2025年最流行跑分最高的图片理解大模型调研报告引言当前，图片理解大模型正处于快速演进阶段，其技术发展呈现多维度深化与融合的特征。从技术演进方向来看，多模态融合已成为核心趋势之一，文本、图像、视频等不同模态的交互与协同能力显著提升。大型视觉-语言模型（LVLMs）作为人工智能领域的重要突破，标志着多模态理解与交互进入变革性发展阶段，尽管当前模型在各类任务中表现出色，但在细粒度视觉任务等基础能力层面
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现神经网络15044 仿真模型神经网络机器学习图像处理 cnn 人工智能机器人
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.引言在当今的互联网通信时代，实时语音通信已成为人们日常生活中不可或缺的一部分。然而，语音通信质量常常受到回声、背景噪声等因素的严重影响。为了解决这些问题，我们需要高效的语音增强技术。本文将详细介绍如何将DTLC-AEC（深度学习回声消
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
在python程序中调用java代码 Meryoufdd java jvm 开发语言
在python程序中调用java代码Python是一门“胶水”语言，非常灵活多变，但是在一些特殊的时候，也需要调用其它语言来协助实现更多的功能；在公司使用python进行接口测试的时候，会遇到有些接口数据是由公司的开发人员进行自定义的加密算法进行加密的，此时，要开发告诉加密代码是不太可能的。跟开发小哥沟通时，很多时候都是由他给一个jar包，然后剩下的就由测试人员来发挥了。那python该如何使用这
智慧后厨检测算法构建智能厨房防护网智驱力人工智能人工智能算法高温预警行为识别口罩识别食品安全手套识别
智慧后厨检测：构建安全洁净厨房的智能解决方案背景：传统后厨管理的痛点与智慧化需求餐饮行业后厨管理长期面临操作规范难落实、安全隐患难察觉、卫生状况难追溯等痛点。传统人工巡检效率低、覆盖面有限，难以实现24小时无死角监管。例如，厨师未佩戴口罩或手套、违规使用手机、动火离人等行为，可能引发食品安全事故或火灾风险。随着人工智能技术的成熟，智慧后厨检测系统通过集成多种算法，实现了对后厨人员行为、环境卫生、设
【算法训练营Day11】二叉树part1 十八岁讨厌编程算法训练营算法
文章目录理论基础二叉树的递归遍历前序遍历中序遍历后序遍历总结二叉树的层序遍历基础层序遍历二叉树的右视图理论基础二叉树在结构上的两个常用类型：满二叉树完全二叉树在功能应用上的比较常用的有：二叉搜索树：节点有权值、遵循”左小右大“平衡二叉搜索树（AVL树）：在二叉树的基础上增添了一个特性，左右子树高度差不超过1二叉树的存储方式：顺序存储：使用数组，在内存中连续分布链式存储：使用指针，在内存中离散分布二
【算法训练营Day13】二叉树part3 十八岁讨厌编程算法训练营算法
文章目录平衡二叉树二叉树的所有路径左叶子之和完全二叉树的节点个数平衡二叉树题目链接：110.平衡二叉树平衡二叉树的定义：该二叉树的所有节点的左右子树高度差不大于1解题逻辑：这个题和我们前一篇文章说的二叉树的高度是有关的，那么我们是否可以考虑复用求二叉树高度的代码？一个最主要的问题就是求高度的方法返回值是int类型的，而我们判断二叉树是否平衡肯定是想返回boolean，那么我们可以考虑使用-1当作信
《Python Web 框架深度剖析：Django、Flask 与 FastAPI 的选择之道》清水白石008 课程教程学习笔记开发语言 python 前端 django
《PythonWeb框架深度剖析：Django、Flask与FastAPI的选择之道》开篇引入：从“胶水语言”到Web架构核心Python，自1991年由GuidovanRossum发布以来，凭借其简洁优雅的语法和强大的生态系统，逐渐成为全球最受欢迎的编程语言之一。它不仅在数据科学、人工智能、自动化脚本等领域大放异彩，更在Web开发领域构建起一套成熟的技术体系。作为一位长期从事Python开发与教
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他