X.AI666

YOLO系列详解（YOLOV1-YOLOV3）

YOLO算法

简介

本文主要介绍YOLO算法，包括YOLOv1、YOLOv2/YOLO9000和YOLOv3。YOLO算法作为one-stage目标检测算法最典型的代表，其基于深度神经网络进行对象的识别和定位，运行速度很快，可以用于实时系统。了解YOLO是对目标检测算法研究的一个必须步骤。

目标检测思路

目标检测属于计算机视觉的一个中层任务，该任务可以细化为目标定位与目标识别两个任务，简单来说，找到图片中存在某个对象的区域，然后识别出该区域的具体对象是什么。上述这两个过程就是目标检测中很常用的two-stage方法（两阶段检测）。

目标识别（给定一张包含一个目标的图片，该目标占据图片大部分区域，要求识别出图片中目标的类型）属于计算机视觉的基本任务，这些年以卷积神经网络为核心的深度识别网络已经做得很好了。所以剩下的问题就是目标的定位。

当然，目标的定位有个很直接很粗暴的想法：遍历图片中所有可能的位置，搜索不同大小、宽高比的所有区域，逐个检测其中是否存在某个目标，以概率最大的结果作为输出。显然，这种思路也许精度还行，但是效率太低。

RCNN系

RCNN极具开创性地提出了候选区的方法（Region Proposals），先从输入图像中找到一些可能存在对象的候选区，这个过程称为Selective Search。在RCNN中这些候选区大概会有2000个，对这些区域进行目标识别即可完成检测（提出候选区，对候选区进行识别，这就是two-stage的具体两步）。候选区的提出大大减少了目标定位的时间，提高了目标检测的效率。

不过。。。

RCNN依然很慢，它为后来实时检测提供了可能，但也只是可能而已。后续的Fast RCNN和Faster RCNN则将这种可能变为了现实，它们针对网络结构和候选区算法进行了很多改进，已经可以达到平均0.2秒一张图片的速度。由于RCNN系并非本文重点，这里不多赘述，具体其效率变化如下表。

算法	平均单图处理时长(second)
RCNN	49
Fast RCNN	2.3
Faster RCNN	0.2

YOLOv1

YOLO算法（全名You Only Look Once，代表只需要看一眼图片就能完成目标检测），其作者为Joseph Redmon，被称为YOLO之父，其本人在2020年初由于自己的开源算法用于军事和隐私问题，宣布退出CV领域。

YOLO创造性地将候选区和目标识别两个阶段合二为一，look once即可完成目标检测，也实现了端到端的目标检测。事实上，YOLO并没有去掉候选区，而是使用一种预定义的类似候选区的预测区域。它将图片划分为$S\times S$个网格（论文中$S=7$，下文均使用7为例），也就是49个网格每个网格允许预测出两个bbox（bounding box，边界框），共98个。也可以理解为预定义了98个候选区。

为什么这样做呢？其实也是有理由的。RCNN虽然找到了不少候选区，但是毕竟只是候选区，在完成目标识别之后，还需要对候选区进行调整以获得更加准确的bbox位置，这个过程就是边框回归。YOLO当然就可以这样想：既然最后总要调整，为什么不一开始就定义一个粗略的区域范围，费劲找那么多候选区干嘛。

网络结构

YOLO的网络结构示意图如下，就是堆叠了卷积池化最后加了两层全连接，不过，由于是为了预测bbox等数值信息，并没有采用softmax作为输出的激活函数，而是采用了线性激活函数。整体来看，就是一个448*448*3的图片经过复杂的神经网络变换得到了一个输出张量，这个张量的尺寸是7*7*30。所以理解YOLO无需太过在意中间一系列卷积网络，弄明白输入输出的关系就行了。

输入要求为448*448的图片大小，这样才能固定得到输出张量的大小，因此输入先缩放到448*448。通过上面的结构不难得到，输出为一个尺寸为7*7*30的张量。其实不难理解，输入有49个网格，输出有49个30维向量，那么输入时划分的每一个网格对应输出张量相应位置的向量为输出，举个例子，第一行第一列的网格在输出张量中就是第一行第一列的向量。

那么如果存在跨网格的对象是不是就难以识别呢，其实不然，经过卷积神经网络的复杂提取和变换，网格周围的信息其实也被编码到这个30维向量中了。

这个30维向量的训练目标即ground truth是什么呢，也就是说，这30个元素代表什么呢？具体含义如下图。其中，前20个值代表YOLO设计之初识别的20种目标在该位置存在的概率，记为$P(C_i|Object)$，表示若该网格存在一个目标，则它是$C_i$的概率；最后8个值表示两个bbox的位置，每个bbox需要四个值来表示，分别为(center_x,center_y,width,height)；以及中间两个值表示两个bbox的置信度

上式含义为bbox的置信度等于该bbox内存在目标的概率和该bbox与实际bbox的IOU乘积。这是针对训练而言的，也就是用于计算预测准确程度的损失函数的一部分，实际使用训练好的YOLO算法是没有实际的bbox进行参考的，因而没有IOU。简单说来，bbox的置信度表示它是否包含目标且位置准确的程度。

到此，我们理清了YOLO的网络结构，可以发现这其实就是一个深度回归器。它是完全可以进行端到端训练的，那么依据输出得到的损失函数是什么呢？就是下面的式子

上式第一行表示边框中心位置误差（(cx,cy)误差），第二行表示边框宽度和高度误差，第三行表示边框内有目标的置信度误差，第四行表示边框内无目标的置信度误差，最后一行表示目标分类误差。总的来说，就是网络输出与真实标签的各项内容的误差平方和作为最后的输出误差，上述五项和30维输出是对应的。$\lambda_{\text {coord}}$用于调整bbox误差的权重，YOLO设置为5。

训练

YOLO现在ImageNet数据集上训练前20层卷积网络，让网络获得一部分图像特征提取能力，然后在Pascal VOC数据集上进行目标检测的训练。除了最后一层使用线性激活函数，其他层均使用Leaky Relu，同时采用Dropout和Data Augmention来控制过拟合的发生。

预测

训练完的YOLO网络就可以进行目标预测了，在此之前需要明确下面几个点。原论文的YOLO结构最多识别49个目标；通过调整网络结构可以识别更多的对象；YOLO中的预定义bbox和Faster RCNN中的Anchor不一样，并没有设定bbox的位置和大小，只是表示对一个目标预测两个bbox，选择可能性较大的那个，仅此而已。

训练完成的YOLO网络就可以进行目标检测了，不过它的输出是49个30维向量，表示网格包含的对象类别以及该对象的可能两个bbox位置和对应的置信度。为了向量中提取最有可能的目标及其位置，YOLO采用NMS（Non-maximal suppression，非极大值抑制算法）来实现。

NMS算法并不复杂，其核心思想非常简单：选择score最高的作为输出，与其重叠的删除，反复迭代直到处理完所有备选。

NMS步骤如下图

总结

YOLO提出时由于one-stage特性，速度很快，FPS可以达到45，总体精度低于FastRCNN。遗憾的是，由于网格稀疏，对小对象预测效果较差。总的来说，为工业实时检测提供了新的思路。

YOLOv2/YOLO9000

在YOLO系列中是第二个作品，由于原论文标题为YOLO9000，所以更多人愿意称YOLO2为YOLO9000。作者还是Joseph Redmon，就像论文名YOLO9000:better,faster,stronger一样，在保持高速处理的前提下，better（精度更高）、faster（速度更快）、stronger（目标更多）三个方面进行优化，目标类别因为加到了9000种，因此称为YOLO9000。

better

下图具体描述YOLO9000为了获得更好的mAP（better），所做的工作的效果。

Batch Normalization被应用到了网络中（放弃了Dropout），有着更快的收敛以及更好的防止过拟合效果。
High resolution classifier（高分辨率图像分类器）用于预训练特征提取网络，文中使用448*448的图像作为输入而不是用YOLO1的224*224作为输入图像大小。
Convolutional With Anchor Boxes，参考Fast RCNN的做法，在每个网格设置不同大小、宽高比的先验框（anchor boxes），作为预定义的候选区在神经网络中检测其中是否包含目标以及边框微调。同时，移除顶部的全连接层以及一个池化层，是的卷积层输出分辨率较高
Dimension Clusters，通过基于IOU的边框聚类从数据集中学习到更加合适的先验框（anchor box），减少边框微调的成本。
Direct location prediction，对bbox中心进行约束至一个网格内，从而是的模型早期学习稳定且更容易训练。
Fine-Grained Features，设计passthrough层将pooling之前的信息直接传递到最后的输出特征图从而保留一些细节上的信息，该方法可以改善小目标识别信息不足的问题。
Multi-Scale Training，多尺度图像训练，因为去掉了全连接层，网络的固定输入限制解除了，整个网络的下采样倍率为32，训练是随机更换训练的输入尺寸，使得网络对各种大小的目标有不错的检测效果。

faster

同样，为了获得更快的速度（faster），提出了Darknet19网络结构，该结构包含19个卷积层和5个池化层，相比于VGG16小一些，但精度毫不逊色，且运算量大大减少。其具体结构如下图。

YOLO2的训练分为三个阶段。首先，是224输入的Imagenet的Darknet19预训练（160轮）；接着，是调整输入为448的Imagenet上的Finetune训练（10轮）；最后，移除Darknet最后的卷积层、全局池化层以及Softmax分类层，新增三个卷积核为（3,3,1024）的卷积层和一个passthrough层，最后使用(1,1)的卷积层输出检测结果。输出为对应网格数的向量，向量维度为$anchors_num*(5+classes_num)$，由于anchors为5，对20中对象的VOC数据集输出为(13,13,125)，可以将125为向量理解为5个bbox的预测结果，25个值分别表示bbox的位置和大小以及置信度(tx,ty,tw,th)、Confidence，以及20个值表示的类别结果。

stronger

至于更强（stronger）的算法能力则依赖大量数据集，采用Imagenet和VOC数据集进行分类模型和检测模型联合训练的方法实现9000中对象的检测，具体可以查阅原论文。

总结

YOLO2在参考RCNN系列检测的前提下，自行设计了网络结果和训练优化手段，取得了不错的效果，为很多检测算法提供了新的思路。

YOLOv3

YOLO3可能是现在目标检测领域提的最多的YOLO系算法，因为它比较新且是之前YOLO算法的集大成者。作者依旧是Joseph Redmon，并且开源了代码和模型参数，由于作者个人原因，这应该是YOLO系列最后一个作品。但是相比于之前的两个YOLO版本，这个版本反而是突破最少的，主要是借鉴了一些CV中好的方法集成到了自己的算法中，尤其对于微小目标的识别有了更好的效果，所以YOLO3的论文其实非常简短，单看YOLO3是不可能了解YOLO算法的。

网络结构

借鉴ResNet的做法，设计了新版本的Darknet网络，由于含有53个卷积层，又称为Darknet53，其配置如下图。主要是加入了一些残差模块。

多尺度特征

当然也不能放过这几年很火的多尺度特征融合，通过下采样和上采样联合的操作，对几个尺度的特征图进行融合（concatenation），以获取不同的感受野信息，通过三种尺度的特征融合分别获得了小、中、大目标的检测能力，这是对YOLO2中passthrough层的进一步拓展。也是拓展，是的算法对于各种大小的目标有了更强的检测能力。

分类激活函数

由原来的Softmax改为Logistic函数以支持多标签分类。

总结

相比于YOLO2，YOLO3没有什么太突破的成果，参照ResNet加深了网络结构，使用比较流行的多尺度融合提升了小目标检测效果。如果只考虑推理时间，在同等精度的情况下，YOLO3的速度是其他算法的3倍以上，具体如下图。不过，若是考虑具体精度（以mAP为metric的话），YOLO3相比其他算法还是差了一些，但这不妨碍它作为一个高速实时检测算法。

补充说明

本文主要介绍了YOLO系的目标检测算法，包括YOLOv1、YOLOv2/YOLO9000以及现在很实用的YOLOv3。由于YOLO3是对YOLO的补充优化，所以了解YOLO3必须要了解YOLO以及YOLO2。由于YOLO算法作者已经开源并且也有很多不同框架的实现开源在Github上，我并没有具体进行代码实现。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
模型训练与部署注意事项篇---resize Atticus-Orion 图像处理篇深度学习篇模型训练与部署注意事项篇深度学习计算机视觉人工智能
图像大小的影响在YOLOv系列模型的训练和推理部署过程中，图像大小的选择是影响模型性能（精度、速度、泛化能力）的关键因素之一。两者的关系既相互关联，又存在一定的灵活性，具体可从以下几个方面详细分析：一、核心关系：训练与推理图像大小的“基准一致性”YOLOv模型（如YOLOv5、v7、v8等）的训练和推理图像大小通常以**“基准尺寸”**为核心关联，即训练时设定的图像尺寸会作为模型设计的基础，而推理
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别 fl176831 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：2220标注数量(xml文件个数)：2220标注数量(txt文件个数)：2220标注类别数：4标注类别名称:["CloseElevator","People-in-elevator","The-elevator-was-
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
Yolov5-obb(旋转目标poly_nms_cuda.cu编译bug记录及解决方案)
关于在执行pythonsetup.pydevelop#or"pipinstall-v-e."时poly_nms_cuda.cu报错问题。前面步骤严格按照install.md环境1.pytorch版本较低时（我的是1.10）：poly_nms_cuda.cu文件添加”#defineeps1e-8“，删除“constdoubleeps=1E-8;”这句2.pytorch版本较高时（我用的是1.27）h
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
街道垃圾识别难？陌讯视觉算法实测准确率突破95% 2501_92487900 算法边缘计算目标检测视觉检测计算机视觉
开篇痛点：街道垃圾识别的技术挑战在智慧城市和环保监管场景中，街道垃圾的实时检测一直是个难题。传统视觉算法（如YOLOv5、FasterR-CNN）在复杂街道场景下表现不佳，主要面临以下问题：光照干扰：早晚光线变化导致误检（如阴影被识别为垃圾）小目标漏检：饮料瓶、烟头等小物体在640x640输入下仅占10x10像素遮挡问题：垃圾桶周边堆积物造成特征混淆某环保科技公司实测数据显示，开源模型在真实场景中
占道识别漏检率 30%？陌讯多模态算法实测优化 2501_92487926 算法 ai 计算机视觉视觉检测
开篇：占道经营识别的三大技术痛点在城市管理智能化进程中，占道经营自动识别系统常面临三大核心难题：一是早晚光线剧变导致传统模型mAP骤降15-20%；二是流动摊贩与行人的特征混淆，误判率高达28%；三是密集场景下检测速度跌破15FPS，无法满足实时性要求[1]。某一线城市试点数据显示，基于开源YOLOv5的识别系统日均漏检事件超300起，人工复核成本占总投入的42%。这些问题的根源在于传统算法采用单
YOLOv8 环境监测五大场景 —— 二、森林火灾早期预警之无人机巡逻监测详细解释及代码完整示例路飞VS草帽 YOLOv8 原理与源代码讲解---六大章 YOLOv各版本的应用详细说明及代码示例环境监测五大场景 YOLO 无人机环境监测森林火灾早期预警无人机巡逻监测 YOLOv8
YOLOv8无人机森林火灾巡逻监测系统系统架构设计无人机火灾监测系统组成：1.飞行平台-多旋翼无人机(续航≥60分钟)-双光吊舱(可见光+红外)-RTK高精度定位-4G/5G数据链2.机载计算单元-JetsonOrinNX(AI加速)-轻量化YOLOv8模型-实时火情分析3.地面控制站-飞行路径规划-实时视频监控-火情预警系统4.云端协同-多机任务分配-火势扩散预测-应急资源调度完整代码实现1.无
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

YOLO系列详解（YOLOV1-YOLOV3）

YOLO算法

简介

目标检测思路

RCNN系

YOLOv1

网络结构

训练

预测

总结

YOLOv2/YOLO9000

better

faster

stronger

总结

YOLOv3

网络结构

多尺度特征

分类激活函数

总结

补充说明

你可能感兴趣的:(深度学习,yolo)