王心远

目标检测模型 YOLO系列

文章目录

目标检测模型 YOLO系列
- YOLOv1
- - 一、背景
  - 二、YOLO模型
  - - 主要思想
    - 模型结构
    - 损失函数
  - 三、优缺点
  - 四、参考
- YOLOv2与YOLO9000
- - YOLO9000: Better, Faster, Stronger
  - 一、简述YOLOv1 -> YOLOv2 -> YOLO9000
  - 二、从YOLOv1到YOLOv2：Better and Faster
  - - 1）Batch Normolization：
    - - 使收敛速度加快，可以省去其他正规化方法，如dropout。使mAP上升2.4.
    - 2）High Resolution Classifier更高分辨率的分类器
    - 3）Anchor Box与Dimension Clusters
    - 引入anchor：
    - 通过聚类找到最适合的一组anchor：
    - 4）Direct location prediction
    - 5）Fine-Grained Features
    - 6）Multi-Schale Training
    - 结果：
  - 三、从YOLOv2到YOLO9000：Stronger
  - - 分类数据与检测数据的标签不互斥问题
    - - 1）启发：
      - 2）简化：创建WordTree
      - 3）与YOLOv2结合：
    - 使用联合数据集进行分类与检测
    - 结果
  - 四、Conclusion
  - 五、参考
- YOLOv3
- - YOLOv3: An incremental Improvement
  - 一、简述
  - 二、YOLOv3模型
  - - 基于多尺度的预测 Predictions Across Scales：用于提高检测粒度
    - softmax变为logistic
    - 输出
  - 三、结果
  - 四、参考

YOLOv1

一、背景

按照时间顺序的一些目标检测方法：

使用分类器进行目标检测，大致思想是使用一个分类器，然后对测试图像的不同位置进行评估。如DPM，使用滑动窗口在图片上运行分类器。
R-CNN系列

（1）最早的R-CNN，在原图上使用Selective Search算法提取region proposal，每个区域扭曲后输入CNN，提取出特征，再分别SVM的训练分类器和locator。训练与检测需要多个阶段，时间空间消耗巨大。

（2） FRCN在此基础上，通过修改损失函数将分类与目标框损失合并，设计了RoI池化层使不同大小的目标框的特征可以被池化为同一尺度的特征向量，将CNN与分类器与BBox回归器合并为一段，带来训练速度提升。但是region proposal与卷积网络仍是分割的，图片须先提取区域再输入网络，测试速度很慢。

（3） Faster RCNN本质上是使用RPN（区域建议网络：在特征图上通过一个3*3的卷积，每一个位置预测k个目标框）代替了Selective Search算法，再加上Fast RCNN，RPN与Fast RCNN可以共享特征，所以目标检测过程被合并为单段（本质上还是proposal+classifier）。但是虽然Faster RCNN的主要目的是提高检测速度，实际检测速度是5帧（基于VGG），与实时检测仍有距离。

YOLO提供了新的想法：将目标检测定义为一个回归问题，直接通过图像回归得到分类概率和边界框坐标。基于这个想法，系统使用一个神经网络就可以实现目标检测，网络从一整张图片中提取特征，同时对所有的类的所有边界框进行预测，这代表着网络可以从全局提取信息，同时可以端到端地进行训练和检测。因而这对训练和检测速度带来了巨大的提升，Fast版本的YOLO检测速度可以达到150帧。

二、YOLO模型

主要思想

系统将输入图片分为S*S个栅格，如果目标中心落在哪个栅格，它就负责检测这个目标。

在YOLO中，目标的位置信息是根据栅格左上角的偏移量来表示的（用x, y, w, h表示，(x, y)是预测框中心在栅格中的坐标，w, h是基于原图的预测框的宽和高），这是目标中心位于某个栅格，这个栅格就负责检测的意义。

每个栅格会预测B个边界框，每个边界框都有置信度，这个置信度=是否有目标*IOU ，即 $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kmhvRaaW-1601568418636)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps4.jpg)]$
，所以每个边界框预测5个值：x, y, w, h, confidence。

每个栅格也会预测C个类的条件概率 $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gOAFPAaE-1601568418637)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps5.jpg)]$
，这是在有目标的条件下，各个类的概率。

所以YOLO的思路是将一整张图片输入，经过CNN提取特征，然后通过全连接层，最后输出 $S\times S\times (B*5 + C)$ 的特征向量，整个过程是端到端的，只需要看一次输入图像，这就是You only look once的意思。

比如在PASCAL VOC数据集，数据分为20类，使用 $7\times 7$ 的栅格，每个栅格产生两个预测框，最终输出就为 $7\times 7\times (2*5 + 20)$ 的向量。

在测试时将类的置信度与含有目标的置信度相乘 $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rz0X878F-1601568418638)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps6.jpg)]$
就能得到每个类的置信度。

模型结构

系统使用的CNN包含24个卷积层和两个全连接层，借鉴了GoogLeNet，使用了 $1\times 1$ 和 $3\times 3$ 卷积的组合。

在测试时对输出使用非极大抑制NMS（找出IOU最大的边界框、删去不满足阈值的边界框）就可以削减数量得到最终的结果。

NMS: 对预测同一类目标的目标框按照预测目标的置信度排序，选择一个置信度最高的目标框，如果其他的框与它的IoU大于某个阈值，就删除那个框。本质上是保留一个位置上预测最准的框，去掉与它重叠很大的框。

损失函数

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jQu617UQ-1601568418641)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps10.jpg)]$

loss = 坐标误差 + IOU误差 + 分类误差

实际损失函数：

位置信息在输出中只有8个维度，分类信息有20维，为了平衡 => $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SmeMHvql-1601568418642)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps12.jpg)]$

没有目标的栅格占比更多，可能导致网络不稳定甚至发散 => $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MwyQChkn-1601568418644)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps13.jpg)]$

物体的大小差异对损失函数的影响有差异 => 使用平方根 $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-P8pDdr8c-1601568418645)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps14.jpg)]$

详细解释：

注： $[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KluxhHba-1601568418648)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml18496\wps16.jpg)]$
表示第i个栅格的第j个bbox是否负责检测该object（与该object的ground truth的IOU最大的bbox负责该object的检测），负责那么为1，否则为0.

三、优缺点

优点：

1）快：只需要训练一个CNN，检测时YOLO达到45帧，Fast YOLO达到155帧

2）准确率优于其他实时模型模型

3）信息从全局提取，优于滑动窗口、区域建议等方法。Fast RCNN会错误地将目标识别为背景，由于其信息视野不够大，YOLO这一点做的更好。

4）泛化能力强：艺术作品中的识别准确度比DPM和RCNN更高。

缺点：

1）由于栅格的设计，对于多个小物体的识别不好。

2）准确率不够高：仍低于优秀的非实时检测模型，如FRCN。

四、参考

You Only Look Once: Unified, Real-Time Object Detection

知乎：YOLO详解

https://zhuanlan.zhihu.com/p/25236464

博客园：目标检测之YOLO V1

https://www.cnblogs.com/wangguchangqing/p/10406367.html

YOLOv2与YOLO9000

YOLO9000: Better, Faster, Stronger

一、简述YOLOv1 -> YOLOv2 -> YOLO9000

YOLOv1取得了实时的检测速度，但是仍不能算是最先进的目标检测模型，因为它的准确率还不够高（对YOLO的错误分析显示它在定位上犯了大量的错误）。由此Joseph Redmon等人在YOLO的基础上，一步一步地添加已有的提高准确度的各种技术,也就是说YOLOv2 = YOLOv1+许多提高准确率的技巧。在堆叠了大量技术后，YOLOv2达到了state-of-the-art，准确率可以与Faster RCNN一较高下。

论文中的原话是“我们将过去工作中的大量想法与一些新的概念结合来提高YOLO的表现”

在得到了YOLOv2后，作者转向解决一个新的问题：目前的目标检测只能检测很少的目标类型（几十类），这是因为对用于目标检测的数据打标签要更加昂贵，所以用于目标检测的数据量要远少于用于分类的数据。作者希望能利用大量的分类数据，设计一种联合训练的方式***，使模型可以同时使用检测和分类的数据进行训练，以此来扩展检测的种类*。作者对YOLOv2模型进行了修改，使用ImageNet和COCO的数据进行联合训练，最终得到了YOLO9000，顾名思义它可以对超过9000个类进行目标检测。

二、从YOLOv1到YOLOv2：Better and Faster

多数检测框架使用VGG-16作为特征提取器，它效果很好，但是过于庞大，30.69billion的浮点运算，YOLO使用基于GoogLeNet的结构，需要8.52 billion的浮点运算，但是准确率比VGG低。因而作者提出了Darknet-19。

堆叠了 $3\times 3$ 和 $1\times 1$ 的filter，引入全局平均池化与batch normalization，最终的模型包括19个卷积层与5个池化层，5.58 billion的运算量。

1）Batch Normolization：

使收敛速度加快，可以省去其他正规化方法，如dropout。使mAP上升2.4.

一次训练会输入一批样本进入网络，batch normalization在神经网络的每一层，在激活函数之前层架一个批归一化层（BN)，它对该批样本点各特征量分别进行归一化处理，使其均值为0，方差为1，然后再做一次线性变换，上一步的操作可能改变特征数据的分别，增加线性变换可以使它有机会恢复原本的信息。

批归一化有利于解决反向传播过程中的梯度消失和梯度爆炸问题，降低对一些超参数的敏感性，起到一定正则化的效果，从而得到更快的收敛速度。

2）High Resolution Classifier更高分辨率的分类器

预训练的分类图片通常是224*224分辨率，得到的模型适应此分辨率，而不适合分辨率更高的检测图像，所以对分类网络使用 $448\times 448$ 分辨率的图片进行微调，进行10个epoch，带来4% mAP的提升。

3）Anchor Box与Dimension Clusters

引入anchor：

YOLOv2在每个位置预设一组anchor，用来识别此位置的的多种尺度的目标。作者将预测类与预测空间位置的机制拆解开，变为为每一个anchor box预测位置以及目标置信度。

对网络做相应的修改：

A. 将 $448\times 448$ 的输入改为 $416\times 416$ ，主要目的是最后的特征图为 $13\times 13$ 大小，使一个特征可以负责中心位置。

B. 将全连接层去掉，减少一个池化层，使用全局平均池化+softmax。

C. YOLO中输出为 $S\times S\times (B*5+C)$ , 也就是以栅格为单位预测；在YOLOv2中变为每一个位置输出 $anchornum\times (5+classnum)$

使用anchor的结果：

产生超过1000个anchor boxes，但是mAP有些许下降69.5=>69.2，有点是召回率上升，81%=>88%，这代表着有更大的提升空间。

通过聚类找到最适合的一组anchor：

Faster RCNN人工选出9种不同大小与比例的anchor boxes。

相比人工挑选anchor box比例的不确定性，作者又希望使用一种方法来自动找出最好的anchor box的比例和数量，这个技术叫Dimension Clusters。作者对所有ground-truth box做聚类分析，找出平均IOU最好的一组anchor。使用这种方法找到的5个anchor优于人工选择9个anchor，这也是作者使用的方案。

4）Direct location prediction

原方法：直接预测box的坐标，预测出的坐标可能在图片的任何位置，不稳定，难收敛。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2Ep0S5Z9-1601568418655)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml4056\wps4.jpg)]$

现方法：将预测框的中心限制在某个栅格内。

5）Fine-Grained Features

ResNet中的残差块：将前面某层卷积层的输出与当前输出直接相加然后通过relu。基本思想是：如果网络已经足够大，目前已经学到了很好的特征，那么特征是不需要在变动的，但是后面的卷积层想要与之前得到的结果相同是十分困难的，由此将残差块作为捷径将它们连接。

许多目标尺寸很小，所以作者希望模型预测时能有更细的粒度，类似于ResNet的思想，作者在最后一个池化层之前，将特征图拆为4份，然后与池化后的结果堆叠在一起。带来了1%的提升。

6）Multi-Schale Training

采用不同尺寸的输入进行训练：{320,352,…,608}。

结果：

三、从YOLOv2到YOLO9000：Stronger

作者希望找到一种机制，使模型可以同时使用分类与检测数据进行训练，以此来达到扩展检测种类的目的。基本思想是：如果遇到一张检测图像就按照YOLOv2的损失函数进行反向传播，如果遇到一张分类图像，则只传播分类损失。

分类数据与检测数据的标签不互斥问题

通常如果我们想把两个数据集合并，需要满足的条件是他们的标签要么相同要么互斥，但是相比检测数据，分类数据种类更细致，比如检测的标签是dog，分类数据的标签则有更细致的Norfolk terrier（某个狗的种类），它们并不互斥。

解决方法：Hierarchical classification 层级分类

1）启发：

WordNet，一个语言数据库，将许多概念按关系组织起来，比如Yorkshire terrier与terrier和hunting dog相连，然后又与dog相连，最终所有概念都被组织在了一张网中。

2）简化：创建WordTree

作者找到所有的类对应的WordNet的节点，把它们与它们直到根节点的路径保留下来，如果不止一条路径，则仅保留最短的那条，那么作者就为他的数据构建出了一颗树，越向根节点走，概念越泛化，最终的根节点是physical object。

3）与YOLOv2结合：

这种层级结构正好匹配我们对条件概率的理解，如果想要计算某一个节点的概率，只需要按照路径将从这个节点到根节点的所有概率相乘就可以。如果一个目标是柴犬，那么用1代表，同时它的上层，比如狗，哺乳动物等等也可以用1代表，而它下层的节点则用0代表。按照这种方式，每个节点的概率都可以计算：

举个例子：原本Darknet-19是基于1000个类的ImageNet建立的，加上WordTree中的所有中间节点，标签空间从1000扩展到1369，使用一个1369大小的向量代表。不需要对原来的网络结构做修改，因为扩展的节点可以用数学方法计算：对每个语义集使用一个softmax，相当于计算得到了它们的父节点的概率。

当数据的非互斥问题解决后，我们就可以将ImageNet 和COCO数据集合并了。

4）优点：当网络不能识别是哪类的狗时，至少可以识别出来dog类。

缺点：识别准确率略微下降

使用联合数据集进行分类与检测

实际使用的数据是COCO目标检测数据集与ImageNet的前9000个类以及ImageNet detection challenge的数据，最终一共9418个类。为了减少计算了，将5个anchor减少为3个anchor。YOLOv2的输出是13135*（4+1+20），现在YOLO9000的输出是13133*（4+1+9418）。

对于分类损失计算的修改：对于一个检测样本，它的分类误差只包含该标签节点以及到根节点路径上所有节点的误差。如果一个样本的标签是狗，那么就没有必要计算它的子节点的误差，因为没有这些信息。对于分类样本只计算分类误差，直接找到类的预测概率最高的bbox，然后在它的树的路径上计算损失。

结果

YOLO9000整体取得19.7%的mAP，其中156个类是完全没有任何用于检测的标签的，这156个类仍有16.0%的mAP。对YOLO9000结果的分析显示，它对新的动物类型的检测效果很好，但是对一些衣服、物品的效果不好，这是因为COCO里有关于动物和人的图片，但没有任何关于衣服的数据。

四、Conclusion

YOLOv1=>更换CNN模型、添加各种提高准确率的技术(Faster、Better)=>YOLOv2

YOLOv2=>WordTree融合数据，检测种类扩展(Stronger)=>YOLO9000

五、参考

YOLO9000：Better, Faster, Stronger

简书：YOLOv2/YOLO9000深入理解

https://www.jianshu.com/p/517a1b344a88

YOLOv3

YOLOv3: An incremental Improvement

一、简述

YOLOv3没有在YOLO9000上做出巨大的改进，它的工作更多的是基于YOLOv2的思路，设计了一个新的网络结构（Darknet-53），并将当时的一些新的点子加到这个模型上，以此来提高YOLO系列目标检测模型的准确率。

YOLOv3的改进主要有：建立新的CNN模型（引入残差块）；利用多尺度特征进行目标检测；在分类时使用Logistic代替softmax。

这篇文章比较随心所欲，最后作者阐述了自己一些关于计算机视觉的隐患（获取私人信息，军工等），并希望其他人在从事该领域时有更多的责任感。

二、YOLOv3模型

Darknet-53：

在Darknet-19的基础上，作者引入了Resnet中的shortcut connection。

回顾：上图是Resnet的组成元素，残差块。残差网络的思想是当某层网络已经很好地学习到了特征，那么之后的层出现一点小的变化就会使性能变差，而让某层网络自学习来与之前某层相同是非常困难的。因此残差块将前面某层的输入直接加到后层，使网络很容易与前面某层相同，那么至少性能不会变差。

为了提高检测的粒度，作者引入了多尺度检测，同时对网络进行了扩充，最终的网络达到了53个卷积层。

基于多尺度的预测 Predictions Across Scales：用于提高检测粒度

为什么这样做会有更细的粒度：

1）将前面某层的特征图与当前层的特征图堆叠，由此就包含了前面更小的特征，这个方法与YOLOv2一致。

2）上采样：从感受野的角度考虑

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-efx9YRpj-1601568418673)(file:///C:\Users\lenovo\AppData\Local\Temp\ksohtml20544\wps4.jpg)]

YOLOv3在3个不同的尺度上预测bbox。首先先按照v2的思路构建好网络，然后取出此输出层向前数第二层的特征图进行2倍上采样，然后从前面的某层取出特征图，将它们堆叠，按照这样的方法我们就可以得到粒度更细的语义信息了。然后作者又按照同样的方法又构建了一个尺度的模块，所以检测会基于三个尺度。因为有三种尺度，所以作者分别为它们设置了3个不同大小的anchor box。

每次上采样，感受野都在减小，直观的展现是：

蓝色是anchor box，黄色是ground truth，红色是中心所在的栅格

softmax变为logistic

在这个模型中不能使用softmax，因为softmax对一个目标只能输出一个标签，而logistic支持多标签对象（如：Woman，Person）

输出

一共有 $13\times 13\times 3+26\times 26\times 3+52\times 52\times3=10647$ 个预测

三、结果

YOLOv3在速度和准确率上较为平衡，总之它是效果很好的检测模型。

四、参考

YOLOv3: An Incremental Improvement

简书：YOLOv3 深入理解

https://www.jianshu.com/p/d13ae1055302

CSDN：YOLOv3网络结构和解析

https://blog.csdn.net/dz4543/article/details/90049377

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
图神经网络：挖掘关系数据中的宝藏
图神经网络：挖掘关系数据中的宝藏在浩瀚的数据海洋中，蕴藏着一类特殊而强大的资源——关系数据。它们不是孤立的点，而是相互连接、彼此影响的复杂网络：社交平台上朋友的朋友、电商系统中商品与用户的互动、蛋白质分子内原子的结合、城市交通网中的道路连接……这些数据天然以图的形式存在，节点代表实体，边则承载着实体间千丝万缕的关系。传统的数据挖掘工具面对这些盘根错节的结构往往力不从心，而图神经网络（GNN）的崛起
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
【机器学习笔记Ⅰ】9 特征缩放巴伦是只猫机器学习机器学习笔记人工智能
特征缩放（FeatureScaling）详解特征缩放是机器学习数据预处理的关键步骤，旨在将不同特征的数值范围统一到相近的尺度，从而加速模型训练、提升性能并避免某些特征主导模型。1.为什么需要特征缩放？(1)问题背景量纲不一致：例如：特征1：年龄（范围0-100）特征2：收入（范围0-1,000,000）梯度下降的困境：量纲大的特征（如收入）会导致梯度更新方向偏离最优路径，收敛缓慢。量纲小的特征（如
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
专题：2025云计算与AI技术研究趋势报告|附200+份报告PDF、原数据表汇总下载
原文链接：https://tecdat.cn/?p=42935关键词：2025,云计算，AI技术，市场趋势，深度学习，公有云，研究报告云计算和AI技术正以肉眼可见的速度重塑商业世界。过去十年，全球云服务收入激增8倍，中国云计算市场规模突破6000亿元，而深度学习算法的应用量更是暴涨400倍。这些数字背后，是企业从“自建机房”到“云原生开发”的转型，是AI从“实验室”走向“产业级应用”的跨越。本报告
【大模型与机器学习解惑】什么是A/B测试，为何进行A/B测试？
以下内容将围绕机器学习中的A/B测试展开，从概念与背景到实施细节、示例代码、优化思路和未来建议，并在最后给出一个整体的“输出目录”供参考。目录什么是机器学习的A/B测试为何要进行A/B测试A/B测试的实施流程示例代码与详细解释优化方向与未来建议结语1.什么是机器学习的A/B测试A/B测试（也常被称作对照试验、SplitTest）最早多用于互联网产品的功能或界面迭代中，指的是将用户或样本随机分为两组
【深度学习解惑】在实践中如何发现和修正RNN训练过程中的数值不稳定？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 人工智能 tensorflow pytorch 神经网络机器学习
在实践中发现和修正RNN训练过程中的数值不稳定目录引言与背景介绍原理解释代码说明与实现应用场景与案例分析实验设计与结果分析性能分析与技术对比常见问题与解决方案创新性与差异性说明局限性与挑战未来建议和进一步研究扩展阅读与资源推荐图示与交互性内容语言风格与通俗化表达互动交流1.引言与背景介绍循环神经网络(RNN)在处理序列数据时表现出色，但训练过程中常面临梯度消失和梯度爆炸问题，导致数值不稳定。当网络
【深度学习实战】当前三个最佳图像分类模型的代码详解云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习人工智能分类模型机器学习 Transformer EfficientNet ConvNeXt
下面给出三个在当前图像分类任务中精度表现突出的模型示例，分别基于SwinTransformer、EfficientNet与ConvNeXt。每个模型均包含：训练代码（使用PyTorch）从预训练权重开始微调（也可注释掉预训练选项，从头训练）数据集目录结构：└──dataset_root├──buy#第一类图像└──nobuy#第二类图像随机拆分：80%训练，20%验证每个Epoch输出一次loss
第35周—————糖尿病预测模型优化探索
目录目录前言1.检查GPU2.查看数据编辑3.划分数据集4.创建模型与编译训练5.编译及训练模型6.结果可视化7.总结前言本文为365天深度学习训练营中的学习记录博客原作者：K同学啊1.检查GPUimporttorch.nnasnnimporttorch.nn.functionalasFimporttorchvision,torch#设置硬件设备，如果有GPU则使用，没有则使用cpudevice=
《从依赖纠缠到接口协作：ASP.NET Core注入式开发指南》后端
在C#的ASP.NETCore开发中，依赖注入绝非简单的技术技巧，而是重构代码关系的底层逻辑。它像一套隐形的神经网络，让程序模块摆脱硬编码的束缚，在运行时实现动态连接，从而为系统注入可测试、可进化的核心生命力。理解其深层价值，需要穿透"服务注册与获取"的表层操作，触及它对软件设计哲学的重塑。依赖注入的本质，是对"依赖关系"的去中心化治理。传统开发中，模块间的依赖如同藤蔓缠绕的树木，一个组件直接创建
详解LLMOps，将DevOps用于大语言模型开发
大家好，在机器学习领域，随着技术的不断发展，将大型语言模型（LLMs）集成到商业产品中已成为一种趋势，同时也带来了许多挑战。为了有效应对这些挑战，数据科学家们转向了一种新型的DevOps实践LLM-OPS，专为大型语言模型的开发和维护而设计。本文将介绍LLM-OPS的核心思想，并分析这一策略如何帮助数据科学家更高效地运用DevOps的优秀实践，从而在语言模型的开发和部署过程中，提升工作效率和成果的
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

目标检测模型 YOLO系列

目标检测模型 YOLO系列

文章目录

YOLOv1

一、背景

二、YOLO模型

主要思想

模型结构

损失函数

三、优缺点

四、参考

YOLOv2与YOLO9000

YOLO9000: Better, Faster, Stronger

一、简述YOLOv1 -> YOLOv2 -> YOLO9000

二、从YOLOv1到YOLOv2：Better and Faster

1）Batch Normolization：

使收敛速度加快，可以省去其他正规化方法，如dropout。使mAP上升2.4.

2）High Resolution Classifier更高分辨率的分类器

3）Anchor Box与Dimension Clusters

引入anchor：

通过聚类找到最适合的一组anchor：

4）Direct location prediction

5）Fine-Grained Features

6）Multi-Schale Training

结果：

三、从YOLOv2到YOLO9000：Stronger

分类数据与检测数据的标签不互斥问题

1）启发：

2）简化：创建WordTree

3）与YOLOv2结合：

使用联合数据集进行分类与检测

结果

四、Conclusion

五、参考

YOLOv3

YOLOv3: An incremental Improvement

一、简述

二、YOLOv3模型

基于多尺度的预测 Predictions Across Scales：用于提高检测粒度

softmax变为logistic

输出

三、结果

四、参考

你可能感兴趣的:(深度学习,机器学习,神经网络)