搁浅丶.

YOLO系列

1.YOLO概述

目标检测算法通常分为两类，包括one stage和two stage它们两者的区别在于two stage算法需要先生成一个有可能包含待检物体的预选框，然后再在这些预选框进行分类和回归；而one stage算法会直接在网络中提取特征来预测物体分类和位置。

以往的物体检测方法R-CNN、Fast R-CNN 等通常将检测问题转变为分类问题，而YOLO将检测变为一个回归问题，并且它的训练和检测均是在一个单独网络中进行，输入一张图像，经过网络直接输出预测框和类别，可以直接进行端到端的优化。而R-CNN、Fast R-CNN 等就是one stage算法，YOLO是two stage算法。

2.YOLOv1

[1506.02640] You Only Look Once: Unified, Real-Time Object Detection (arxiv.org)

2.1 训练阶段

对于目标检测来说，我们需要人工对图片中的目标使用矩形框进行标注并指明类别，得到训练集。

1.如何得到矩形框

输入图像划分成S × S个网格，每个网格会给出B个边界框（bouding box）。如果目标的中心点落入了某个网格中，则由这个网格来负责预测这个目标。训练时只选择与ground truth（真实框）的IOU最大的那个边界框来负责预测该目标，

其中每个边界框包含5个预测值：x，y，w，h，confidence，（x，y）代表预测边界框的中心点坐标，w，h是边界框的宽度和高度，confidence是预测边界框和真实边界框的IOU。

confidence反映了网络模型对该边界框是否含有目标的信心，以及边界框位置预测的准确度。定义为如下公式

其中 Pr(Object)代表若网格中存在目标为1，不存在为0。如果网格中不包含目标则Pr(Object) = 0因此confidence也为0，包含物体Pr(Object) = 1那么confidence就等于预测边界框和真实边界框的IOU(交并比)。IOU越大代表预测框和真实框。

对于每一个需要目标检测的类别都有一个概率，每个网格预测C个条件类别概率， Pr(Class i |Object)是一个bounding box在含有物体的条件下属于某个类别的概率，每个网格只预测一组条件类别概率，B个边界框共用这个概率。

这些信息包含在一个含S×S×（B×5+C）的张量中，C为类别个数。YOLOv1在PASCAL VOC数据集上进行评估，于是设置S=7，B=2，C=20。YOLO通过卷积神经网络得到这个张量。

2.网络结构

输入448×448×3的图像。经过24层卷积层，同样和ResNet的bottleneck一样，使用1×1卷积降维和升维。经过两个全连接层输出1470，然后Reshape得到7×7×30的特征图。每个网格包含30个信息。

除了最后一层使用了线性激活函数外，其余层的激活函数为 Leaky ReLU
使用了 Dropout

3.损失函数

损失函数由多个部分组成，都是均方误差的形式，所以YOLO将目标检测问题变成了回归问题

λnoobj = 0.5即调低不存在目标对象的bounding box的置信度误差的权重，让有目标对象的bouding box的置信度损失占比更大

此外，x,y,w,h还需要进行归一化

经过上述公式得到的normalization的(x, y, w, h)，再加之前提到的confidence，才共同组成了一个真正在网络中用于回归的bounding box；而当网络在Test阶段(x, y, w, h)经过反向解码又可得到目标在图像坐标系的框。

2.2 预测阶段

输入图片进入网络后，7×7×30的特征图。包含98个boudingbox的位置信息和每个网格条件类概率（包含物体的条件下是某个类别的概率）

物体的概率即置信度和条件类概率（包含物体的条件下是某个类别的概率）相乘就可以得到该边界框20个类别的得分值。

可以得到下面这个图，每个网格2个边界框，每个边界框有20个类的得分值。然后我们需要剔除得分值低的，剔除重复框

1.接下来对于每一个类别，设置一个阈值，过滤掉得分值太低的，直接置0。然后按照从大到小排序。

2.然后需要经过NMS非极大值抑制。例如下面最高为0.5，将每一个除了之外的都与最高的进行比较，设置一个阈值，如果他们IOU超过这个阈值，就认为重复识别了一个目标，那么就将低得分值的过滤掉置0

3.接着不断重复这个步骤，到得分值次高的，bb20已经被置0了，直接到bb15

这里示例只是对于狗这个类别。对于每一个类别都进行如上操作1.2.3。最后将不为0的框都画出来，得到最后结果。

2.3 优劣

优点：

1. 检测速度快，因为它是one-stage的，直接将检测视作回归问题；

2. YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3. YOLO可以学到物体的泛化特征。当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

缺点：

1. 虽然每个格子可以预测B个bounding box，但是这B个bbox的预测输出只能是一个类的。这种空间约束限制了我们的模型可以预测附近目标的数量，即对成群的小目标预测有问题；

2. 多个不同类的目标中心落在同一个网格时，我们一个网格内的bbox输出类别唯一，检测出现问题；

3. 模型采用了多个下采样层，导致模型学到的特征并不精细，也会影响检测结果；

4. 相比于其他先进的目标检测系统，它的精度稍低；召回率低；

5. YOLO loss函数中，大物体IOU误差和小物体IOU误差对网络训练中loss贡献值接近（虽然采用求平方根方式，但没有根本解决问题）。因此，对于小物体，小的IOU误差也会对网络优化过程造成很大的影响，从而降低了物体检测的定位准确性。

3. YOLOv2

[1612.08242] YOLO9000: Better, Faster, Stronger (arxiv.org)

YOLOv1虽然检测速度很快，但是在检测精度上却不如R-CNN系检测方法，YOLOv1在物体定位方面（localization）不够准确，并且召回率（recall）较低。YOLOv2共提出了几种改进策略来提升YOLO模型的定位准确度和召回率，从而提高mAP，YOLOv2在改进中遵循一个原则：保持检测速度，这也是YOLO模型的一大优势。YOLOv2的改进策略如图2所示，可以看出，大部分的改进方法都可以比较显著提升模型的mAP。下面详细介绍各个改进策略。

1.Batch Normalization

Batch Normalization可以提升模型收敛速度，而且可以起到一定正则化效果，降低模型的过拟合。在YOLOv2中，每个卷积层后面都添加了Batch Normalization层，并且不再使用droput。使用Batch Normalization后，YOLOv2的mAP提升了2.4%。

2.High Resolution Classifier

基于ImageNet分类模型基本采用大小为 224×224 的图片作为输入，分辨率相对较低，不利于检测模型。所以YOLOv1在采用 224×224 分类模型预训练后，将分辨率增加至 448×448 ，并使用这个高分辨率在检测数据集上finetune（微调）。但是直接切换分辨率，检测模型可能难以快速适应高分辨率。

所以YOLOv2增加了在ImageNet数据集上直接说使用 448×448 输入来finetune分类网络这一中间过程（10 epochs），这可以使得模型在检测数据集上finetune之前已经适用高分辨率输入。使用高分辨率分类器后，YOLOv2的mAP提升了约4%。

3.Convolutional With Anchor Boxes

在YOLOv1中，输入图片会被划分为 7×7 网格，每个单元格预测2个边界框。而实际中由于各个图片中存在不同尺度和长宽比的物体，YOLOv1在训练过程中学习适应不同物体的形状是比较困难的，这也导致YOLOv1在精确定位方面表现较差。

YOLO一代包含有全连接层，从而能直接预测Bounding Boxes的坐标值。 Faster R-CNN的方法只用卷积层与Region Proposal Network来预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。作者发现通过预测偏移量而不是坐标值能够简化问题，让神经网络学习起来更容易。

此外，YOLOv2不是采用 448×448 图片作为输入，而是采用 416×416 大小。因为YOLOv2模型下采样的总步长为 32 ，对于 416×416 大小的图片，最终得到的特征图大小为 13×13 ，维度是奇数，这样特征图恰好只有一个中心位置。对于一些大物体，它们中心点往往落入图片中心位置，此时使用特征图的一个中心点去预测这些物体的边界框相对容易些。

YOLOv1两个bouding box共享一套类别概率，YOLOv2使用了anchor boxes之后，每个位置的各个anchor box都单独预测一套分类概率值，

和YOLOv1一样，对于训练图片中的ground truth，若其中心点落在某个cell内，那么该cell内的5个先验框所对应的边界框负责预测它，具体是哪个边界框预测它，需要在训练中确定，即由那个与ground truth的IOU最大的边界框预测它，而剩余的4个边界框不与该ground truth匹配。

使用Anchor Box会让精确度稍微下降，但用了它能让YOLO能预测出大于一千个框，同时recall大大提升达到88%，mAP达到69.2%。

4.Dimension Clusters

在Faster R-CNN和SSD中，先验框的长和宽都是手动设定的，带有一定的主观性（下图15）。因此，YOLOv2采用k-means聚类方法对训练集中的边界框做了聚类分析。如果我们用标准的欧式距离的k-means，尺寸大的框比小框产生更多的错误（下图SSE），因为设置先验框的主要目的是为了使得预测框与ground truth的IOU更好，所以聚类分析时选用box与聚类中心box之间的IOU值作为距离指标

上图为在VOC和COCO数据集上的聚类分析结果，随着聚类中心数目的增加，平均IOU值（各个边界框与聚类中心的IOU的平均值）是增加的，但是综合考虑模型复杂度和召回率，作者最终选取5个聚类中心作为先验框，其相对于图片的大小如上右图所示。

5.Direct location prediction

预测的边界框的实际中心位置（x,y）根据下面公式来计算，

，为预测的坐标偏移值； $w_{p}$ ， $h_{p}$ 为先验框的宽高， $x_{p}$ 和 $y_{p}$ 为先验框的中心位置。

但是上面的公式是无约束的，预测的边界框很容易向任何方向偏移，如当 tx=1 时边界框将向右偏移先验框的一个宽度大小，而当 tx=−1 时边界框将向左偏移先验框的一个宽度大小，因此每个位置预测的边界框可以落在图片任何位置，这导致模型的不稳定性，在训练时需要很长时间来预测出正确的偏移量。

Yolov2中将边框的结果的中心点约束在当前的网格中而不会飞到别的网格，预测边界框中心点相对于对应cell左上角位置的相对偏移值，要先将网格大小归一化，即令一个网格的宽=1，高=1，并使用sigmoid函数处理偏移值，这样预测的偏移值在(0,1)范围内。可以按如下公式计算出边界框实际位置和大小：

为当前网格对于图像左上角的偏移量，为当前网格对于图像左上角的偏移量， $p_{w}$ , $p_{h}$ 是先验框的宽和高。

最终预测边框的蓝色中心点被约束在蓝色背景的网格内

约束了边界框的位置预测值使得模型更容易稳定训练，结合聚类分析得到先验框与这种预测方法，YOLOv2的mAP值提升了约5%。

预测框在原图的还原：

假设网络预测值为：

anchor框为：

假设当前网格距离左上角的偏移量为

则目标在特征图中的位置：

在原图像中的位置：

*32是因为经过了5次降采样

6.New Network: Darknet-19

YOLOv2采用了一个新的特征提取网络Darknet-19，包括19个卷积层和5个maxpooling层，如图4所示。主要采用 3×3 卷积，采用 2×2 的maxpooling层之后，特征图维度降低2倍，而同时将特征图的channles增加两倍。Darknet-19最终采用global avgpooling做预测，并且在 3×3 卷积之间使用 1×1 卷积来压缩特征图channles以降低模型计算量和参数。Darknet-19每个卷积层后面同样使用了batch norm层以加快收敛速度，降低模型过拟合。在ImageNet分类数据集上，Darknet-19的top-1准确度为72.9%，top-5准确度为91.2%。使用Darknet-19之后，YOLOv2的mAP值没有显著提升，但是计算量却可以减少约33%。

7.Fine-Grained Features

YOLOv2的输入图片大小为 416×416 ，经过5次maxpooling之后得到 13×13 大小的特征图，并以此特征图采用卷积做预测。 13×13 大小的特征图对检测大物体是足够了，但是对于小物体还需要更精细的特征图（Fine-Grained Features）。

YOLOv2提出了一种passthrough层来利用更精细的特征图。YOLOv2所利用的Fine-Grained Features是 26×26 大小的特征图（最后一个maxpooling层的输入）。以前面更高分辨率的特征图为输入，然后将其连接到后面的低分辨率特征图上。于 26×26×512 的特征图，经passthrough层处理之后就变成了 13×13×2048 的新特征图，与后面的 13×13×1024 特征图连接在一起形成 13×13×3072 大小的特征图

使用Fine-Grained Features之后YOLOv2的性能有1%的提升。

8.Multi-ScaleTraining

作者希望YOLO v2能健壮的运行于不同尺寸的图片之上，所以把这一想法用于训练model中。
区别于之前的补全图片的尺寸的方法，YOLO v2每迭代几次都会改变网络参数。每10个Batch，网络会随机地选择一个新的图片尺寸，由于使用了下采样参数是32，所以不同的尺寸大小也选择为32的倍数{320，352…..608}，最小320*320，最大608*608，网络会自动改变尺寸，并继续训练的过程。
这一策略让网络在不同的输入尺寸上都能达到一个很好的预测效果，同一网络能在不同分辨率上进行检测。当输入图片尺寸比较小的时候跑的比较快，输入图片尺寸比较大的时候精度高。

9.损失函数

YOLOv2的训练

YOLOv2的训练主要包括三个阶段。

第一阶段就是先在ImageNet分类数据集上预训练Darknet-19，此时模型输入为 224×224 ，共训练160个epochs。

然后第二阶段将网络的输入调整为 448×448 ，继续在ImageNet数据集上finetune分类模型，训练10个epochs，此时分类模型的top-1准确度为76.5%，而top-5准确度为93.3%。

第三个阶段就是修改Darknet-19分类模型为检测模型，并在检测数据集上继续finetune网络。网络修改包括：移除最后一个卷积层、global avgpooling层以及softmax层，并且新增了三个 3×3×2014卷积层，同时增加了一个passthrough层，最后使用 1×1 卷积层输出预测结果。

YOLO9000

在YOLO-V2的整个技术架构中中，还提出了一个联合训练分类和检测数据的机制，以大幅提升其支持的检测目标种类，该目标检测模型称为YOLO-9000。

ImageNet这样的分类任务数据集往往拥有类别众多且图像数量庞大的标注数据，但是缺少目标的位置信息，而目标检测数据集提供精确的目标位置信息，但是图像数量相对分类任务数据集要少很多，目标类别也很少。YOLO-9000的联合训练机制旨在综合两种数据集的优势——使用目标检测数据集的数据去训练检测相关的能力，例如包围框的位置信息、以及每个包围框中是否包含特定目标及其属于各类目标的概率，而使用仅有类别标签的分类任务数据集来扩展可检测的目标种类。YOLO-9000在具体实现过程中，包括层级分类（hierarchical classification）模型构造与分类与检测模型联合训练两方面内容。

YOLO9000效果其实并不好，这里不详细介绍。

4.YOLOv3

[1804.02767] YOLOv3: An Incremental Improvement (arxiv.org)

1.Backbone

新的用于特征提取的骨干网络backbone为Darknet-53

Backbone部分由Yolov2时期的Darknet-19进化至Darknet-53，加深了网络层数，引入了Resnet中的残差连接。虽然速度有所下降，但提高了准确率与运算速度，比同精度的ResNet还快很多

2.整个网络结构

上图三个蓝色方框内表示Yolov3的三个基本组件：

CBL：Yolov3网络结构中的最小组件，由Conv+Bn+Leaky_relu激活函数三者组成。
Res unit：借鉴Resnet网络中的残差结构，让网络可以构建的更深。
ResX：由一个CBL和X个残差组件构成，是Yolov3中的大组件。每个Res模块前面的CBL都起到下采样的作用，整个网络会经过五次下采样，如果输入为416，那么特征图的尺寸依次为416->208->104->52->26->13

其他基础操作：

Concat：张量拼接，会扩充两个张量的维度，例如26*26*256和26*26*512两个张量拼接，结果是26*26*768。
add：张量相加，张量直接相加，不会扩充维度，例如104*104*128和104*104*128相加，结果还是104*104*128。

网络结构解析：

Yolov3中，只有卷积层，通过步长为2的卷积下采样。所以对于输入图片尺寸没有特别限制，只要是32的倍数即可
Yolov3借鉴了金字塔特征图FPN思想，深层小尺寸特征图感受野大检测大尺寸物体，而浅层大尺寸特征图感受野小检测小尺寸物体。特征图的输出维度为N × N ( 3 × (4 + 1 + 80))， N × N 为输出特征图尺寸，一共3个Anchor框，每个框有4项信息 $\left ( x,y,w,h,c \right )$ ，80为可以识别类别数。所以特征图的输出维度为( 3 × (4 + 1 + 80)) = 255 。

3.Yolov3总共输出3个特征图，第一个特征图下采样32倍，第二个特征图下采样16倍，第三个下采样8倍。输入图像经过Darknet-53（无全连接层）再经过3*3卷积层、1*1卷积之后生成特征图一，特征图一经过1*1卷积层加上采样层，与Darnet-53网络的中间层输出结果进行拼接，产生特征图二。同样的操作产生特征图三。以416输入为例，三个特征图一共可以产生（13×13×3）+（26×26×3）+（52×52×3）= 10647个预测框，比起v1和v2大大提升了小目标和密集目标的检测性能

4.上采样层(upsample)：作用是将小尺寸特征图通过插值等方法，生成大尺寸图像。上采样层不改变特征图的通道数。

3.正负样本与损失函数

预测框一共分为三种情况：正例（positive）、负例（negative）、忽略样例（ignore）。
正例：Yolov3的训练，不再按照ground truth中心点，严格分配指定cell，而是根据预测值寻找IOU最大的预测框作为正例。任取一个ground truth，与所有预测框全部计算IOU，IOU最大的预测框，即为正例。并且一个预测框，只能分配给一个ground truth。例如第一个ground truth已经匹配了一个正例检测框，那么下一个ground truth，就在余下的检测框中，寻找IOU最大的检测框作为正例。正例产生置信度loss、检测框loss、类别loss，类别标签对应类别为1，其余为0；置信度标签为1。所以一个grid cell可以不止检测一个目标。
忽略样例：正例除外，与任意一个ground truth的IOU大于阈值（论文中使用0.5），则为忽略样例。忽略样例不产生任何loss。
负例：正例除外（与ground truth计算后IOU最大的检测框，但是IOU小于阈值，仍为正例），与全部ground truth的IOU都小于阈值（0.5），则为负例。负例只有置信度产生loss，置信度标签为0。

4.训练与预测

5.性能

Yolov3精度与SSD相比略有小优，与Faster R-CNN相比略有逊色，几乎持平，比RetinaNet差。但是速度是SSD、RetinaNet、Faster R-CNN至少2倍以上。

5.YOLOv4

[2004.10934] YOLOv4: Optimal Speed and Accuracy of Object Detection (arxiv.org)

在 YOLO 系列的原作者 Joseph Redmon 宣布退出 CV 领域后，表明其不会再更新YOLO系列。但AlexeyAB 继承了 YOLO 系列的思想和理念，在 YOLOv3 的基础上不断进行改进发布了 YOLOv4，并得到了原作者 Joseph Redmon 的承认。

YOLOv4 可以使用传统的单GPU 进行训练和测试，并能够获得实时的，高精度的检测结果。与当时其他最先进的目标检测器的比较的结果如图所示，YOLOv4 在与 EfficientDet 性能相当的情况下，推理速度比其快两倍。相比 YOLOv3 的 AP 和 FPS 分别提高了 10% 和 12%。

整体而言，YOLOv4几乎没有像前几代YOLO一样提出一些创新性的东西，而是大量列举了近几年以来关于目标检测的一些最新技术和成果，并对这些方法进行了大量的试验来从而达到更好的效果。

1. Bag of freebies

只增加训练成本，但是能显著提高精度，并不影响推理速度

1.1 Mosaic数据增强

将四张训练图通过随机缩放、随机裁减、随机排布的方式拼接成一张进行训练

进行Mosaic数据增强的优点

丰富数据集：随机使用4张图像，随机缩放后随机拼接，增加很多小目标，大大增加了数据多样性。
增强模型鲁棒性：混合四张具有不同语义信息的图片，可以让模型检测超出常规语境的目标。
加强批归一化（Batch Normalization）的效果：当模型设置 BN 操作后，训练时会尽可能增大批样本总量（BatchSize），因为 BN 原理为计算每一个特征层的均值和方差，如果批样本总量越大，那么 BN 计算的均值和方差就越接近于整个数据集的均值和方差，效果越好。
有利于提升小目标检测性能： Mosaic 数据增强图像由四张原始图像拼接而成，这样每张图像会有更大概率包含小目标，从而提升了模型的检测能力。

1.2 自对抗训练（Self-adversarial-training，SAT）

其主要目标是通过改变输入图像，使得网络难以识别，从而迫使网络提高泛化性能

第一阶段，CNN通过反向传播改变图片信息，而不是改变网络权值。通过这种方式，CNN可以进行对抗性攻击，改变原始图像，造成图像上没有目标的假象。
第二阶段，对修改后的图像进行正常的目标检测

1.3 DropBlock

DropBlock是适用于卷积层的正则化方法，它作用的对象的特征图。在DropBlock中，特征在一个个block中，当应用DropBlock时，一个feature map中的连续区域会一起被drop掉。那么模型为了拟合数据网络就不得不往别出看以寻找新的证据。

其中(a)是输入到卷积网络的原始图像，(b)和©中的绿色区域包括激活单元，这些激活单元在输入图像中包含语义信息。随机丢弃激活对删除语义信息无效，因为附近的激活包含紧密相关的信息。相反，删除连续区域可以删除某些语义信息（例如，头或脚），从而强制其余单元学习用于分类输入图像的其它特征，这样就增加了模型的泛化能力。

1.4 类标签平滑（Label Smoothing）

原因：对预测有100%的信心可能表明模型是在记忆数据，而不是在学习。如果训练样本中会出现少量的错误样本，而模型过于相信训练样本，在训练过程中调整参数极力去逼近样本，这就导致了这些错误样本的负面影响变大。

具体做法：标签平滑调整预测的目标上限为一个较低的值，比如0.9。它将使用这个值而不是1.0来计算损失。这样就缓解了过度拟合。

1.5 边界框损失函数CIOU

YOLOV4用CIOU损失代替了YOLOv3的box位置损失，取代了预测框和真实框的中心点坐标以及宽高信息设定MSE损失函数，其他部分损失没改变

其中，ρ2(b,bgt)分别代表了预测框和真实框的中心点的欧式距离。c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离。

1.6 cmBN

BN：对当前mini-batch进行归一化
CBN: 对当前以及当前往前数3个mini-batch的结果进行归一化
CmBN: CmBN 在整个批次中使用Cross min-batch Normalization 收集统计数据，而非在单独的mini-batch中收集统计数据

我们知道，BN 是对当前 mini-batch 的数据进行归一化；CBN 是通过收集最近几次迭代iterations信息来更新当前迭代时刻的均值和方差；而 CmBN 是在整个 batch 中使用 Cross min-batch Normalization 进行归一化，而不是在单独的 mini-batch 中进行归一化，这只收集一个批次内mini-batches之间的数据

1.7 消除网格敏感性

如果ground ture的中心点落在了grid cell的左上角或者右下角，那么就需要的值接近于0或者1，对于Sigmoid函数来说就相当于预测值需要接近负无穷或者负无穷，这种很极端的值网络很难做到，于是引入了一个大于1的缩放系数 $scale_{xy}$

通过引入这个系数，网络的预测值能够很容易达到0或者1，现在比较新的实现方法包括YOLOv5都将这个系数设置为2

下图为原Sigmoid函数和改进后的Sigmoid函数图像，并且偏移的范围由原来的( 0 , 1 )调整到了( − 0.5 , 1.5 )

1.8 多个Anchor对应一个ground ture
在YOLOv3中针对每一个GT都只分配了一个Anchor。但在YOLOv4中一个GT可以同时分配给多个Anchor，它们是直接使用Anchor模板与GT Boxes进行粗略匹配，然后在定位到对应cell的对应Anchor

之前正样本匹配过程。流程大致如下图所示：比如说针对某个预测特征层采用如下三种Anchor模板AT 1、AT 2、AT 3

将每个GT Boxes与每个Anchor模板进行匹配（这里直接将GT和Anchor模板左上角对齐，然后计算IoU）
如果GT与某个Anchor模板的IoU大于给定的阈值，则将GT分配给该Anchor模板，如图中的AT 2
将GT投影到对应预测特征层上，根据GT的中心点定位到对应cell
则该cell对应的AT2为正样本

但在YOLOv4中关于匹配正样本的方法又有些许不同。通过缩放后网络预测中心点的偏移范围已经从原来的( 0 , 1 )调整到了( − 0.5 , 1.5 )，某个Cell左上角点距离GT中心在( − 0.5 , 1.5 )范围内都满足条件。所以对于同一个GT Boxes可以分配给更多的Anchor，即正样本的数量更多了。如下图所示：

1.8 使用余弦退火学习率

1.9 遗传算法寻找最优超参数

2. Bag-of-Specials

通过稍许增加推理成本，来提高目标检测精度的方法

2.1 DIoU NMS

在实际应用场景中，当两个不同物体挨得很近时，由于IOU值比较大，往往经过NMS处理后，只剩下一个检测框，这样导致漏检的错误情况发生。

基于此，DIOU-NMS就不仅仅考虑IOU，还考虑两个框中心点之间的距离。如果两个框之间IOU比较大，但是两个框的距离比较大时，可能会认为这是两个物体的框而不会被过滤掉。其公式如下：

得分最高的预测框M和其它框Bi的（IOU-DIOU）值比较小时，Bi的得分值Si仍然保持，否则，当（IOU-DIOU）大于NMS threshold值时，Si值就设成0了，即被过滤掉。

2.2 Soft NMS

传统的非极大值抑制是将IOU超过阈值的候选框都删除掉，这种状态下如果遇到两个物体重叠出现，效果就大打折扣，Soft-NMS不直接剔除，而是降低置信度得分。

2.3 Mish激活函数

作者发现用了Mish激活函数的TOP-1和TOP-5的精度比没有使用时精度要高一些。Backbone中采用了Mish激活函数，网络后面仍然采用Leaky_relu激活函数。

2.4 SPP

SPP 是空间金字塔池化网络，它采用并行最大池化的方式，将输入的特征图进行不同尺度的最大池化，再进行多尺度融合，这样可以提高感受野，分离出最显著的上下文特征，并且几乎没有降低网络运行速度。但更重要的作用是可以让任意大小的特征图都能够转换成固定大小的输出，那么，当 SPP 后面接入全连接层时，则可以输出固定大小的特征图给全连接层。

通过使用 SPP 模块，比单纯的使用 k x k 的最大池化，能更有效的加强特征提取，从而显著的分离了最重要的上下文特征。

具体步骤为将特征层分别通过一个池化核大小为5x5、9x9、13x13的最大池化层，通过padding不改变输出尺寸，然后在通道方向进行将三个新特征图和原输入特征图进行在通道方向concat拼接

2.5 PAN

PAN（Path Aggregation Network）结构其实就是在YOLOV3使用的FPN（从顶到底信息融合）基础上加上了从底到顶的信息融合

但YOLOv4的PAN结构和原始PAN结构论文的融合方式又略有差异，如下图所示。图(a)是原始论文中的融合方式，即特征层之间融合时是直接通过相加的方式进行融合的，但在YOLOv4中是通过在通道方向Concat拼接的方式进行融合的，这和V3的FPN是一样的

2.6 SAM

SAM 模块是注意力模块，YOLOv4 将 SAM 的 spatial-wise 注意力改为 point-wise 。并且在SAM中没有使用 pooling ，而是直接用一个卷积进行代替，再使用 sigmoid 进行激活，然后对应点相乘，所以说改进后的模型是 point-wise attention。

2.7 CSPDarketNet53

从结构上来看，CSP模块是将输入通道分成两部分进行操作，一部分进行常规操作后跟另一部分进行通道拼接

增强CNN学习能力
移除计算瓶颈
减少显存占用

使用了CSP模块后的Backnode如下图

2. 整个YOLOV4网络结构

6.YOLOv5

YOLOv5项目的作者是Glenn Jocher，YOLOv5在V4发布不久后便出来了，但这个项目至今都没有发表过正式的论文，只能从代码进行分析，YOLOv5变化并不大，总体和V4差不多，V5更偏重于工程实践，更便于我们使用。此外YOLOv5是YOLO 家族中首次使用 PyTorch 而不是 Darknet 编写模型的本地版本，Darknet版本的YOLO配置更加复杂，不适合生产环境。

ultralytics/yolov5: YOLOv5 in PyTorch > ONNX > CoreML > TFLite (github.com)

1.自适应锚框计算

在前面的版本中Anchors的大小是预先给出的（根据COCO数据集得到），YOLOV5将使用K-means计算数据集Anchors嵌入代码中，通过参数设置即可调用，这样一来Anchors的大小可以更加匹配自己的数据集

2.SiLu激活函数

V5中使用的是SiLU激活函数

3.SPPF

在SPP的基础上改进为SPPF，SPPF在输出相同的情况下速度更快

等效于
等效于

4.CSP-PAN

在YOLOv4中，Neck的PAN结构是没有引入CSP结构的，但在YOLOv5中作者在PAN结构中加入了CSP，详情见网络结构图

5.YOLOv5网络结构

与之前不同的是在YOLOv5中给出了四种不同网络（n,s,m,l,x），变为多种可选配的网络，网络架构是一致的，深度和宽度逐渐增加，输入图像尺寸为640×640。此外还有输入图像尺寸为1280×1280的版本，后缀为s，当然结构上也有些差异，后者会下采样64倍，采用4个预测特征层，而前者只会下采样到32倍且采用3个预测特征层

yolov5l完整网络结构如下。和YOLOv4对比，YOLOv5在Backbone部分没太大变化

6.损失计算

YOLOv5的损失主要由三个部分组成，基本还是没变：

Classes loss，分类损失，采用的是BCE loss，注意只计算正样本的分类损失。
Objectness loss，obj损失，采用的依然是BCE loss，注意这里的obj指的是网络预测的目标边界框与GT Box的CIoU。这里计算的是所有样本的obj损失。
Location loss，定位损失，采用的是CIoU loss，注意只计算正样本的定位损失。

7.平衡不同尺度的损失

这里是指针对三个预测特征层（P3, P4, P5）上的obj损失采用不同的权重。在源码中，针对预测小目标的预测特征层（P3）采用的权重是4.0，针对预测中等目标的预测特征层（P4）采用的权重是1.0，针对预测大目标的预测特征层（P5）采用的权重是0.4，作者说这是针对COCO数据集设置的超参数。

8.改进宽高计算

在YOLOv5中除了调整预测Anchor相对Grid网格左上角 $(c_{x},c_{y})$ 的计算之外，还调整了预测目标高宽的计算公式，之前是

在YOLOv5调整为：

作者的大致意思是，原来的计算公式并没有对预测目标宽高做限制，这样可能出现梯度爆炸，训练不稳定等问题

下图是修改前 $y=e^{x}$ ，和修改后 $y=(2e^{x})^{2}$ ,（相对Anchor宽高的倍率因子）的变化曲线，很明显调整后倍率因子被限制在( 0 , 4 ) 之间。

9.正样本匹配

主要的区别在于GT Box与Anchor模板的匹配方式。在YOLOv4中是直接将每个GT Box与对应的Anchor模板计算IoU，只要IoU大于设定的阈值就算匹配成功。但在YOLOv5中，作者先去计算每个GT Box与对应的Anchor模板的高宽比例，即：

然后统计这些比例和它们倒数之间的最大值，这里可以理解成计算GT Box和Anchor分别在宽度以及高度方向的最大差异（当相等的时候比例为1，差异最小）：

设置4是因为修改后计算宽高的式子最多是4倍Anchor宽高

7.YOLOv8

ultralytics/ultralytics: NEW - YOLOv8 in PyTorch > ONNX > OpenVINO > CoreML > TFLite (github.com)

YOLOv8和v5都是Ultralytics下的产品，v8是在v5的基础上吸收了YOLOX，v6，v7的一些优点改进的版本。对比v5精度提高不少，但推理速度也有所下降

1.Anchor Free

在之前版本中YOLOv2~v5（注意YOLOv1不包括在内）都是基于Anchor进行预测的。即先在原图上生成一堆密密麻麻的Anchor Boxes，然后网络基于这些Anchor去预测它们的类别、中心点偏移量以及宽高缩放因子得到网络预测输出的目标，最后通过NMS即可得到最终预测目标。那基于Anchor的网络存在哪些问题

检测器的性能和Anchor的size以及aspect ratio相关，Anchor非常依赖超参数的设置
一般Anchor的size和aspect ratio都是固定的，所以很难处理那些形状变化很大的目标（比如一本书横着放w远大于h，竖着放h远大于w，斜着放w可能等于h，很难设计出合适的Anchor）。而且迁移到其他任务中时，如果新的数据集目标和预训练数据集中的目标形状差异很大，一般需要重新设计Anchor。
为了达到更高的召回率，一般需要在图片中生成非常密集的Anchor Boxes尽可能保证每个目标都会有Anchor Boxes和它相交，那么在训练时绝大部分的Anchor Boxes都会被分为负样本，这样会导致正负样本极度不均。
Anchor的引入使得网络在训练过程中更加的繁琐，因为匹配正负样本时需要计算每个Anchor Boxes和每个GT BBoxes之间的IoU。

YOLOv8使用了Anchor Free，它的思想是跳出Anchor的限制，在预测特征图的每个位置上直接去预测该点分别距离目标左侧（l: left），上侧（t：top），右侧(r: right)以及下侧（b：bottom）的距离

2.解耦头（decoupled detection head）

Head 部分相比 YOLOv5 改动较大，换成了目前主流的解耦头结构

之前版本的检测头将类别和box位置信息等一并输出,yolov5检测头如下

v8使用的解耦头将分类和检测头分离

3.样本匹配

动态分配策略则可以根据训练的进展和样本的特点动态调整权重。在训练初期，模型可能会很难区分正负样本，因此应该更加关注那些容易被错分的样本。随着训练的进行，模型逐渐变得更加强大，可以更好地区分样本，因此应该逐渐减小困难样本的权重，同时增加易分样本的权重。动态分配策略可以根据训练损失或者其他指标来进行调整，可以更好地适应不同的数据集和模型。
典型的动态分配策略如YOLOX的simOTA、TOOD的Task-Aligned Assigner和RTMDet的DynamicSoftlLabelAssigner等。

YOLOv5采用的依然是静态分配策略，考虑到动态分配策略的优异性，Yolov8算法中直接引用了TOOD中的Task·Aligned Assigner正负样本分配策略。
Task-Aligned Assigner，顾名思义就是对齐分配器，即在训练过程中动态调整正负样本的分配比例。根据分类与回归的分数，作为加权分数，选择正样本。公式如下:

其中
s是标注类别对应的预测分值，u是预测框和GT Box的loU，两者相乘即可衡量对齐程度(Task-Alignment)。

a和β是权重超参数。，可以同时控制分类得分和I0U的优化来实现Task-Alignment，从而引导网络动态关注高质量的anchor。当类别分值越高且loU越高时，t的值就越接近于1。
具体执行步骤如下:
1.基于分类得分和预测框与GT的loU，加权得到一个关联分类以及回归的对齐分数alignment metrics.
2.计算anchor的中心点是否在当前GT框内，只有在当前GT内的anchor才能作为正样本。
3.满足2的前提下，基于alignment metrics选取topK大的作为正样本，其余作为负样本进行训练。

4.损失计算

分类分支依然采用 BCE Loss
回归分支 Distribution Focal Loss，同时还使用了 CIoU Loss

DFL（Distribution Focal Loss），其主要是将框的位置建模成一个 general distribution，能够让网络更快地聚焦于目标 y 附近的值，增大它们的概率；

DFL的含义是以交叉熵的形式去优化与标签y最接近的一左一右2个位置的概率，从而让网络更快的聚焦到目标位置的邻近区域的分布；也就是说学出来的分布理论上是在真实浮点坐标的附近，并且以线性插值的模式得到距离左右整数坐标的权重。

5.C2f

YOLOv8将C3模块改进为C2f,输入通道数都变成一半，减少了计算量和参数量，另一半在最后进行融合。C2f让YOLOv8可以在保证轻量化的同时获得更加丰富的梯度流信息

6.网络结构

对比v5总体架构改动过并不大

你可能感兴趣的:(机器学习与深度学习,YOLO,深度学习,人工智能)

使用LangChain构建智能应用：从入门到实战 afTFODguAKBF langchain python
引言在当今的人工智能时代，构建智能应用程序已经成为越来越多开发者的目标。LangChain是一个强大的工具，可以帮助我们快速开发基于大型语言模型（LLM）的应用。本篇文章将带你了解如何从零开始使用LangChain，构建一个简单的LLM应用程序，并逐步探索更复杂的功能。主要内容构建简单的LLM应用使用LangChain，我们可以快速构建一个简单的LLM应用程序。接下来，我将带你一步步实现。什么是L
端侧开发详解初赛收官盛宴 | 2025高通边缘智能创新应用大赛第九场公开课来袭！阿加犀智能人工智能智能硬件
各位开发者、技术爱好者，2025高通边缘智能创新应用大赛即将迎来初赛阶段的最后一堂重磅公开课！诚邀大家于7月3日（星期四）晚8点，准时收看由瑞莎的嵌入式开发工程师张子烽（Morgan）带来的专题分享，共同探索端侧智能应用开发的创新技术路径。聚焦前沿平台掌握端侧智能开发流程本次课程将聚焦基于瑞莎DragonQ6A开发板的端侧人工智能应用开发。该开发板搭载高通跃龙™QCS6490平台（由阿加犀提供开发
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
道路交通标志检测数据集-智能地图与导航交通监控与执法智慧城市交通管理-2,000 张图像 cver123 数据集智慧城市人工智能目标跟踪计算机视觉目标检测
道路交通标志检测数据集已发布目标检测数据集合集（持续更新）道路交通标志检测数据集介绍数据集概览包含类别应用场景数据样本展示YOLOv8训练实战1.环境配置安装YOLOv8官方库ultralytics2.数据准备2.1数据标注格式（YOLO）2.2文件结构示例2.3创建data.yaml配置文件3.模型训练关键参数补充说明：4.模型验证与测试4.1验证模型性能关键参数详解常用可选参数典型输出指标4.
SpringBoot生态全景图：从SpringCloud到云原生技术栈演进 fanxbl957 Web spring boot spring cloud 云原生
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot生态全景图：从S
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案 mmlihaio 数据库云原生 python
Tair向量数据库：阿里云原生内存数据库服务的高性能向量检索解决方案1.引言在当今的人工智能和大数据时代，高效的向量检索已成为许多应用场景的关键需求。Tair作为阿里云开发的云原生内存数据库服务，不仅提供了丰富的数据模型和企业级能力，还引入了基于非易失性内存(NVM)存储介质的持久内存优化实例。本文将深入探讨如何利用Tair向量数据库功能，实现高性能的向量存储和检索。2.Tair向量数据库概述Ta
阿里云魔搭社区AIGC专区：中国AI创作的革命性平台 Liudef06小白阿里云 AIGC 人工智能
在生成式人工智能重塑全球数字创作版图的浪潮中，中国首个一站式AIGC开发平台——阿里云魔搭社区AIGC专区于2024年9月杭州云栖大会正式亮相。这一突破性进展不仅填补了国内全流程AI创作工具的空白，更以157款多模态开源模型和全免费GPU算力的开放姿态，为超过690万开发者提供了从模型调用到应用落地的完整生态支持。一、魔搭社区：中国AI模型生态的奠基者魔搭社区（ModelScope）作为阿里云在2
探秘阿里云Tair KVCache：大模型推理的加速引擎云资源服务商阿里云云计算人工智能
一、引言近年来，人工智能领域发展迅猛，大语言模型（LLM）不断取得突破，其应用场景也日益广泛。从智能客服到内容生成，从智能写作到智能翻译，大语言模型正在深刻地改变着我们的生活和工作方式。随着模型规模的不断扩大和推理需求的日益增长，大模型推理过程中的显存瓶颈问题逐渐凸显，成为制约其发展和应用的关键因素。在大模型推理中，KVCache技术作为一种优化手段，通过缓存历史Token的Key/Value向量
AI正在偷偷取代这10种职业，你的工作安全吗？
近年来，人工智能（AI）的飞速发展正在悄然改变我们的工作方式。从自动化客服到AI生成内容，许多传统职业正面临被取代的风险。虽然AI带来了更高的效率和便利，但也让不少人开始担忧：我的工作会被AI抢走吗？今天，我们就来盘点10种最容易被AI取代的职业，并探讨如何在这个AI时代保持竞争力。1.客服代表取代指数：★★★★★AI驱动的聊天机器人（如ChatGPT、GoogleBard）已经能够处理大部分基础
直播预告！探讨生成模型中的极简概念擦除青稞社区. 青稞Talk 人工智能图像处理
主页：http://qingkeai.online/原文：https://mp.weixin.qq.com/s/yc4whKbnVY8ho1w7rgFVGg6月16日20:00，青稞Talk第55期，新加坡国立大学博士生张扬，将直播分享《生成模型中的极简概念擦除》。分享嘉宾张扬，慕尼黑工业大学计算机专业硕士，新加坡国立大学人工智能专业博士。曾于牛津大学进行学术访问，并在微软亚洲研究院及美国运通新加
【DeepSeek实战】3、Ollama实战指南：LobeChat+多网关架构打造高可用大模型集群无心水 Ollama实战指南 LobeChat实战 DeepSeek实战 DeepSeek全栈应用开发 AI入门大模型 CSDN技术干货
一、企业级大模型集群架构全景解析在人工智能落地应用的过程中，大模型服务的高可用性、成本控制和灵活扩展能力成为企业关注的核心痛点。本方案通过LobeChat前端、AI网关层和Ollama模型集群的三层架构设计，实现了无需复杂运维即可部署的生产级大模型服务体系。该架构不仅支持负载均衡、故障转移和模型热切换等企业级特性。还通过量化技术将硬件成本降低60%以上，为中小企业提供了与商业云服务相当的性能体验。
生成式人工智能实战 | 深度卷积生成对抗网络（Deep Convolutional Generative Adversarial Network, DCGAN）盼小辉丶生成式人工智能实战150讲人工智能生成对抗网络神经网络
生成式人工智能实战|深度卷积生成对抗网络0.前言1.模型与数据集分析1.1模型分析1.2数据集介绍2.构建DCGAN生成人脸图像2.1数据处理2.2模型构建2.3模型训练0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetworks,DCGAN)是基于生成对抗网络(ConvolutionalGenerativeAdversarialNet
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
2024年AI 智能助手（大模型）产品市场分析｜商派徐礼昭｜商派软件市场负责人人工智能
一、引言人工智能的浪潮不断向前推进，智能助手作为其中的重要应用，已经逐渐渗透到我们生活的各个方面。它们以其便捷性和个性化的特点，改变了我们与世界的互动方式。本报告将对AI智能助手进行全面的行业分析，包括行业概况、主要玩家、用户数据、发展要素以及未来趋势等方面，并通过具体案例分享，帮助读者深入了解这一领域的现状和未来发展潜力。二、行业概览（一）智能助手的定义和发展阶段智能助手是利用人工智能技术为用户
高通 QCS8550 大模型性能深度解析：从算力基准到场景实测的全维度 Benchmark 伊利丹~怒风 Qualcomm 人工智能 AI编程 python arm 自然语言处理
前言在人工智能技术狂飙突进的时代，大模型正以前所未有的速度重塑各行业生态，从智能客服到多模态交互，从边缘推理到端侧部署，其应用场景不断拓展。而这一切革新的背后，离不开底层硬件的强力支撑。高通QCS8550作为面向下一代智能设备的旗舰级计算平台，凭借高达48TOPS的AI算力与先进的第七代高通AI引擎，在大模型性能表现上极具竞争力。其异构多核架构不仅能高效处理复杂的神经网络计算，还通过软硬件协同优化
从零开始理解零样本学习：AI人工智能必学技术 AI天才研究院 Agentic AI 实战 AI人工智能与大数据 AI大模型企业级应用开发实战 ai
从零开始理解零样本学习：AI人工智能必学技术关键词：零样本学习、人工智能、机器学习、知识迁移、语义嵌入摘要：本文旨在全面深入地介绍零样本学习这一在人工智能领域具有重要意义的技术。首先阐述零样本学习的背景和基本概念，通过详细的解释和直观的示意图让读者建立起对零样本学习的初步认识。接着深入剖析其核心算法原理，结合Python代码进行详细说明，同时引入相关数学模型和公式并举例阐释。通过项目实战部分，带领
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
[Python]-基础篇1- 从零开始的Python入门指南踏雪无痕老爷子 Python python 开发语言
无论你是尚未接触编程的新手，还是想从其他语言转向Python的开发者，这篇文章都是你的入门课。一、Python是什么？Python是一种解释型、高级、通用型编程语言，以简洁明了、简单易用着称。它可以应用于网站开发、自动化脚本、数据分析、人工智能、系统操作等多种场景。二、如何安装Python步骤：访问Python官方网站选择目前最新的Python3.x版本下载Windows用户请务必勾选“AddPy
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
潜入思维的海洋：SoftCoT++如何让语言模型更聪明步子哥智能涌现语言模型人工智能自然语言处理
在人工智能的浩瀚星空下，大型语言模型（LLMs）如同一颗颗璀璨的恒星，照亮了从文本生成到复杂推理的广阔领域。然而，这些模型在推理任务中往往像是在迷雾中航行——尽管它们能抵达目的地，却常常因为固定的思维路径而错过更优的航线。2025年5月，一篇题为《SoftCoT++:Test-TimeScalingwithSoftChain-of-ThoughtReasoning》的论文如同一盏明灯，照亮了如何让
BI+AI实战：我们如何用3秒完成车企供应链推演 qq_43696218 人工智能
一、BI+AI引领财务分析新纪元在财务数据分析领域，奥威BI+AI正以革命性的姿态颠覆传统。当金蝶、用友等工具仍深陷报表泥潭时，奥威BI+AI通过深度融合商业智能（BI）与人工智能（AI），实现了从滞后报表到实时洞察的飞跃。这不仅极大地提升了财务分析的效率，更为企业的战略决策提供了前所未有的精准支持。二、BI+AI的核心技术优势‌实时动态分析‌o奥威BI+AI摒弃了静态数据集，依托原始科目余额表实
DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比码事漫谈 AI ai
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站1.DeepSeek的前世今生1.1什么是DeepSeek？DeepSeek是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的AI模型。它的目标是让AI技术更加普惠，让更多人能够用上强大的AI工具。1.2DeepSeek-V3的诞生DeepSeek-V3是DeepSeek公司推出的最新一代A
企业级AI开发利器：Spring AI框架深度解析与实战_spring ai实战 AI大模型-海文人工智能 spring python 算法开发语言 java 机器学习
企业级AI开发利器：SpringAI框架深度解析与实战一、前言：Java生态的AI新纪元在人工智能技术爆发式发展的今天，Java开发者面临着一个新的挑战：如何将大语言模型（LLMs）和生成式AI（GenAI）无缝融入企业级应用。传统的Java生态缺乏统一的AI集成方案，开发者往往需要为不同AI供应商（如OpenAI、阿里云、HuggingFace）编写大量重复的接口适配代码，这不仅增加了开发成本，
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL