胖墩会武术

YOLO系列入门：yolov1、yolov2、yolov3、yolov4、yolov5、yolov6、yolov7

文章目录

YOLO的每个版本都是基于前一版本进行更新，故需要先理解初始版本。
前言：评价指标
- （1）指标：IOU
- （2）指标：Precision（精度）、Recall（召回率）
- （3）指标：mAP
一、开山之作：yolov1
- （1.1）简介
- （1.2）网络模型
- - 备注：连续使用两个全连接层的作用？
- （1.3）损失函数（四部分组成）
- （1.4）NMS非极大值抑制
- （1.5）性能表现
二、更快更强：yolov2
- （2.1）性能表现
- （2.2）网络模型（Darknet-19）
- （2.3）改进之处
- - （2.3.1）加入批标准化（Batch Normalization，BN）
  - （2.3.2）使用高分辨率图像，微调分类模型。
  - （2.3.3）聚类提取先验框（Anchor Box）
  - （2.3.4）相对偏移量计算 —— 在当前网格中进行相对位置的微调
  - （2.3.5）Fine-Grained Features（细粒度特性）
  - （2.3.6）Multi-Scale多尺度检测（yolov2版）
三、巅峰之作：yolov3
- （3.1）性能表现
- （3.2）网络模型（Darknet-53）
- （3.3）改进之处
- - （3.3.1）Multi-Scale多尺度检测（yolov3版）
  - （3.3.2）多标签分类：softmax()改成logistic()
四、大神接棒：yolov4
- （4.1）性能表现
- （4.2）网络模型（CSPDarknet53）
- - （4.2.1）跨阶段部分网络（Cross Stage Partial Networks，CSPNet）
  - （4.2.2）空间金字塔池化网络（Spatial Pyramid Pooling Network，SPPNet）
  - （4.2.3）空间注意力机制（Spatial Attention Module，SAM）
  - （4.2.4）路径聚合网络（Path Aggregation Network，PANet）
  - （4.2.5）Mish激活函数
- （4.3）改进之处
- - （4.3.1）马赛克（Mosaic）数据增强 + CutMix数据增强
  - （4.3.2）自对抗训练（Self-Adversarial Training，SAT）
  - （4.3.3）改进的Dropout（DropBlock）
  - （4.3.4）标签平滑（Label Smoothing）
  - （4.3.5）CIoU损失函数
  - （4.3.6）DIoU-NMS
五、横空出世：YOLOv5
- （5.1）性能表现
- （5.2）网络模型（YOLOv5s）
- - （5.2.1）Backbone（特征提取模块）
  - （5.2.1）EfficientNet
- （5.3）改进之处
六、昙花一现：YOLOv6
七、谁与争锋：YOLOv7
- （7.1）性能表现
- （7.2）网络模型
- （7.3）改进之处
- - （7.3.1）RepVGG（最大改进）
  - （7.3.2）正样本分配策略
  - （7.3.3）相对偏移量计算（yolov5/v7版）
  - （7.3.4）辅助头（auxiliary head）+主头（lead head）
参考文献

YOLO的每个版本都是基于前一版本进行更新，故需要先理解初始版本。

前言：评价指标

（1）指标：IOU

（2）指标：Precision（精度）、Recall（召回率）

（3）指标：mAP

一、开山之作：yolov1

论文地址：You Only Look Once: Unified, Real-Time Object Detection
官方代码：https://github.com/pjreddie/darknet

（1.1）简介

在yolov1提出之前，双阶段（two-stage）的R-CNN系列算法在目标检测领域独占鳌头。
2016年，单阶段（one-stage）的YOLO（You Only Look Once）初出茅庐。可以在图像中找出特定物体，并识别种类和位置。

备注：FPS是指视频每秒传输的帧数。例如：FPS=45 表示为45帧/秒。帧数愈多，所显示的动作就会越流畅。

❤️ yolo核心思想：把目标检测转变成一个回归问题。将整个图像作为网络的输入，仅仅经过一个神经网络，得到边界框的位置信息及其所属的类别。

（1.2）网络模型

备注：yolov1的输入图像大小固定为448×448，与全连接层的输出大小有关。训练时：224×224；测试时：448×448。 原因：224×224×3 相比448×448×3相差四倍，其像素点大幅度降低，减少对计算机的性能要求。

备注：连续使用两个全连接层的作用？

第一个全连接层作用：将卷积得到的分布式特征映射到样本标记空间。即把该输入图像的所有卷积特征整合到一起。
第二个全连接层作用：将所有神经元得到的卷积特征进行维度转换，最后得到与目标检测网络输出维度相同的维度。

【小问题思考】两个全连接层连用 1x1卷积作用

（1.3）损失函数（四部分组成）

损失函数由四个部分组成：

（1）位置误差：对每个网格的两个边界框，提取IOU最大的一个，并计算其预测值与真实值的位置误差。其中，对w和h取根号计算，以避免物体大小因素对结果的影响。

（2）置信度误差（obj）：前景误差。 计算IOU大于置信度阈值的边界框与真实值的误差。若存在多个满足要求的边界框，则进行非极大值抑制。~~我们希望前景框的误差趋近于1。~~

（3）置信度误差（noobj）：背景误差。 若边界框的IOU小于置信度阈值或IOU=0，则该边界框属于背景。背景框远远大于前景框，故~~对背景框误差设置阈值（如：0.1）~~ ，降低背景框误差对损失函数的影响。~~我们希望背景框的误差趋近于0。~~

（4）分类误差：计算预测的分类标签与真实标签的误差。

（1.4）NMS非极大值抑制

非极大值抑制可以用来修正多重检测目标，能增加2~3%的mAP。
即在检测结果中，若存在多个检测框的IOU大于置信度阈值，通过非极大值抑制最后只取一个框。如下图：五个框中只取最大值（置信度=0.98）的预测框。

（1.5）性能表现

优点

（1）YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 帧图像，极速版本可以每秒处理 150 帧图像，完全满足视频的实时检测要求；而对于欠实时系统，在保证准确率的情况下，速度也快于其他方法。

（2）YOLO 实时检测的平均精度是其他实时监测系统的两倍。

（3）迁移能力强，能运用到其他的新的领域（比如：艺术品目标检测）。

局限

（1）YOLO对相互靠近的物体，以及很小的群体检测效果不好，这是因为一个网格只预测了2个框，并且都只属于同一类。

（2）由于损失函数的问题，位置误差是影响检测效果的主要原因，尤其是对于物体大小因素的处理，还有待加强。（原因：对于一大一小两个边界框而言，对更小边界框的误差影响更大）

二、更快更强：yolov2

论文地址：YOLO9000: Better, Faster, Stronger
官方代码：http://pjreddie.com/darknet/yolo/

2017年，提出了yolov2和yolo9000，yolo9000能够实时检测超过9000种物体，主要检测网络还是yolov2。yolov2的整体网络架构和基本思想没有变化，重点解决yolov1召回率和定位精度方面的不足。相比其它的检测器，速度更快、精度更高、可以适应多种尺寸的图像输入。

yolov1是利用全连接层直接预测Bounding Box的坐标。而yolov2借鉴了Faster R-CNN的思想，引入Anchor机制；利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率；同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

（2.1）性能表现

随着yolov2的每一步改进，mAP值持续上升。

（2.2）网络模型（Darknet-19）

Darknet-19采用了19个卷积层，5个池化层。

（1）取消yolov1的两个全连接层。yolov1的依据全连接层直接预测 Bounding Boxes 的坐标值。而yolov2采用 Faster R-CNN 的方法，只用卷积层与 Region Proposal Network 来预测 Anchor Box 偏移量与置信度，而不是直接预测坐标值。

（2）添加了五个最大池化层（2的5次方）。最终的输出大小：输入图像（h，w）转换为（h / 32，w / 32）。

（3）yolov2的实际输入图像大小为416×416，而不是448×448（416/32=13、448/32=14）。因为我们希望最后得到的是奇数值，有实际的中心点。最终得到13×13的输出。与yolov1的7×7相比，可以预测更多的先验框。

（4）基于VGG的思想，大部分的卷积核都是3×3，一方面权重参数少，一方面感受野比较大；且采用降维的思想，将1×1的卷积核置于3×3之间，在保持整体网络结构的同时减少权重参数。并且每一次池化后，下一层卷积核的通道数 = 池化输出的通道 × 2。

（5）在网络模型的最后，而增加了一个全局平均池化层。

Darknet-19 与 yolov1、VGG16网络的性能对比

（1）VGG-16：大多数检测网络框架都是以VGG-16作为基础特征提取器，它功能强大，准确率高，但是计算复杂度较大，所以速度会相对较慢。因此YOLOv2的网络结构基于该方面进行改进。

（2）yolov1：基于GoogLeNet的自定义网络，比VGG-16的速度快，但是精度稍不如VGG-16。

（3）Darknet-19：速度方面，处理一张图片仅需要55.8亿次运算，相比于VGG的306.9亿次，速度快了近6倍。精度方面，在ImageNet上的测试精度为：top1准确率为72.9%，top5准确率为91.2%。

（2.3）改进之处

（2.3.1）加入批标准化（Batch Normalization，BN）

~~最终约提升2%的mAP。~~
具体操作：在每一个卷积层后面都加入BN，对数据进行预处理操作（如：统一格式、均衡化、去噪等）。
优点：解决梯度消失和爆炸问题，起到一定的正则化效果（yolov2不再使用dropout），获得更好的收敛速度。

（2.3.2）使用高分辨率图像，微调分类模型。

~~最终约提升4%的mAP。~~
背景：yolov1训练时的分辨率：224×224；测试时：448×448。
具体操作：yolov2保持yolov1的操作不变，但在原训练的基础上又加上了（10个epoch）的448×448高分辨率样本进行微调，使网络特征逐渐适应 448×448 的分辨率；然后再使用 448×448 的样本进行测试，缓解了分辨率突然切换造成的影响。

（2.3.3）聚类提取先验框（Anchor Box）

~~最终约提升7%的recall达到88%，但降低了0.3%的mAP。~~

❤️ yolov1边界框都是手工设定的，通过直接对边界框的（x，y，w，h）位置进行预测，方法简单但训练困难，很难收敛。

❤️ Faster R-CNN共有9种先验框：分三个不同的scale（大中小），每个scale的（h，w）比例分为：1:1、1:2、2:1。

❤️ yolov2引入先验框机制。 但由于Faster R-CNN中先验框的大小和比例是按经验设定的，不具有很好的代表性。故yolov2对训练集中所有标注的边界框先进行聚类分析（比如：5类），然后获取每一类的中心值即实际的（w，h）比值作为先验框，该值与真实值更接近，使得网络在训练时更容易收敛。

备注1：yolov1将图像拆分为7×7个网格，每个网格grid只预测2个边界框，共7×7×2=98个。
备注2：yolov2将图像拆分为13×13个网格，在Faster R-CNN的9种先验框基础上，将所有的边界框13×13×9=1521进行K-means聚类，最终选择最优参数k=5。即yolov2的每个网格grid只预测5个边界框，共13×13×5=845个。

传统K-means聚类方法使用标准的欧氏距离，将导致大的box会比小的box产生更多的误差。而yolo的目的是使得先验框与真实框有更大的IOU值，故自定义距离公式。

距离公式：计算每一类的中心值对应的先验框centroids与真实框box的距离。即计算IOU=（先验框与真实框的交集）除以（先验框与真实框的并集）。IOU越大，越相关，则距离越小，反之亦然。备注：数据均已采用批标准化处理。

左图：x轴表示k的个数，y轴表示平均IOU值。紫色与黑色分别表示两个不同的数据集（形状相似）。综合考虑精确度和运算速度后，yolov2最终取k=5个先验框。
右图：k=5个先验框的图形化显示。

（2.3.4）相对偏移量计算 —— 在当前网格中进行相对位置的微调

背景：已知先验框的位置为（x，y，w，h），现在得到的预测边界框为（tx，ty，tw，th），即系统判定需要在先验框位置的基础上进行一定的偏移，进而可以得到更真实的位置。故需要将预测的偏移量加到先验框中（x+tx，y+ty，w+tw，h+th）。
问题：由于模型刚开始训练时，网络参数都是随机初始化，虽然进行了批标准化但是参数的基数比较大，将导致预测的边界框加上偏移量之后到处乱飘。

yolov2的本质：在当前网格中进行相对位置的微调。
下图参数说明：

（Cx，Cy）：表示当前网格的左上角位置坐标。

（tx，ty，tw，th）：表示预测的结果在当前网格相对位置的偏移量。

σ(tx)：表示对漂移量 tx 取sigmoid函数，得到（0~1）之间的值。即预测边框的蓝色中心点被约束在蓝色背景的网格内。约束边框位置使得模型更容易学习，且预测更为稳定。

e的tw次方：是由于预测时取的log()对数值，故计算位置时进行还原。

（bx，by，bw，bh）：表示当前预测结果在特征图位置（即预处理后得到的13×13网格）。

（2.3.5）Fine-Grained Features（细粒度特性）

背景：

由于Faster R-CNN有大中小三种尺度scale的经验框，最终将对应得到小中大三种感受野。

感受野越大，其在原图像中对应的尺度越大，导致其对尺度较小的目标不敏感，故无法兼顾考虑小尺度目标。

备注：高分辨率（尺度大） - 感受野小；低分辨率（尺度小） - 感受野大。
yolov2需要同时考虑三种不同的感受野，通过不同层的特征融合实现。

具体操作：通过添加一个passthrough Layer，把高分辨率的浅层特征（26×26×512）进行拆分，叠加到低分辨率的深层特征（13×13×1024）中，然后进行特征融合（13×13×3072），最后再检测。（在yolov1中，FC起到全局特征融合的作用）。
目的：提高对小目标的检测能力。

（2.3.6）Multi-Scale多尺度检测（yolov2版）

背景：由于实际检测数据的输入图像大小不一，若都裁剪为相同大小，最后检测结果将有所下降。
限制：由于yolov2只有卷积层，故对输入图像大小没有限制；而yolov1由于有全连接层，故输入图像大小固定。
具体操作：训练模型每经过一定迭代之后，可以进行输入图像尺度变换。如：每迭代100次，输入图像尺寸大小增加10%。（备注：输入图像大小必须可以被32整除）

三、巅峰之作：yolov3

论文地址：YOLOv3: An Incremental Improvement
官网代码：https://github.com/yjh0410/yolov2-yolov3_PyTorch

（3.1）性能表现

x轴表示预测一张图片所需要的时间；y轴为mAP。原点的x轴坐标为50
由图可得：youlov3的检测速度和mAP值都强高于其他方法。

（3.2）网络模型（Darknet-53）

Darknet-53网络架构：
（1）由53个卷积层构成，包括1×1和3×3的卷积层，卷积省时省力速度快效果好，对于分析物体特征最为有效。每个卷积层之后包含一个批量归一化层和一个Leaky ReLU，加入这两个部分的目的是为了防止过拟合。
（2）没有全连接层，可以对应任意大小的输入图像。
（3）没有池化层，通过控制卷积层conv的步长stride达到下采样的效果，需要下采样时stride=2；否则stride=1；
（4）除此之外，Darknet-53中还使用了类似ResNet结构。

Darknet-53网络及在yolov3中的实际应用。可以看下面这张图：

DBL：由一个卷积层、一个批量归一化层和一个Leaky ReLU组成的基本卷积单元。在Darknet-53中，共有53个这样的DBL，所以称其为Darknet-53。

res unit：输入通过两个DBL后，再与原输入进行特征add，得到与原图像大小维度相同的图像；这是一种常规的残差单元。残差单元的目的是为了让网络可以提取到更深层的特征，同时避免出现梯度消失或爆炸。残差网络的特点：至少不比原来差。

res(n)：表示n个res unit。resn = Zero Padding + DBL + n × res unit 。

y1、y2、y3：分别表示yolov3的三种不同尺度输出（分别对应：大中小感受野）。

concat1：（大中小感受野）将大感受野的特征图像进行上采样，得到与中感受野的特征图像相同大小，然后进行维度拼接，达到多尺度特征融合的目的。 为了加强算法对小目标检测的精确度

concat2：（大中小感受野）将中感受野的特征图像进行上采样，得到与小感受野的特征图像相同大小，然后进行维度拼接，达到多尺度特征融合的目的。 为了加强算法对小目标检测的精确度
bounding box 与anchor box的输出区别

（1）Bounding box输出：框的位置（中心坐标与宽高），confidence以及N个类别。

（2）anchor box输出：一个尺度即只有宽高。

（3.3）改进之处

（3.3.1）Multi-Scale多尺度检测（yolov3版）

前提：分辨率信息直接反映目标的像素数量。分辨率越高，像素数量越多，对细节表现越丰富。在目标检测中，语义信息主要用于区分前景（目标）和背景（非目标）。其不需要很多细节信息，分辨率大反而会降低语义信息。yolov3主要针对小目标检测的不足之处做出改进。
具体形式：在网络预测的最后某些层进行上采样+拼接操作。
~~（详细请看yolov3网络架构）~~

（3.3.2）多标签分类：softmax()改成logistic()

将yolov2的单标签分类改进为yolov3的多标签分类。即softmax()分类函数更改为logistic()分类器。
具体形式：逻辑分类器通过对每个类别都进行二分类，以实现多标签分类。使用sigmoid函数将特征图的结果约束在[0~1]之间，如果有一个或多个值大于设定阈值，就认定该目标框所对应的目标属于该类。多个值称为多标签对象。（如：一个人有woman、person、地球人等多个标签）

四、大神接棒：yolov4

论文地址：YOLOv4: Optimal Speed and Accuracy of Object Detection
官网代码：https://github.com/AlexeyAB/darknet

核心思想：yolov4筛选了一些从yolov3发布至今，被用在各式各样检测器上，能够提高检测精度的tricks，并加以组合及适当创新的算法，实现了速度和精度的完美平衡。虽然有许多技巧可以提高卷积神经网络CNN的准确性，但是某些技巧仅适合在某些模型上运行，或者仅在某些问题上运行，或者仅在小型数据集上运行。
主要调优手段：加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量标准化(CmBN)、自对抗训练(SAT)、Mish激活、马赛克数据增强、CmBN、DropBlock正则化、CIoU Loss等等。经过一系列的堆料，终于实现了目前最优的实验结果：43.5％的AP(在Tesla V100上，MS COCO数据集的实时速度约为65FPS)。

（4.1）性能表现

（4.2）网络模型（CSPDarknet53）

CSPDarknet53网络及在yolov4中的实际应用。

yolov4的CSPDarknet53与yolov3的Darknet-53相比，主要区别：

（1）将原来的Darknet53与CSPNet进行结合，形成Backbone网络。

（2）采用SPPNet适应不同尺寸的输入图像大小，且可以增大感受野；

（3）采用SAM引入空间注意力机制；

（4）采用PANet充分利用了特征融合；

（5）激活函数由MIsh替换Leaky ReLU； 在yolov3中，每个卷积层之后包含一个批归一化层和一个Leaky ReLU。而在yolov4的主干网络CSPDarknet53中，使用Mish替换原来的Leaky ReLU。
CSPDarknet53网络架构：

（4.2.1）跨阶段部分网络（Cross Stage Partial Networks，CSPNet）

背景： 2019年Chien-Yao Wang等人提出，用来解决网络优化中的重复梯度信息问题，在ImageNet dataset和MS COCO数据集上有很好的测试效果。且易于实现，在ResNet、ResNeXt和DenseNet网络结构上都能通用。
目的： 实现更丰富的梯度组合，同时减少计算量。
具体方式： 将基本层的特征图分成两部分：11、主干部分继续堆叠原来的残差块；22、支路部分则相当于一个残差边，经过少量处理直接连接到最后。

（4.2.2）空间金字塔池化网络（Spatial Pyramid Pooling Network，SPPNet）

论文地址：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

yolov1背景：yolov1训练时的分辨率：224×224；测试时：448×448。
yolov2背景：yolov2保持yolov1的操作不变，但在原训练的基础上又加上了（10个epoch）的448×448高分辨率样本进行微调，使网络特征逐渐适应 448×448 的分辨率；然后再使用 448×448 的样本进行测试，缓解了分辨率突然切换造成的影响。

目的：使得网络模型的输入图像不再有固定尺寸的大小限制。通过最大池化将不同尺寸的输入图像变得尺寸一致。
优点：增大感受野。
如图是SPP中经典的空间金字塔池化层。

（4.2.3）空间注意力机制（Spatial Attention Module，SAM）

具体方式： yolov4采用改进的SAM方法
优化历程： CBAM（Convolutional Block AM） -> SAM（Spatial Attention Module） -> 改进的SAM
优化原因：
（1）由于CBAM计算比较复杂且耗时，而yolo的出发点是速度，故只计算空间位置的注意力机制。
（2）常规的SAM最大值池化层和平均池化层分别作用于输入的feature map，得到两组shape相同的feature map，再将结果输入到一个卷积层。 过程过于复杂，yolo采取直接卷积进行简化。

CBAM与SAM的区别：

特征图注意力机制（Channel Attention Module）：在Channel维度上，对每一个特征图（channel）加一个权重，然后通过sigmoid得到对应的概率值，最后乘上输入图像，相当于对输入图像的特征图进行加权，即注意力。❤️~~如：32×32×256，对256个通道进行加权。~~

空间注意力机制（Spatial Attention Module）：在Spatial维度上，对每一个空间位置（Spatial）加一个权重，然后通过sigmoid得到对应的概率值，最后乘上输入图像，相当于对输入图像的所有位置特征进行加权，即注意力。❤️~~如：32×32×256，对任意空间位置进行加权。~~

SAM与改进的SAM的区别：

（4.2.4）路径聚合网络（Path Aggregation Network，PANet）

论文地址（FPNet）：Feature Pyramid Networks for Object Detection
论文地址（PANet）：Path Aggregation Network for Instance Segmentation

背景： PANet发表于CVPR2018，其是COCO2017实例分割比赛的冠军，也是目标检测比赛的第二名。
具体方式： yolov4采用改进的PANet方法
优化历程： FPNet（Feature Pyramid Networks） -> PANet（Path Aggregation Network） -> 改进的PAN
优化原因：

（1）FPNet网络采取自上而下的方式，将高层特征逐层与中高层、中层、中底层、低层特征进行融合。缺点是无法自下而上融合，而PANet的优化了该部分不足，详见示意图的（b）部分。

（2）FANet采用特征相加的融合方式，而yolo采用特征拼接的融合方式。加法可以得到一个加强版的特征图，但特征权重不大于1，而拼接可能得到大于1的特征图。

FPNet示意图

PANet示意图

（a）FPNet：通过 融合高层特征 来提升目标检测的效果。

（b）Bottom-up Path Augmentation：通过 融合低层特征（边缘形状等）来提升目标检测的效果。

（c）Adaptive Feature Pooling：采用 拼接特征融合。详见下图。拼接相比加法，特征更明显，可以提高检测效果。

（d）Fully-connected Fusion

（4.2.5）Mish激活函数

论文地址：Mish: A Self Regularized Non-Monotonic Activation Function

Mish在负值的时候并不是完全截断，允许比较小的负梯度流入。实验中，随着层深的增加，ReLU激活函数精度迅速下降，而Mish激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。
22个激活函数

（4.3）改进之处

BackBone训练策略：数据增强、自对抗训练、DropBlock正则化、类标签平滑、CIoU损失函数、DIoU-NMS等。

（4.3.1）马赛克（Mosaic）数据增强 + CutMix数据增强

CutMix论文： https://arxiv.org/pdf/1905.04899v2.pdf

最大特点：使得yolov4只通过单CPU就能完成训练，不用再担心设备问题。
具体方式：

11、采用常用的数据增强方法（如：亮度、饱和度、对比度；随机缩放、旋转、翻转等）对所有的图像进行数据增强；

22、采用CutMix数据增强方法。详细见下。

33、采取马赛克（Mosaic）数据增强方法，即随机取四张图像拼接为一张图像。

由图可得（左）：CutMix表现最优。

（1）ResNet-50：采用常规的数据增强方法。如：调整亮度、饱和度、对比度；随机缩放、旋转、翻转等。

（2）Mixup：将猫狗两张图像进行图像融合，其中狗和猫的权重参数都为0.5，故标签概率值都为0.5。

（3）Cutout：随机删除/遮挡一个区域。

（4）CutMix：随机删除/遮挡一个区域，并用A图像的一部分粘贴到B图像上。 如：将狗头替换为猫头，其中狗和猫的权重参数分别为0.6、0.4，故标签softmax的概率值分别为0.6、0.4。

备注1：softmax能够得到当前输入属于各个类别的概率。
备注2：标签（分类结果）会根据patch的面积按比例分配，计算损失时同样采用加权求和的方式进行求解。

数据增强的其余方法扩展：

（4.3.2）自对抗训练（Self-Adversarial Training，SAT）

在第一阶段：在原始图像的基础上，添加噪音并设置权重阈值，让神经网络对自身进行对抗性攻击训练。
在第二阶段：用正常的方法训练神经网络去检测目标。
备注：详细可参考对抗攻击的快速梯度符号法（FGSM）。

（4.3.3）改进的Dropout（DropBlock）

b图：Dropout是随机删除一些神经元（如：a图的红点），但对于整张图来说，效果并不明显。比如：眼睛被删除，我们仍然可以通过眼睛的周边特征（眼角、眼圈等）去近似识别。

c图：DropBlock是随机删除一大块神经元。如：将狗头的左耳全部删除。

（4.3.4）标签平滑（Label Smoothing）

问题：标签绝对化：要么0要么1。该现象将导致神经网络在训练过程中，自我良好，从而过拟合。
具体方式：将绝对化标签进行平滑（如：[0，0] ~ [0.05，0.95] ），即分类结果具有一定的模糊化，使得网络的抗过拟合能力增强。

左图（使用前）：分类结果相对不错，但各类别之间存在一定的误差；
右图（使用后）：分类结果比较好，簇内距离变小，簇间距离变大。

（4.3.5）CIoU损失函数

效果：采用CIoU Loss损失函数，使得预测框回归的速度和精度更高一些。
loss优化历程：经典IOU损失 -> GIOU损失（Generalized IoU） -> DIOU损失（Distance IoU） -> CIOU损失
优缺点：

IoU_Loss：主要考虑检测框和目标框重叠面积。

GIoU_Loss：在IOU的基础上，解决边界框不重合时的问题。

DIoU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。

CIoU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。

（4.3.6）DIoU-NMS

在检测结果中，若存在多个检测框的IOU大于置信度阈值
（1）NMS非极大值抑制：只取IoU最大值对应的框。
（2）DIoU-NMS：只取公式计算得到的最大值对应的框。取最高置信度的IoU，并计算最高置信度候选框（M）与其余所有框（Bi）的中心点距离。优点：在有遮挡的情况下识别效果更好。

（3）SOFT-NMS：对于不满足要求，且与最大置信度对应的检测框高度重叠的检测框，不直接删除，而采取降低置信度的方式。优点：召回率更高

五、横空出世：YOLOv5

论文下载：yolov5没有论文
官网代码：https://github.com/ultralytics/yolov5

2020年2月YOLO之父Joseph Redmon宣布退出计算机视觉研究领域。
2020 年 4 月 23 日YOLOv4发布☘️。
2020 年 6 月 10 日YOLOv5发布。
⭐（1）该两个版本的改进都属于多种技术堆积版本，且两个版本差异不大。
（2）一直在更新中，且更新较快（平均2~3个月一次）。
✨（3）yolov5对应的GitHub上有详细的项目说明。但由于v5项目的训练数据集过于庞大，故可以选择自己的数据集 or 小样本数据集学习。
Roboflow：开源自动驾驶数据集。该数据集已经画好边界框；下载格式：YOLO v5 PyTorch。

（5.1）性能表现

yolov5是在COCO数据集上预训练的系列模型，包含5个模型：YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLO5x。不同的变体模型使得YOLOv5能很好的在精度和速度中权衡，方便用户选择。

（5.2）网络模型（YOLOv5s）

模块1：CBL-CBL模块由Conv+BN+Leaky_relu激活函数组成。
模块2：Res unit-借鉴ResNet网络中的残差结构，用来构建深层网络，CBM是残差模块中的子模块。
模块3：CSP1_X-借鉴CSPNet网络结构，该模块由CBL模块、Res unint模块以及卷积层、Concate组成而成。
模块4：CSP2_X-借鉴CSPNet网络结构，该模块由卷积层和X个Res unint模块Concate组成而成。
模块5：Focus结构首先将多个slice结果Concat起来，然后将其送入CBL模块中。
模块6：SPP-采用1×1、5×5、9×9和13×13的最大池化方式，进行多尺度特征融合。

（5.2.1）Backbone（特征提取模块）

（1）Backbone（骨干网络）：用于提取图像特征的网络。*常用不是我们自己设计的网络，而是通用网络模型resnet、VGG等。
使用方式： 将通用模型作为backbone时，直接加载预训练模型的参数，再拼接上我们自己的网络。网络训练方法参考迁移学习的微调算法，即对预训练模型进行微调，使其更适合我们自己的任务。

（2）Neck（脖子）：在backbone和head之间，是为了更好的利用backbone提取的特征。

（3）Bottleneck（瓶颈）：指输出维度比输入维度小很多，就像由身体到脖子，变细了。经常设置的参数 bottle_num=256，指的是网络输出的数据的维度是256 ，可是输入进来的可能是1024维度的。

（4）Head（头部）：head是获取网络输出内容的网络，利用之前提取的特征，head利用这些特征，做出预测。

Backbone结构主要分成三类：CNNs结构（非轻量级、轻量级）、Transformer结构、CNNs+Transformer结构。

深度学习框架-Backbone汇总（超详细讲解）
❤️ 一、普通（非轻量化）CNNs结构Backbone

LeNet5：(1998)

AlexNet：(2012)

VGG：(2014)

GoogLeNet（InceptionNet）系列：Inception-v1（GoogleNet）: (2015)、Inception-v2 （2015，BN-inception）、Inception-v3 (2015)、Inception-v4: (2017)、Inception-resnet-v2： (2017)

Resnet: (2016)

ResNet变种：ResNeXt （2016）、ResNeSt（2020）、Res2Net（2019）、DenseNet （2017）

DPNet：(2017)

NasNet：(2018)

SENet及其变体SKNet：SENet（2017）、SKNet（2019）

EfficientNet 系列：EfficientNet-V1(2019)、EfficientNet-V2(2021)

Darknet系列：Darknet-19 （2016， YOLO v2 的 backbone）、Darknet-53 （2018， YOLOv3的 backbone）

DLA (2018, Deep Layer Aggregation)

❤️ 二、轻量化CNNs结构Backbone

SqueezeNet：（2016）

MobileNet-v1：（2017）

XCeption：（2017, 极致的 Inception）

MobileNet V2：（2018）

ShuffleNet-v1：(2018)

ShuffleNet-v2：(2018)

MnasNet：（2019）

MobileNet V3 （2019）

CondenseNet（2017）

ESPNet系列：ESPNet （2018）、ESPNetv2 （2018）

ChannelNets

PeleeNet

IGC系列：IGCV1、IGCV2、IGCV3

FBNet系列：FBNet、FBNetV2、FBNetV3

GhostNet

WeightNet

MicroNet

❤️ 三、 ViT（Vision Transformer ）结构Backbone

ViT-H/14 和 ViT-L/16 （2020）（Vision Transformer，ViT）

Swin Transformer（2021）

PVT（2021, Pyramid Vision Transformer）

MPViT （CVPR 2022，Multi-path Vision Transformer, 多路径 Vision Transformer）

EdgeViTs （CVPR 2022，轻量级视觉Transformer）

❤️ 四、CNNs+Transformer/Attention结构Backbone

CoAtNet（#2 2021）

BoTNet（#1 2021）

（5.2.1）EfficientNet

EfficientNet网络详解

（5.3）改进之处

深入浅出Yolo系列之Yolov5核心基础知识完整讲解

六、昙花一现：YOLOv6

手把手教你运行YOLOv6（超详细）

yolov6与v7相差不到十天，区别不大。

七、谁与争锋：YOLOv7

论文下载：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object
detectors
代码地址：https://gitcode.net/mirrors/WongKinYiu/yolov7

在项目实战中，只研究yolov5或yolov7对应的项目即可，yolov3不要再研究了。因为现在的torch版本是高版本，而v3当时是低版本。

（7.1）性能表现

（7.2）网络模型

（7.3）改进之处

（7.3.1）RepVGG（最大改进）

2014年：牛津大学著名研究组VGG (Visual Geometry Group)，提出VGGNet。

2021年：清华大学、旷视科技以及香港科技大学等机构，基于VGG网络提出了RepVGG网络。

由图可得：RepVGG无论是在精度还是速度上都已经超过了ResNet、EffcientNet以及ResNeXt等网络。

（7.3.1.1）结构重参数化

RepVGG采用结构重参数化方法（structural re-parameterization technique）。
详细过程：

（1）在训练时，使用ResNet-style的多分支模型（特点：增加模型的表征能力）；

（2）在测试时，转化成VGG-style的单线路模型（特点：速度更快、更省内存并且更加的灵活。）。

过程特点：训练的网络结构和测试的网络结构可以不一样。

核心操作：在测试时，将训练时的多分支模型进行合并得到一条单线路模型，即将1 x 1卷积 + BN（批标准化）与3 x 3卷积进行合并。详见下图。RepVGG网络：结构重参数化 - 详细过程

（1）将1x1卷积转换成3x3卷积

（2）将BN和3x3卷积进行融合，转换成3x3卷积

（3）多分支融合

备注1：yolo的核心是检测速度快，而不是检测精度高。
备注2：在前六个版本的优化后，网络层只留下了3 x 3卷积、1 x 1卷积和BN（每一个网络层之后都进行批标准化）。
备注3：VGG在2014年告诉我们，3 x 3卷积是计算速度最快的，优化最好的。

备注4：黄色模块是激活函数ReLU，蓝色模块是卷积层。
备注5：单支路模型可以节约内存。

（7.3.1.2）将1x1卷积转换成3x3卷积

具体过程：
（1）取1x1卷积（卷积核：1个参数），设置padding=1（即在其周围填补一圈全为零的元素）
（2）设置原始输入的padding=1
（3）输入与卷积核进行卷积操作，得到3x3的卷积层。。
注意：原始输入和1x1卷积都需要设置padding=1。

（7.3.1.3）将BN和3x3卷积进行融合，转换成3x3卷积

通俗来讲：将BN公式拆解为一元二次方程（y1 = k1* x1 + b1）；然后与损失函数（y2 = k2* x2 + b2）进行合并得到新的方程（y3 = k3* x3 + b3）。

（7.3.1.4）多分支融合

具体过程：（1）将1x1卷积 + BN全部转换为3x3卷积，然后与3x3卷积进行合并，得到一个3x3卷积。

（7.3.2）正样本分配策略

主要目的：为了得到更多的正样本。正样本即先验框（anchor），负样本即背景。

具体计算过程分两个步骤：（1）提取anchor；（2）筛选anchor。

具体过程（提取anchor）：

（1）计算先验框的中心点位置

（2）在当前网格中进行上、下、左、右四个方向的位置偏移，偏移大小为0.5。

（3）最后取当前网格 + 四个方向的中心点所对应的除当前网格的二个网格。共三个网格作为正样本

具体过程（筛选anchor）：
提取满足要求的anchor，去掉匹配度低的anchor（该类anchor无意义）。

条件一：候选框和先验框（anchor）的长款比范围：[0.25，4] 。

条件二：候选框和先验框（anchor）的IOU要大于自定义阈值。

条件三：候选框和先验框（anchor）的类别预测损失要大于自定义阈值。

条件四：将以上三个条件进行权重相加，并进行损失排名。 loss = (权重系数1 * 条件一) + (权重系数2 * 条件二) + (权重系数3 * 条件三)

举例：以下是具体过程（筛选anchor）中，条件二的损失计算。

备注1：计算真实框（Ground Truth，GT）对应的候选框数量（损失计算得到的结果）：向下取整。

备注2：若一个候选框同时和多个anchor高度匹配，则按照损失计算原则，只能匹配损失最小对应的一个anchor。

（7.3.3）相对偏移量计算（yolov5/v7版）

（7.3.4）辅助头（auxiliary head）+主头（lead head）

详细说明请看论文
图5:辅助用粗，头部用细。与常规模型(a)相比，(b)模式具有辅助头。与通常的独立标签分配器©不同，我们提出(d)铅头引导标签分配器和(e)粗至细铅头引导标签分配器。该标签分配器通过前导头预测和地面真实值进行优化，同时得到训练前导头和辅助头的标签。详细的从粗到细的实现方法和约束设计细节将在附录中详细阐述。

参考文献

1.YOLO学习：召回率Recall、精确率Precision、IoU、Map
2.YOLOv1到YOLOv3的演变过程及每个算法详解
3.YOLO系列总结：YOLOv1, YOLOv2, YOLOv3, YOLOv4, YOLOv5, YOLOX
4.YOLO系列详解：YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5
5.YOLO系列算法精讲：从yolov1至yolov5的进阶之路（2万字超全整理）
6.深入浅出Yolo系列：Yolov3、Yolov4、Yolov5、YoloX（超多-免费数据集）
7.深度学习框架-Backbone汇总（超详细讲解）
8.深入浅出Yolo系列之Yolov5核心基础知识完整讲解
9.YOLOv7 RepVGG网络：结构重参数化 - 详细过程
10.目标检测算法——YOLOV7——详解

实战一：目标检测：教你利用yolov5训练自己的目标检测模型
实战二：认真总结6000字Yolov5保姆级教程（2022.06.28全新版本v6.1）
实战三：利用yolov5实现口罩佩戴检测算法(非常详细)
实战四：YOLOv7（目标检测）入门教程详解—检测，推理，训练
❤️ roboflow官网：开源自动驾驶数据集（Computer Vision Datasets）❤️

你可能感兴趣的:(深度学习,目标检测,计算机视觉,深度学习,人工智能)

密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
探索Google AI聊天模型的集成和使用 qahaj 人工智能 python
随着人工智能的飞速发展，GoogleAI的聊天模型提供了强大的自然语言处理能力，可以应用于多种场景中。本文将为你介绍如何通过GoogleAI和LangChain库来使用这些聊天模型。技术背景介绍GoogleAI提供了一系列强大的聊天模型，这些模型具备不同的功能和参数设置。它们不仅可以通过GoogleAI服务访问，还可以通过GoogleCloudVertexAI以企业级功能使用。在本文中，我们将重点
“租赁业务ERP+deepseek”模式的应用软件研究员汽车 DeepSeek 汽车租赁系统
汽车租赁业务从上世纪90年代发展至今，从传统的人工管理到软件辅助，随着互联网的发展，业务公司对汽车租赁系统提出了更高的要求，比如自助订单，业务推广、客户资质评估，车辆风控，风险预警等，又随着近期人工智能的出现，业务公司对业务系统的期望更高，期望都节约更多人工成本，让管理变得简单快捷高效和智能。所以就引发人们新的启发：“业务系统ERP+deepseek”，但业务系统ERP+deepseek能否满足业
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他