zsszhd

yolo版本进化详解

文章目录

YOLO的每个版本都是基于前一版本进行更新，故需要先理解初始版本。
前言：评价指标
- （1）指标：IOU
- （2）指标：Precision（精度）、Recall（召回率）
- （3）指标：mAP
一、开山之作：yolov1
- （1.1）简介
- （1.2）网络模型
- - 1.2.1、最大创新：7x7x30特征图
  - 1.2.2、连续使用两个全连接层的作用
- （1.3）损失函数（四部分组成）
- （1.4）NMS非极大值抑制
- （1.5）性能表现
二、更快更强：yolov2
- （2.1）性能表现
- （2.2）网络模型（Darknet-19）
- （2.3）改进之处
- - （2.3.1）加入批标准化（Batch Normalization，BN）
  - （2.3.2）使用高分辨率图像，微调分类模型。
  - （2.3.3）聚类提取先验框（Anchor Box）
  - （2.3.4）相对偏移量计算 —— 在当前网格中进行相对位置的微调
  - （2.3.5）Fine-Grained Features（细粒度特性）
  - （2.3.6）Multi-Scale多尺度检测（yolov2版）
三、巅峰之作：yolov3
- （3.1）性能表现
- （3.2）网络模型（Darknet-53）
- （3.3）改进之处
- - （3.3.1）Multi-Scale多尺度检测（yolov3版）
  - （3.3.2）多标签分类：softmax()改成logistic()
四、大神接棒：yolov4
- （4.1）性能表现
- （4.2）网络模型（CSPDarknet53）
- - （4.2.1）跨阶段部分网络（Cross Stage Partial Networks，CSPNet）
  - （4.2.2）空间金字塔池化网络（Spatial Pyramid Pooling Network，SPPNet）
  - （4.2.3）空间注意力机制（Spatial Attention Module，SAM）
  - （4.2.4）路径聚合网络（Path Aggregation Network，PANet）
  - （4.2.5）Mish激活函数
- （4.3）改进之处
- - （4.3.1）马赛克（Mosaic）数据增强 + CutMix数据增强
  - （4.3.2）自对抗训练（Self-Adversarial Training，SAT）
  - （4.3.3）改进的Dropout（DropBlock）
  - （4.3.4）标签平滑（Label Smoothing）
  - （4.3.5）CIoU损失函数
  - （4.3.6）DIoU-NMS
五、横空出世：YOLOv5
- （5.1）性能表现
- （5.2）网络模型（YOLOv5s）
- - （5.2.1）Backbone（特征提取模块）
  - （5.2.1）EfficientNet
- （5.3）改进之处
六、昙花一现：YOLOv6
七、谁与争锋：YOLOv7
- （7.1）性能表现
- （7.2）网络模型
- （7.3）改进之处
- - （7.3.1）RepVGG（最大改进）
  - （7.3.2）正样本分配策略
  - （7.3.3）相对偏移量计算（yolov5/v7版）
  - （7.3.4）辅助头（auxiliary head）+主头（lead head）
参考文献

YOLO的每个版本都是基于前一版本进行更新，故需要先理解初始版本。

前言：评价指标

（1）指标：IOU

（2）指标：Precision（精度）、Recall（召回率）

（3）指标：mAP

一、开山之作：yolov1

论文地址：You Only Look Once: Unified, Real-Time Object Detection
官方代码：https://github.com/pjreddie/darknet

（1.1）简介

yolov之前，双阶段（two-stage）的R-CNN系列算法在目标检测领域独占鳌头。先利用RPN网络进行感兴趣区域的生成，再对该区域进行分类与位置的回归。

优缺点：提升了精度，但限制了检测速度。

2016年，单阶段（one-stage）的YOLO（You Only Look Once）初出茅庐。利用CNN卷积神经网络进行特征提取，并识别种类和位置。

优缺点：检测速度很快，但精度明显下降。

备注：FPS是指视频每秒传输的帧数。例如：FPS=45 表示为45帧/秒。帧数愈多，所显示的动作就会越流畅。

❤️ yolo核心思想：把目标检测转变成一个回归问题。将整个图像作为网络的输入，仅仅经过一个神经网络，得到边界框的位置及其所属的类别。

（1.2）网络模型

输入图像的尺寸固定位448×448（与全连接层的输出大小有关），经过24个卷积与2个全连接层后，最后输出的特征图为7x7x30。

在3x3的卷积后接1x1卷积，既降低了计算量，也提升了模型的非线性能力。

除最后一层使用线性激活函数外，其余层都使用LeRU激活函数。

在训练中使用Dropout与数据增强的方法来防止过拟合。

训练时的图像尺寸：224×224；测试时的图像尺寸：448×448。 原因：224×224×3 相比448×448×3相差四倍，其像素点大幅度降低，减少对计算机的性能要求。

1.2.1、最大创新：7x7x30特征图

在整张图中，共预测7x7x2=98个边框，每个边框的大小与位置都不相同。

类别概率：由于PASCAL VOC数据集共有20个个物体类别，因此预测的每个边框都会得到20个类别的概率值。
置信度（confidence）：表示该网格内是否包含物体的概率（前景、背景）。两个边框得到两个置信度预测值。
边框位置：每一个边框需要预测四个值：中心坐标（x，y）、宽w、高h。两个边框得到8个预测值。

将输入图像划分为7x7的网格，每个网格预测2个边框（bounding box），每个边框得到五个值（x，y，w，h，confidence）。论文采用20分类，故最后得到通道数为5*2+20=30，代表每个网格预测了30个特征。

1.2.2、连续使用两个全连接层的作用

第一个全连接层作用：将卷积得到的分布式特征映射到样本标记空间。即把该输入图像的所有卷积特征整合到一起。
第二个全连接层作用：将所有神经元得到的卷积特征进行维度转换，最后得到与目标检测网络输出维度相同的维度。

【小问题思考】两个全连接层连用 1x1卷积作用

（1.3）损失函数（四部分组成）

通过卷积神经网络得到每个边框的预测值后，需要确定每个边框对应的是前景框（真实物体）还是背景框（无关物体），即区分正样本、负样本。

正样本：将与真实物体有最大IoU的边框设为正样本，每个边框的置信度都为1。
负样本：其余边框为负样本，置信度全为0。负样本没有类别损失与边框位置损失，只有置信度损失。

损失函数由 4 个部分组成，均使用均方差损失。共有 S² 个区域（7x7=49），B表示每个网格有2个边框，obj表示对应真实物体，noobj表示没有对应真实物体。

（1）位置误差：提取每个网格的两个边框中，IoU最大的一个边框，并计算该边框的预测值与真实值的位置误差。前一个计算正样中心点坐标的损失，后一个计算正样本宽和高的损失。
其中：λcoord用于调整位置误差的权重。由于宽高差值受物体尺寸的影响，因此对w和h进行平方根处理，降低对物体尺的敏感度，强化小物体的损失权重。

（2）**置信度误差（obj）：前景误差。**计算边框与正样本的误差。
若边框的IoU大于置信度阈值，则该边界框属于前景。若存在多个满足要求的边框，则进行非极大值抑制。~~我们希望前景框的误差趋近于1。~~

（3）**置信度误差（noobj）：背景误差。**计算边框与负样本的误差。
若边框的IoU小于置信度阈值或IoU=0，则该边界框属于背景。~~我们希望背景框的误差趋近于0。~~
其中：λnoobj用于调整负样本置信度损失的权重（默认为0.5）。由于背景框的数量远远大于前景框，故~~对背景框误差设置阈值（如：0.1）~~ ，降低背景框误差对损失函数的影响。

（4）分类误差：计算每个边框得到的20个分类概率值与正样本的误差。

（1.4）NMS非极大值抑制

非极大值抑制可以用来修正多重检测目标，能增加2~3%的mAP。
即在检测结果中，若存在多个检测框的IOU大于置信度阈值，通过非极大值抑制最后只取一个框。如下图：五个框中只取最大值（置信度=0.98）的预测框。

（1.5）性能表现

优点

（1）YOLO检测速度非常快。标准版本的YOLO可以每秒处理 45 帧图像，极速版本可以每秒处理 150 帧图像，完全满足视频的实时检测要求；而对于欠实时系统，在保证准确率的情况下，速度也快于其他方法。

（2）YOLO 实时检测的平均精度是其他实时监测系统的两倍。

（3）迁移能力强，能运用到其他的新的领域（比如：艺术品目标检测）。

缺点

（1）由于每个网格只有两个边框做预测，并且只有一个类别。导致对于小物体以及靠的特别近的物体，检测效果不好。

（2）由于没有类似于Anchor的先验框，对于新物体或宽高比例不常见的物体，检测效果不好。

（2）在损失函数中，大物体与小物体的物质损失权重是一样的，导致同等比例的位置误差，大物体的损失会比小物体大，导致物体定位的不准确。

二、更快更强：yolov2

论文地址：YOLO9000: Better, Faster, Stronger
官方代码：http://pjreddie.com/darknet/yolo/

2017年，提出了yolov2和yolo9000，yolo9000能够实时检测超过9000种物体，主要检测网络还是yolov2。yolov2的整体网络架构和基本思想没有变化，重点解决yolov1召回率和定位精度方面的不足。相比其它的检测器，速度更快、精度更高、可以适应多种尺寸的图像输入。

yolov1是利用全连接层直接预测Bounding Box的坐标。而yolov2借鉴了Faster R-CNN的思想，引入Anchor机制；利用K-means聚类的方法在训练集中聚类计算出更好的Anchor模板，大大提高了算法的召回率；同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

（2.1）性能表现

随着yolov2的每一步改进，mAP值持续上升。

（2.2）网络模型（Darknet-19）

Darknet-19采用了19个卷积层，5个池化层。

（1）取消yolov1的两个全连接层。yolov1的依据全连接层直接预测 Bounding Boxes 的坐标值。而yolov2采用 Faster R-CNN 的方法，只用卷积层与 Region Proposal Network 来预测 Anchor Box 偏移量与置信度，而不是直接预测坐标值。

（2）添加了五个最大池化层（2的5次方）。最终的输出大小：输入图像（h，w）转换为（h / 32，w / 32）。

（3）yolov2的实际输入图像大小为416×416，而不是448×448（416/32=13、448/32=14）。因为我们希望最后得到的是奇数值，有实际的中心点。最终得到13×13的输出。与yolov1的7×7相比，可以预测更多的先验框。

（4）基于VGG的思想，大部分的卷积核都是3×3，一方面权重参数少，一方面感受野比较大；且采用降维的思想，将1×1的卷积核置于3×3之间，在保持整体网络结构的同时减少权重参数。并且每一次池化后，下一层卷积核的通道数 = 池化输出的通道 × 2。

（5）在网络模型的最后，而增加了一个全局平均池化层。

Darknet-19 与 yolov1、VGG16网络的性能对比

（1）VGG-16：大多数检测网络框架都是以VGG-16作为基础特征提取器，它功能强大，准确率高，但是计算复杂度较大，所以速度会相对较慢。因此YOLOv2的网络结构基于该方面进行改进。

（2）yolov1：基于GoogLeNet的自定义网络，比VGG-16的速度快，但是精度稍不如VGG-16。

（3）Darknet-19：速度方面，处理一张图片仅需要55.8亿次运算，相比于VGG的306.9亿次，速度快了近6倍。精度方面，在ImageNet上的测试精度为：top1准确率为72.9%，top5准确率为91.2%。

（2.3）改进之处

（2.3.1）加入批标准化（Batch Normalization，BN）

~~最终约提升2%的mAP。~~
具体操作：在每一个卷积层后面都加入BN，对数据进行预处理操作（如：统一格式、均衡化、去噪等）。
优点：解决梯度消失和爆炸问题，起到一定的正则化效果（yolov2不再使用dropout），获得更好的收敛速度。

（2.3.2）使用高分辨率图像，微调分类模型。

~~最终约提升4%的mAP。~~
背景：yolov1训练时的分辨率：224×224；测试时：448×448。
具体操作：yolov2保持yolov1的操作不变，但在原训练的基础上又加上了（10个epoch）的448×448高分辨率样本进行微调，使网络特征逐渐适应 448×448 的分辨率；然后再使用 448×448 的样本进行测试，缓解了分辨率突然切换造成的影响。

（2.3.3）聚类提取先验框（Anchor Box）

~~最终约提升7%的recall达到88%，但降低了0.3%的mAP。~~

❤️ yolov1边界框都是手工设定的，通过直接对边界框的（x，y，w，h）位置进行预测，方法简单但训练困难，很难收敛。

❤️ Faster R-CNN共有9种先验框：分三个不同的scale（大中小），每个scale的（h，w）比例分为：1:1、1:2、2:1。

❤️ yolov2引入先验框机制。 但由于Faster R-CNN中先验框的大小和比例是按经验设定的，不具有很好的代表性。故yolov2对训练集中所有标注的边界框先进行聚类分析（比如：5类），然后获取每一类的中心值即实际的（w，h）比值作为先验框，该值与真实值更接近，使得网络在训练时更容易收敛。

备注1：yolov1将图像拆分为7×7个网格，每个网格grid只预测2个边界框，共7×7×2=98个。
备注2：yolov2将图像拆分为13×13个网格，在Faster R-CNN的9种先验框基础上，将所有的边界框13×13×9=1521进行K-means聚类，最终选择最优参数k=5。即yolov2的每个网格grid只预测5个边界框，共13×13×5=845个。

传统K-means聚类方法使用标准的欧氏距离，将导致大的box会比小的box产生更多的误差。而yolo的目的是使得先验框与真实框有更大的IOU值，故自定义距离公式。

距离公式：计算每一类的中心值对应的先验框centroids与真实框box的距离。即计算IOU=（先验框与真实框的交集）除以（先验框与真实框的并集）。IOU越大，越相关，则距离越小，反之亦然。备注：数据均已采用批标准化处理。

左图：x轴表示k的个数，y轴表示平均IOU值。紫色与黑色分别表示两个不同的数据集（形状相似）。综合考虑精确度和运算速度后，yolov2最终取k=5个先验框。
右图：k=5个先验框的图形化显示。

（2.3.4）相对偏移量计算 —— 在当前网格中进行相对位置的微调

背景：已知先验框的位置为（x，y，w，h），现在得到的预测边界框为（tx，ty，tw，th），即系统判定需要在先验框位置的基础上进行一定的偏移，进而可以得到更真实的位置。故需要将预测的偏移量加到先验框中（x+tx，y+ty，w+tw，h+th）。
问题：由于模型刚开始训练时，网络参数都是随机初始化，虽然进行了批标准化但是参数的基数比较大，将导致预测的边界框加上偏移量之后到处乱飘。

yolov2的本质：在当前网格中进行相对位置的微调。
下图参数说明：

（Cx，Cy）：表示当前网格的左上角位置坐标。

（tx，ty，tw，th）：表示预测的结果在当前网格相对位置的偏移量。

σ(tx)：表示对漂移量 tx 取sigmoid函数，得到（0~1）之间的值。即预测边框的蓝色中心点被约束在蓝色背景的网格内。约束边框位置使得模型更容易学习，且预测更为稳定。

e的tw次方：是由于预测时取的log()对数值，故计算位置时进行还原。

（bx，by，bw，bh）：表示当前预测结果在特征图位置（即预处理后得到的13×13网格）。

（2.3.5）Fine-Grained Features（细粒度特性）

背景：

由于Faster R-CNN有大中小三种尺度scale的经验框，最终将对应得到小中大三种感受野。

感受野越大，其在原图像中对应的尺度越大，导致其对尺度较小的目标不敏感，故无法兼顾考虑小尺度目标。

备注：高分辨率（尺度大） - 感受野小；低分辨率（尺度小） - 感受野大。
yolov2需要同时考虑三种不同的感受野，通过不同层的特征融合实现。

具体操作：通过添加一个passthrough Layer，把高分辨率的浅层特征（26×26×512）进行拆分，叠加到低分辨率的深层特征（13×13×1024）中，然后进行特征融合（13×13×3072），最后再检测。（在yolov1中，FC起到全局特征融合的作用）。
目的：提高对小目标的检测能力。

（2.3.6）Multi-Scale多尺度检测（yolov2版）

背景：由于实际检测数据的输入图像大小不一，若都裁剪为相同大小，最后检测结果将有所下降。
限制：由于yolov2只有卷积层，故对输入图像大小没有限制；而yolov1由于有全连接层，故输入图像大小固定。
具体操作：训练模型每经过一定迭代之后，可以进行输入图像尺度变换。如：每迭代100次，输入图像尺寸大小增加10%。（备注：输入图像大小必须可以被32整除）

三、巅峰之作：yolov3

论文地址：YOLOv3: An Incremental Improvement
官网代码：https://github.com/yjh0410/yolov2-yolov3_PyTorch

（3.1）性能表现

x轴表示预测一张图片所需要的时间；y轴为mAP。原点的x轴坐标为50
由图可得：youlov3的检测速度和mAP值都强高于其他方法。

（3.2）网络模型（Darknet-53）

Darknet-53网络架构：
（1）由53个卷积层构成，包括1×1和3×3的卷积层，卷积省时省力速度快效果好，对于分析物体特征最为有效。每个卷积层之后包含一个批量归一化层和一个Leaky ReLU，加入这两个部分的目的是为了防止过拟合。
（2）没有全连接层，可以对应任意大小的输入图像。
（3）没有池化层，通过控制卷积层conv的步长stride达到下采样的效果，需要下采样时stride=2；否则stride=1；
（4）除此之外，Darknet-53中还使用了类似ResNet结构。

Darknet-53网络及在yolov3中的实际应用。可以看下面这张图：

DBL：由一个卷积层、一个批量归一化层和一个Leaky ReLU组成的基本卷积单元。在Darknet-53中，共有53个这样的DBL，所以称其为Darknet-53。

res unit：输入通过两个DBL后，再与原输入进行特征add，得到与原图像大小维度相同的图像；这是一种常规的残差单元。残差单元的目的是为了让网络可以提取到更深层的特征，同时避免出现梯度消失或爆炸。残差网络的特点：至少不比原来差。

res(n)：表示n个res unit。resn = Zero Padding + DBL + n × res unit 。

y1、y2、y3：分别表示yolov3的三种不同尺度输出（分别对应：大中小感受野）。

concat1：（大中小感受野）将大感受野的特征图像进行上采样，得到与中感受野的特征图像相同大小，然后进行维度拼接，达到多尺度特征融合的目的。 为了加强算法对小目标检测的精确度

concat2：（大中小感受野）将中感受野的特征图像进行上采样，得到与小感受野的特征图像相同大小，然后进行维度拼接，达到多尺度特征融合的目的。 为了加强算法对小目标检测的精确度
bounding box 与anchor box的输出区别

（1）Bounding box输出：框的位置（中心坐标与宽高），confidence以及N个类别。

（2）anchor box输出：一个尺度即只有宽高。

（3.3）改进之处

（3.3.1）Multi-Scale多尺度检测（yolov3版）

前提：分辨率信息直接反映目标的像素数量。分辨率越高，像素数量越多，对细节表现越丰富。在目标检测中，语义信息主要用于区分前景（目标）和背景（非目标）。其不需要很多细节信息，分辨率大反而会降低语义信息。yolov3主要针对小目标检测的不足之处做出改进。
具体形式：在网络预测的最后某些层进行上采样+拼接操作。
~~（详细请看yolov3网络架构）~~

（3.3.2）多标签分类：softmax()改成logistic()

将yolov2的单标签分类改进为yolov3的多标签分类。即softmax()分类函数更改为logistic()分类器。
具体形式：逻辑分类器通过对每个类别都进行二分类，以实现多标签分类。使用sigmoid函数将特征图的结果约束在[0~1]之间，如果有一个或多个值大于设定阈值，就认定该目标框所对应的目标属于该类。多个值称为多标签对象。（如：一个人有woman、person、地球人等多个标签）

四、大神接棒：yolov4

论文地址：YOLOv4: Optimal Speed and Accuracy of Object Detection
官网代码：https://github.com/AlexeyAB/darknet

核心思想：yolov4筛选了一些从yolov3发布至今，被用在各式各样检测器上，能够提高检测精度的tricks，并加以组合及适当创新的算法，实现了速度和精度的完美平衡。虽然有许多技巧可以提高卷积神经网络CNN的准确性，但是某些技巧仅适合在某些模型上运行，或者仅在某些问题上运行，或者仅在小型数据集上运行。
主要调优手段：加权残差连接(WRC)、跨阶段部分连接(CSP)、跨小批量标准化(CmBN)、自对抗训练(SAT)、Mish激活、马赛克数据增强、CmBN、DropBlock正则化、CIoU Loss等等。经过一系列的堆料，终于实现了目前最优的实验结果：43.5％的AP(在Tesla V100上，MS COCO数据集的实时速度约为65FPS)。

（4.1）性能表现

（4.2）网络模型（CSPDarknet53）

CSPDarknet53网络及在yolov4中的实际应用。

yolov4的CSPDarknet53与yolov3的Darknet-53相比，主要区别：

（1）将原来的Darknet53与CSPNet进行结合，形成Backbone网络。

（2）采用SPPNet适应不同尺寸的输入图像大小，且可以增大感受野；

（3）采用SAM引入空间注意力机制；

（4）采用PANet充分利用了特征融合；

（5）激活函数由MIsh替换Leaky ReLU； 在yolov3中，每个卷积层之后包含一个批归一化层和一个Leaky ReLU。而在yolov4的主干网络CSPDarknet53中，使用Mish替换原来的Leaky ReLU。
CSPDarknet53网络架构：

（4.2.1）跨阶段部分网络（Cross Stage Partial Networks，CSPNet）

背景： 2019年Chien-Yao Wang等人提出，用来解决网络优化中的重复梯度信息问题，在ImageNet dataset和MS COCO数据集上有很好的测试效果。且易于实现，在ResNet、ResNeXt和DenseNet网络结构上都能通用。
目的： 实现更丰富的梯度组合，同时减少计算量。
具体方式： 将基本层的特征图分成两部分：11、主干部分继续堆叠原来的残差块；22、支路部分则相当于一个残差边，经过少量处理直接连接到最后。

（4.2.2）空间金字塔池化网络（Spatial Pyramid Pooling Network，SPPNet）

论文地址：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition

yolov1背景：yolov1训练时的分辨率：224×224；测试时：448×448。
yolov2背景：yolov2保持yolov1的操作不变，但在原训练的基础上又加上了（10个epoch）的448×448高分辨率样本进行微调，使网络特征逐渐适应 448×448 的分辨率；然后再使用 448×448 的样本进行测试，缓解了分辨率突然切换造成的影响。

目的：使得网络模型的输入图像不再有固定尺寸的大小限制。通过最大池化将不同尺寸的输入图像变得尺寸一致。
优点：增大感受野。
如图是SPP中经典的空间金字塔池化层。

（4.2.3）空间注意力机制（Spatial Attention Module，SAM）

具体方式： yolov4采用改进的SAM方法
优化历程： CBAM（Convolutional Block AM） -> SAM（Spatial Attention Module） -> 改进的SAM
优化原因：
（1）由于CBAM计算比较复杂且耗时，而yolo的出发点是速度，故只计算空间位置的注意力机制。
（2）常规的SAM最大值池化层和平均池化层分别作用于输入的feature map，得到两组shape相同的feature map，再将结果输入到一个卷积层。 过程过于复杂，yolo采取直接卷积进行简化。

CBAM与SAM的区别：

特征图注意力机制（Channel Attention Module）：在Channel维度上，对每一个特征图（channel）加一个权重，然后通过sigmoid得到对应的概率值，最后乘上输入图像，相当于对输入图像的特征图进行加权，即注意力。❤️~~如：32×32×256，对256个通道进行加权。~~

空间注意力机制（Spatial Attention Module）：在Spatial维度上，对每一个空间位置（Spatial）加一个权重，然后通过sigmoid得到对应的概率值，最后乘上输入图像，相当于对输入图像的所有位置特征进行加权，即注意力。❤️~~如：32×32×256，对任意空间位置进行加权。~~

SAM与改进的SAM的区别：

（4.2.4）路径聚合网络（Path Aggregation Network，PANet）

论文地址（FPNet）：Feature Pyramid Networks for Object Detection
论文地址（PANet）：Path Aggregation Network for Instance Segmentation

背景： PANet发表于CVPR2018，其是COCO2017实例分割比赛的冠军，也是目标检测比赛的第二名。
具体方式： yolov4采用改进的PANet方法
优化历程： FPNet（Feature Pyramid Networks） -> PANet（Path Aggregation Network） -> 改进的PAN
优化原因：

（1）FPNet网络采取自上而下的方式，将高层特征逐层与中高层、中层、中底层、低层特征进行融合。缺点是无法自下而上融合，而PANet的优化了该部分不足，详见示意图的（b）部分。

（2）FANet采用特征相加的融合方式，而yolo采用特征拼接的融合方式。加法可以得到一个加强版的特征图，但特征权重不大于1，而拼接可能得到大于1的特征图。

FPNet示意图

PANet示意图

（a）FPNet：通过 融合高层特征 来提升目标检测的效果。

（b）Bottom-up Path Augmentation：通过 融合低层特征（边缘形状等）来提升目标检测的效果。

（c）Adaptive Feature Pooling：采用 拼接特征融合。详见下图。拼接相比加法，特征更明显，可以提高检测效果。

（d）Fully-connected Fusion

（4.2.5）Mish激活函数

论文地址：Mish: A Self Regularized Non-Monotonic Activation Function

Mish在负值的时候并不是完全截断，允许比较小的负梯度流入。实验中，随着层深的增加，ReLU激活函数精度迅速下降，而Mish激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。
22个激活函数

（4.3）改进之处

BackBone训练策略：数据增强、自对抗训练、DropBlock正则化、类标签平滑、CIoU损失函数、DIoU-NMS等。

（4.3.1）马赛克（Mosaic）数据增强 + CutMix数据增强

CutMix论文： https://arxiv.org/pdf/1905.04899v2.pdf

最大特点：使得yolov4只通过单CPU就能完成训练，不用再担心设备问题。
具体方式：

11、采用常用的数据增强方法（如：亮度、饱和度、对比度；随机缩放、旋转、翻转等）对所有的图像进行数据增强；

22、采用CutMix数据增强方法。详细见下。

33、采取马赛克（Mosaic）数据增强方法，即随机取四张图像拼接为一张图像。

由图可得（左）：CutMix表现最优。

（1）ResNet-50：采用常规的数据增强方法。如：调整亮度、饱和度、对比度；随机缩放、旋转、翻转等。

（2）Mixup：将猫狗两张图像进行图像融合，其中狗和猫的权重参数都为0.5，故标签概率值都为0.5。

（3）Cutout：随机删除/遮挡一个区域。

（4）CutMix：随机删除/遮挡一个区域，并用A图像的一部分粘贴到B图像上。 如：将狗头替换为猫头，其中狗和猫的权重参数分别为0.6、0.4，故标签softmax的概率值分别为0.6、0.4。

备注1：softmax能够得到当前输入属于各个类别的概率。
备注2：标签（分类结果）会根据patch的面积按比例分配，计算损失时同样采用加权求和的方式进行求解。

数据增强的其余方法扩展：

（4.3.2）自对抗训练（Self-Adversarial Training，SAT）

在第一阶段：在原始图像的基础上，添加噪音并设置权重阈值，让神经网络对自身进行对抗性攻击训练。
在第二阶段：用正常的方法训练神经网络去检测目标。
备注：详细可参考对抗攻击的快速梯度符号法（FGSM）。

（4.3.3）改进的Dropout（DropBlock）

b图：Dropout是随机删除一些神经元（如：a图的红点），但对于整张图来说，效果并不明显。比如：眼睛被删除，我们仍然可以通过眼睛的周边特征（眼角、眼圈等）去近似识别。

c图：DropBlock是随机删除一大块神经元。如：将狗头的左耳全部删除。

（4.3.4）标签平滑（Label Smoothing）

问题：标签绝对化：要么0要么1。该现象将导致神经网络在训练过程中，自我良好，从而过拟合。
具体方式：将绝对化标签进行平滑（如：[0，0] ~ [0.05，0.95] ），即分类结果具有一定的模糊化，使得网络的抗过拟合能力增强。

左图（使用前）：分类结果相对不错，但各类别之间存在一定的误差；
右图（使用后）：分类结果比较好，簇内距离变小，簇间距离变大。

（4.3.5）CIoU损失函数

效果：采用CIoU Loss损失函数，使得预测框回归的速度和精度更高一些。
loss优化历程：经典IOU损失 -> GIOU损失（Generalized IoU） -> DIOU损失（Distance IoU） -> CIOU损失
优缺点：

IoU_Loss：主要考虑检测框和目标框重叠面积。

GIoU_Loss：在IOU的基础上，解决边界框不重合时的问题。

DIoU_Loss：在IOU和GIOU的基础上，考虑边界框中心点距离的信息。

CIoU_Loss：在DIOU的基础上，考虑边界框宽高比的尺度信息。

（4.3.6）DIoU-NMS

在检测结果中，若存在多个检测框的IOU大于置信度阈值
（1）NMS非极大值抑制：只取IoU最大值对应的框。
（2）DIoU-NMS：只取公式计算得到的最大值对应的框。取最高置信度的IoU，并计算最高置信度候选框（M）与其余所有框（Bi）的中心点距离。优点：在有遮挡的情况下识别效果更好。

（3）SOFT-NMS：对于不满足要求，且与最大置信度对应的检测框高度重叠的检测框，不直接删除，而采取降低置信度的方式。优点：召回率更高

五、横空出世：YOLOv5

论文下载：yolov5没有论文
官网代码：https://github.com/ultralytics/yolov5

2020年2月YOLO之父Joseph Redmon宣布退出计算机视觉研究领域。
2020 年 4 月 23 日YOLOv4发布☘️。
2020 年 6 月 10 日YOLOv5发布。
⭐（1）该两个版本的改进都属于多种技术堆积版本，且两个版本差异不大。
（2）一直在更新中，且更新较快（平均2~3个月一次）。
✨（3）yolov5对应的GitHub上有详细的项目说明。但由于v5项目的训练数据集过于庞大，故可以选择自己的数据集 or 小样本数据集学习。
Roboflow：开源自动驾驶数据集。该数据集已经画好边界框；下载格式：YOLO v5 PyTorch。

（5.1）性能表现

yolov5是在COCO数据集上预训练的系列模型，包含5个模型：YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLO5x。不同的变体模型使得YOLOv5能很好的在精度和速度中权衡，方便用户选择。

（5.2）网络模型（YOLOv5s）

模块1：CBL-CBL模块由Conv+BN+Leaky_relu激活函数组成。
模块2：Res unit-借鉴ResNet网络中的残差结构，用来构建深层网络，CBM是残差模块中的子模块。
模块3：CSP1_X-借鉴CSPNet网络结构，该模块由CBL模块、Res unint模块以及卷积层、Concate组成而成。
模块4：CSP2_X-借鉴CSPNet网络结构，该模块由卷积层和X个Res unint模块Concate组成而成。
模块5：Focus结构首先将多个slice结果Concat起来，然后将其送入CBL模块中。
模块6：SPP-采用1×1、5×5、9×9和13×13的最大池化方式，进行多尺度特征融合。

（5.2.1）Backbone（特征提取模块）

（1）Backbone（骨干网络）：用于提取图像特征的网络。*常用不是我们自己设计的网络，而是通用网络模型resnet、VGG等。
使用方式： 将通用模型作为backbone时，直接加载预训练模型的参数，再拼接上我们自己的网络。网络训练方法参考迁移学习的微调算法，即对预训练模型进行微调，使其更适合我们自己的任务。

（2）Neck（脖子）：在backbone和head之间，是为了更好的利用backbone提取的特征。

（3）Bottleneck（瓶颈）：指输出维度比输入维度小很多，就像由身体到脖子，变细了。经常设置的参数 bottle_num=256，指的是网络输出的数据的维度是256 ，可是输入进来的可能是1024维度的。

（4）Head（头部）：head是获取网络输出内容的网络，利用之前提取的特征，head利用这些特征，做出预测。

Backbone结构主要分成三类：CNNs结构（非轻量级、轻量级）、Transformer结构、CNNs+Transformer结构。

深度学习框架-Backbone汇总（超详细讲解）
❤️ 一、普通（非轻量化）CNNs结构Backbone

LeNet5：(1998)

AlexNet：(2012)

VGG：(2014)

GoogLeNet（InceptionNet）系列：Inception-v1（GoogleNet）: (2015)、Inception-v2 （2015，BN-inception）、Inception-v3 (2015)、Inception-v4: (2017)、Inception-resnet-v2： (2017)

Resnet: (2016)

ResNet变种：ResNeXt （2016）、ResNeSt（2020）、Res2Net（2019）、DenseNet （2017）

DPNet：(2017)

NasNet：(2018)

SENet及其变体SKNet：SENet（2017）、SKNet（2019）

EfficientNet 系列：EfficientNet-V1(2019)、EfficientNet-V2(2021)

Darknet系列：Darknet-19 （2016， YOLO v2 的 backbone）、Darknet-53 （2018， YOLOv3的 backbone）

DLA (2018, Deep Layer Aggregation)

❤️ 二、轻量化CNNs结构Backbone

SqueezeNet：（2016）

MobileNet-v1：（2017）

XCeption：（2017, 极致的 Inception）

MobileNet V2：（2018）

ShuffleNet-v1：(2018)

ShuffleNet-v2：(2018)

MnasNet：（2019）

MobileNet V3 （2019）

CondenseNet（2017）

ESPNet系列：ESPNet （2018）、ESPNetv2 （2018）

ChannelNets

PeleeNet

IGC系列：IGCV1、IGCV2、IGCV3

FBNet系列：FBNet、FBNetV2、FBNetV3

GhostNet

WeightNet

MicroNet

❤️ 三、 ViT（Vision Transformer ）结构Backbone

ViT-H/14 和 ViT-L/16 （2020）（Vision Transformer，ViT）

Swin Transformer（2021）

PVT（2021, Pyramid Vision Transformer）

MPViT （CVPR 2022，Multi-path Vision Transformer, 多路径 Vision Transformer）

EdgeViTs （CVPR 2022，轻量级视觉Transformer）

❤️ 四、CNNs+Transformer/Attention结构Backbone

CoAtNet（#2 2021）

BoTNet（#1 2021）

（5.2.1）EfficientNet

EfficientNet网络详解

（5.3）改进之处

深入浅出Yolo系列之Yolov5核心基础知识完整讲解

六、昙花一现：YOLOv6

手把手教你运行YOLOv6（超详细）

yolov6与v7相差不到十天，区别不大。

七、谁与争锋：YOLOv7

论文下载：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object
detectors
代码地址：https://gitcode.net/mirrors/WongKinYiu/yolov7

在项目实战中，只研究yolov5或yolov7对应的项目即可，yolov3不要再研究了。因为现在的torch版本是高版本，而v3当时是低版本。

（7.1）性能表现

（7.2）网络模型

（7.3）改进之处

（7.3.1）RepVGG（最大改进）

2014年：牛津大学著名研究组VGG (Visual Geometry Group)，提出VGGNet。

2021年：清华大学、旷视科技以及香港科技大学等机构，基于VGG网络提出了RepVGG网络。

由图可得：RepVGG无论是在精度还是速度上都已经超过了ResNet、EffcientNet以及ResNeXt等网络。

（7.3.1.1）结构重参数化

RepVGG采用结构重参数化方法（structural re-parameterization technique）。
详细过程：

（1）在训练时，使用ResNet-style的多分支模型（特点：增加模型的表征能力）；

（2）在测试时，转化成VGG-style的单线路模型（特点：速度更快、更省内存并且更加的灵活。）。

过程特点：训练的网络结构和测试的网络结构可以不一样。

核心操作：在测试时，将训练时的多分支模型进行合并得到一条单线路模型，即将1 x 1卷积 + BN（批标准化）与3 x 3卷积进行合并。详见下图。RepVGG网络：结构重参数化 - 详细过程

（1）将1x1卷积转换成3x3卷积

（2）将BN和3x3卷积进行融合，转换成3x3卷积

（3）多分支融合

备注1：yolo的核心是检测速度快，而不是检测精度高。
备注2：在前六个版本的优化后，网络层只留下了3 x 3卷积、1 x 1卷积和BN（每一个网络层之后都进行批标准化）。
备注3：VGG在2014年告诉我们，3 x 3卷积是计算速度最快的，优化最好的。

备注4：黄色模块是激活函数ReLU，蓝色模块是卷积层。
备注5：单支路模型可以节约内存。

（7.3.1.2）将1x1卷积转换成3x3卷积

具体过程：
（1）取1x1卷积（卷积核：1个参数），设置padding=1（即在其周围填补一圈全为零的元素）
（2）设置原始输入的padding=1
（3）输入与卷积核进行卷积操作，得到3x3的卷积层。。
注意：原始输入和1x1卷积都需要设置padding=1。

（7.3.1.3）将BN和3x3卷积进行融合，转换成3x3卷积

通俗来讲：将BN公式拆解为一元二次方程（y1 = k1* x1 + b1）；然后与损失函数（y2 = k2* x2 + b2）进行合并得到新的方程（y3 = k3* x3 + b3）。

（7.3.1.4）多分支融合

具体过程：（1）将1x1卷积 + BN全部转换为3x3卷积，然后与3x3卷积进行合并，得到一个3x3卷积。

（7.3.2）正样本分配策略

主要目的：为了得到更多的正样本。正样本即先验框（anchor），负样本即背景。

具体计算过程分两个步骤：（1）提取anchor；（2）筛选anchor。

具体过程（提取anchor）：

（1）计算先验框的中心点位置

（2）在当前网格中进行上、下、左、右四个方向的位置偏移，偏移大小为0.5。

（3）最后取当前网格 + 四个方向的中心点所对应的除当前网格的二个网格。共三个网格作为正样本

具体过程（筛选anchor）：
提取满足要求的anchor，去掉匹配度低的anchor（该类anchor无意义）。

条件一：候选框和先验框（anchor）的长款比范围：[0.25，4] 。

条件二：候选框和先验框（anchor）的IOU要大于自定义阈值。

条件三：候选框和先验框（anchor）的类别预测损失要大于自定义阈值。

条件四：将以上三个条件进行权重相加，并进行损失排名。 loss = (权重系数1 * 条件一) + (权重系数2 * 条件二) + (权重系数3 * 条件三)

举例：以下是具体过程（筛选anchor）中，条件二的损失计算。

备注1：计算真实框（Ground Truth，GT）对应的候选框数量（损失计算得到的结果）：向下取整。

备注2：若一个候选框同时和多个anchor高度匹配，则按照损失计算原则，只能匹配损失最小对应的一个anchor。

（7.3.3）相对偏移量计算（yolov5/v7版）

（7.3.4）辅助头（auxiliary head）+主头（lead head）

详细说明请看论文
图5:辅助用粗，头部用细。与常规模型(a)相比，(b)模式具有辅助头。与通常的独立标签分配器©不同，我们提出(d)铅头引导标签分配器和(e)粗至细铅头引导标签分配器。该标签分配器通过前导头预测和地面真实值进行优化，同时得到训练前导头和辅助头的标签。详细的从粗到细的实现方法和约束设计细节将在附录中详细阐述。

参考文献

1.YOLO学习：召回率Recall、精确率Precision、IoU、Map
2.YOLOv1到YOLOv3的演变过程及每个算法详解
3.YOLO系列总结：YOLOv1, YOLOv2, YOLOv3, YOLOv4, YOLOv5, YOLOX
4.YOLO系列详解：YOLOv1、YOLOv2、YOLOv3、YOLOv4、YOLOv5
5.YOLO系列算法精讲：从yolov1至yolov5的进阶之路（2万字超全整理）
6.深入浅出Yolo系列：Yolov3、Yolov4、Yolov5、YoloX（超多-免费数据集）
7.深度学习框架-Backbone汇总（超详细讲解）
8.深入浅出Yolo系列之Yolov5核心基础知识完整讲解
9.YOLOv7 RepVGG网络：结构重参数化 - 详细过程
10.目标检测算法——YOLOV7——详解

实战一：目标检测：教你利用yolov5训练自己的目标检测模型
实战二：认真总结6000字Yolov5保姆级教程（2022.06.28全新版本v6.1）
实战三：利用yolov5实现口罩佩戴检测算法(非常详细)
实战四：YOLOv7（目标检测）入门教程详解—检测，推理，训练
❤️ roboflow官网：开源自动驾驶数据集（Computer Vision Datasets）❤️

你可能感兴趣的:(深度学习,YOLO,深度学习,人工智能)

yolov5训练失败总结 BTU_YC 深度学习 python pytorch
yolov5训练失败总结版本原因：在进行训练时，出现如下报错：UserWarning:Detectedcalloflr_scheduler.step()beforeoptimizer.step().InPyTorch1.1.0andlater,youshouldcallthemintheoppositeorder:optimizer.step()beforelr_scheduler.step().
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【TVM 教程】如何处理 TVM 报错
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/运行TVM时，可能会遇到如下报错：---------------------------------------------------------------AnerroroccurredduringtheexecutionofTVM.F
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
【机器学习&深度学习】多分类评估策略一叶千舟深度学习【理论】深度学习【应用必备常识】大数据人工智能
目录前言一、多分类3大策略✅宏平均（MacroAverage）✅加权平均（WeightedAverage）✅微平均（MicroAverage）二、类比理解2.1宏平均（MacroAverage）2.1.1计算方式2.1.2适合场景2.1.3宏平均不适用的场景2.1.4宏平均一般用在哪些指标上？2.1.5怎么看macroavg指标？2.1.6宏平均值低说明了什么？2.1.7从宏平均指标中定位模型短板
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
文末含资料链接！YOLOv11性能飞跃：深度融合iRMB注意力机制，实战教程助你突破检测极限！博导ai君深度学习教学-附源码 YOLO
文章目录1.介绍：揭秘iRMB——轻量化与高性能的完美融合1.1摘要：洞察iRMB的设计哲学与卓越表现1.2简单描述：深入剖析iRMB的构造与工作原理核心灵感：CNN与Transformer的珠联璧合iRMB的核心结构：短距离与长距离的协同设计理念：实用、统一、有效、高效1.3模块结构：iRMB的内部构造图（概念描述）2.代码解析：逐行揭秘iRMB的魔法2.1`LayerNorm2d`：为2D数据
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他