花飞雨追

YOLOv3-YOLOv8的一些总结

0 写在前面

这个文档主要总结YOLO系列的创新点，以YOLOv3为baseline。参考(抄)了不少博客，就自己看看吧。有些模型的trick不感兴趣就没写进来，核心的都写了。

YOLO系列的网络都由四个部分组成：Input、Backbone、Neck、Prediction head。

Input：主要是在训练开始之前进行resize、数据增强等操作，不同的YOLO在数据增强方面也有很多改进。在测试阶段则只会进行resize。其中resize操作中，先将图像进行灰度值填充成正方形，再resize等比缩放，常用的尺寸为640 * 640，这个值越大，模型预测的越准确，但消耗的显存越大。
Backbone：主要对图像进行下采样。在YOLOv3以后的网络都会在BackBone不同的深度经过Neck层拿到3种深度的特征图。一般会进行5次下采样(好像)，所以输入的图像的宽高会被resize成32的倍数。YOLO的思想是把图像经过下采样，将图像划分成 S * S 个区域，每个区域由对应的节点进行预测框的生成。
Neck：与Backbone配合，取3种深度/尺寸的特征图。拿416 * 416的图为例，最底层为13 * 13相当于把原图划分成13 * 13个区域，因为深度最深，所以感受野最大，利于大目标的检测，其他的尺度类似。
Prediction Head：基于Neck层取到的特征图进行预测框的生成，每一个节点负责对应小区域的预测框生成，每个预测框包括预测框位置与大小、置信度、分类结果。例如在YOLOv3中13 * 13 * 255，13 * 13是区域，255=3 * (4 + 1 + 80)，其中3表示会基于3种锚框进行预测，4为预测框的位置(中心点坐标、宽高)，1为置信度，80为分类结果(COCO数据集有80个类)。在YOLO系列中有anchor based和anchor free两种方法。

1 YOLOv3(Anchor based)

1.1 动机

YOLOv3借鉴了FPN的方法，采用多尺度的特征图对不同大小的物体进行检测，以提升小物体的预测能力。例如输入416X416的图像，则会得到13 * 13 (416/32)，26 * 26(416/16) 以及52 * 52(416/8)这3个尺度的特征图。

1.2 值得注意的地方

Backbone使用Darknet53，其中包括残差卷积，每一次卷积的时候进行L2正则化，完成卷积后进行BN与LeakyReLU激活。
置信度部分则继续沿用v1v2中的IoU作为标签，IoU的表达式如下：
$IoU=\frac{A \cap B}{A \cup B}$
使用anchor based方法生成预测框(其实是YOLOv2就有的)。在训练开始前基于训练集所有的ground-truth利用k-means进行聚类，得到9个聚类中心/锚框(anchor boxes，也有叫先验框的)。9个锚框被分成3组分别用于三种深度的Prediction Head锚框的中心点位置为每个网格的中心点。9种锚框的尺寸随着不同的数据集而变化。

由Prediction Head生成框的位置与尺寸结果 $t_x, t_y, t_w, t_h]$ 还需要基于锚框进行解码映射，计算过程如下：
$b_x=\sigma(t_x) + c_x \\ b_y=\sigma(t_y) + c_y \\ b_w=p_we^{t_w} \\ b_h=p_he^{t_h}$
其中 $c_x, c_y$ 代表网格的左上角距离最左上角相差的格子数， $p_w, p_h$ 代表锚框的宽高， $t_x, t_y$ 代表目标中心点到网格左上角顶点的偏移量， $t_w, t_h$ 代表宽高偏移量， $b_x, b_y, b_w, b_h]$ 即为最终的预测框。图解如下：
使用非极大值抑制(Non_max Suppression, NMS)对重叠过高的框进行筛选，NMS对不同类别的框分开操作。以单独类举例，首先将框按照置信度降序排序构建集合H，并建造一个存放最优框的集合M，初始化为空集。每次在集合H取最高置信度的框，跟同类别其他的框计算IoU，如果IoU超过一定的阈值则抛弃后取出的框，遍历结束则将最高置信度的框放入集合M，接着循环这个操作，直到集合H为空集。集合M中所有的框即为最优检测结果。
YOLO系列的损失函数都由三个大部分构成，即框位置与尺寸误差、置信度误差、分类误差。
$Loss=L_{obj}+L_{con}+L_{cls}$
具体一点可以分为box的中心点误差、框尺寸误差、置信度误差、不存在box时置信度误差、分类的误差。YOLOv3的损失函数如下：
$Loss=-\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[\hat{x}_i^j\log{(x_i^j)} + (1-\hat{x}_i^j)\log{(1-x_i^j)} + \hat{y}_i^j\log{(y_i^j)}+(1-\hat{y}_i^j)\log{(1-y_i^j)} \right] \\ +\lambda_{coord}\frac{1}{2}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[(w_i^j-\hat{w}_i^j)^2 +(h_i^j-\hat{h}_i^j)^2 \right] \\ -\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[\hat{C}_i^j\log{(C_i^j)+(1-\log{\hat{C}_i^j})\log{(1-C_i^j)}} \right] \\ -\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{noobj}\left[\hat{C}_i^j\log{(C_i^j)}+(1-\hat{C}_i^j)\log{(1-C_i^j)} \right] \\ -\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\sum_{c\in{classses}}\left[\hat{P}_{i,c}^j\log{(P_{i,c}^j)}+(1-\hat{P}_{i,c}^j)\log{(1-P_{i,c}^j)} \right]$
- 中心点误差
$Loss=-\lambda_{coord}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[\hat{x}_i^j\log{(x_i^j)} + (1-\hat{x}_i^j)\log{(1-x_i^j)} + \hat{y}_i^j\log{(y_i^j)}+(1-\hat{y}_i^j)\log{(1-y_i^j)} \right]$

$I_{ij}^{obj}$ 表示该预测框是否负责检测目标物体， $x_i^j,y_i^j)$ 为预测框中心点坐标， $(\hat{x}_i^j,\hat{y}_i^j)$ 为ground-truth中心点坐标， $\lambda_{coord}$ 为权重系数。总体为交叉熵的形式。正例由NMS得到。
- 框尺寸误差
$\lambda_{coord}\frac{1}{2}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[(w_i^j-\hat{w}_i^j)^2 +(h_i^j-\hat{h}_i^j)^2 \right]$

$w_i^j,h_i^j)$ 为预测框宽高， $(\hat{w}_i^j,\hat{h}_i^j)$ 为ground-truth宽高。总体为欧几里得距离的形式。
- 置信度误差
$-\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\left[\hat{C}_i^j\log{(C_i^j)+(1-\log{\hat{C}_i^j})\log{(1-C_i^j)}} \right] \\ -\lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{noobj}\left[\hat{C}_i^j\log{(C_i^j)}+(1-\hat{C}_i^j)\log{(1-C_i^j)} \right]$

$C_i^j$ 为置信度，即预测框内含目标物体的概率得分， $\hat{C}_i^j$ 为真实值， $I_{ij}^{noobj}=1-I_{ij}^{obj}$ 。公式的后者为负例产生的loss，负例为与所有ground-truth的IoU均小于0.5的框，负样例只对置信度产生loss的贡献，置信度的标签均为0。除了正例和负例，还有忽略样例，不对loss产生任何贡献。忽略样例为除正例外与任意一个ground-truth的IoU大于0.5的框。
- 分类损失
$-\sum_{i=0}^{S^2}\sum_{j=0}^{B}I_{ij}^{obj}\sum_{c\in{classses}}\left[\hat{P}_{i,c}^j\log{(P_{i,c}^j)}+(1-\hat{P}_{i,c}^j)\log{(1-P_{i,c}^j)} \right]$

对每个类别和每个框与真实框做交叉熵。

2 YOLOv4(Anchor based)

整体感觉YOLOv4就是堆trick和调参的结果，没提出自己的东西。

2.1 创新点

Input：训练时对输入端的改进，主要包括Mosaic数据增强、cmBN、SAT自对抗训练。
- Mosaic是参考2019年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了4张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。
- cmBN把大batch内部的4个mini batch当做一个整体进行BN(大概，不太关心这种改动)，主要改变在于BN层的统计量计算方面。
- SAT自对抗训练主要目标是通过改变输入图像，使得网络难以识别，从而迫使网络提高泛化性能。(不太关心)
Backbone：使用CSPDarknet53、Mish激活函数、Dropblock。
- CSPDarknet53中的最小组件是CBM，由Conv+BN+Mish组成。
- Mish激活函数：ReLU 和 Mish 的对比，Mish 的梯度更平滑。表达式与图像如下：
$f(x)=x*\tanh{(\ln(1+e^x))}$
- Dropblock：在卷积的过程中随机丢弃一些块的图像信息。池化层本身就是对相邻单元起作用，随机丢弃信息后卷积层仍然可以从相邻的激活单元学习到相同的信息。这样做是为了缓解过拟合。
Neck：SPP模块和FPN+PAN结构。
- SPP模块：采用1×1，5×5，9×9，13×13的最大池化的方式，进行多尺度融合。
- FPN+PAN结构：抄的是18年CVPR的PANet，当时主要应用于图像分割领域。FPN层自顶向下传达强语义特征，而PAN则自底向上传达强定位特征。
  
  原本的PANet网络的PAN结构中，两个特征图结合是采用shortcut操作，而YOLOv4中则采用concat操作，特征图融合后的尺寸发生了变化。(效果好才这样的吧，笑)
Prediction Head：与YOLOv3相同，训练时框的位置损失用的CIoU_Loss，NMS用的是DIoU。关于不同的IoU有怎样的特点与不适用于怎样的场景网上有很多，这东西能写很长，我以前在论文里也提到过，懒得写，随便找找别的博客看看吧（逃。

3 YOLOv5(Anchor based)

YOLOv5整体跟YOLOv4很相似，可以看成在YOLOv4的基础上改的，属于狂堆trick的产物。

3.1 创新点

Input：自适应图片缩放。之前的resize方式是先将图片利用灰度值填充至正方形，再resize成416 * 416等尺寸。YOLOv5的作者认为这样做太慢了，而且填多了则会产生大量冗余信息，所以提出了自适应图片缩放。假设我现在有一张800 * 600的图片，需要resize成416 * 416的。步骤如下：
- 计算两个维度上的缩放比例，416/800=0.52,416/600=0.69，选小的先进行resize，得到416*312的图。
- 之后再进行灰度值填充至416 * 416。
Backbone：采用CSPNet，在CSPNet之前提出一种Focus结构。
- CSPNet：最小组件CSP结构，感觉没啥好说的，他效果好他有理。
- Focus：对图片进行切片(slice)操作，具体操作是在一张图片中每隔一个像素拿到一个值，类似于邻近下采样，这样就拿到了四张图片，这样就在没丢失信息的情况下扩充了特征图量。YOLOv5中的Focus先切片，通道数变为12，再利用1 * 1卷积再次扩充通道数至32。(感觉会丢失小目标的特性信息，后面的模型都没用这个trick了)
Neck：依旧沿用YOLOv4的FPN+PAN结构。(FPN是金字塔层级结构，PAN是利用浅层特征信息对深层特征信息的补充)
Prediction Head：计算预测框损失的时候改用GIoU_Loss，懒得过多解释。利用不同的IoU对NMS也做了一点改进，好像就是用CIoU和DIoU加权改进的。YOLOv5还改了预测框回归计算公式。
- 之前的回归公式中宽和高的映射关系由于存在exp的操作，可能导致梯度过大不稳定，不利于训练，YOLOv5的预测框回归计算公式：
  $b_x=2\sigma(t_x)-0.5+c_x \\ b_y=2\sigma(t_y)-0.5+c_y \\ b_w=p_w(2\sigma(t_w)^2) \\ b_h=p_h(2\sigma(t_h)^2)$
  其中 $c_x, c_y$ 代表网格的左上角距离最左上角相差的格子数， $p_w, p_h$ 代表锚框的宽高， $t_x, t_y$ 代表目标中心点到网格左上角顶点的偏移量， $t_w, t_h$ 代表宽高偏移量， $b_x, b_y, b_w, b_h]$ 即为最终的预测框。图解如下：

4 YOLOv6(Anchor free)

美团开发的模型，抄了YOLOv5和YOLOX。有点搞笑的是，现在YOLOv6的github仍然在维护，甚至在YOLOv7和v8出来之后，又把他们比下去了，乐。但似乎也就嘴硬，YOLOv7的引用量已经四位数了，而YOLOv6才三位数。

4.1 创新点

Input：跟YOLOv5差不多，但是没用Focus。(发现端倪)
Backbone：设计了EfficientRep，见下图，相比于 YOLOv5 采用的CSP-Backbone，该 Backbone 能够高效利用硬件(如 GPU)算力的同时，还具有较强的表征能力。(他们在博客里这么说的)

将Backbone中stride=2的普通Conv替换成了stride=2的RepConv。同时，将原始的CSP-Block都重新设计为 RepBlock，其中RepBlock的第一个RepConv会做channel维度的变换和对齐。还将原始的SPPF优化设计为更加高效的SimSPPF。好像是他们发现Inception结构比单路径网络分类效果好，但Inception结构并行性降低耗时。他们在训练的时候用(a)结构，推理的时候则用(b)结构。
Neck：YOLOv6的颈部被表示为Rep-PAN。Rep-PAN基于PAN拓扑方式，用RepBlock替换了YOLOv5中使用的CSP-Block，同时对整体Neck中的算子进行了调整，目的是在硬件上达到高效推理的同时，保持较好的多尺度特征融合能力。(这个结构有点像EfficientDet？)

Prediction Head：解耦头(Decoupled head)、Anchor free、SimOTA、SIoU 边界框回归损失。(看起来改了很多地方，实则前三个都是YOLOX里面的，今天少点一份外卖，笑)
- **解耦头(Decoupled head)**就是把分类任务与置信度+框位置尺寸分成两个分支，这一概念最早由YOLOX的作者提出，他们就是小改了一下。
- Anchor free：对于Anchor based方法，需要对数据集进行k-means聚类生成9个锚框，说实话这种方法就像打CSGO用鼠标宏压枪一样(雾)，像挂又不是挂。Anchor free也是YOLOX先用的，主要是速度快。
- SimOTA：这个也是YOLOX先用的，用于区分正负样本，此前的模型都是用IoU判的。步骤如下：
  
  ①计算成对预测框与ground-truth代价，由分类及回归loss构成；
  
  ②计算前k小个loss对应的预测框与ground-truth的IoU，其和为Dynamic k(需要向下取整)；因此对于不同真值框，其Dynamic k存在差异；
  
  ③最后选择代价最小的前Dynamic k个预测框作为正样本。
- SIoU 边界框回归损失：这个之前看过，没看懂，现在看又没看懂，看啥时候把这个坑填上吧。（逃
还有一些杂七杂八的改进，主要用于工业界处理，不细讲了。

5 YOLOv7(Anchor based)

图从YOLOv7网络结构图拿的，画的好啊！

YOLOv7是基于YOLOv5改的，跟YOLOv6不是一个团队，同规模乱杀，能锤YOLOv8说是。Trick略多。。。

5.1 创新点

Input：好像并无变化。
Backbone：ELAN、MP、RepVGG。
- 在原ELAN架构上提出**E-ELAN(extended ELAN)**用于改进Backbone。E-ELAN只改变了计算块的架构，而过渡层的架构完全没有改变，其作用是引导不同组的计算块学习更多样化的特征。ELAN结构采用组卷积来扩展计算块的通道数和基数。
- MP模块，主要由Maxpool和CBS组成。MP模块主要对特征图进行下采样与扩充通道数，大概的作用就是将FPN的浅层特征通过下采样与深层特征进行融合，以扩充深层特征的信息量。
- RepVGG：在Prediction Head出现，主要表现为训练和推理的时候使用不同的网络结构，即训练的时候使用多流结构推理的时候将分支的参数重参数化到主分支上。(感觉这样只是为了加速推理速度)
  
  RepConv中的identity-connection破坏了ResNet中的残差和DenseNet中的拼接，为不同的特征映射提供了更多的梯度多样性。作者使用without identity connection的**RepConvN (RepConv without identity connection)**来设计计划重参数化模型的体系结构，见下图：
模型缩放：模型缩放的主要目的是调整模型的某些属性，并生成不同比例的模型，以满足不同推理速度的需要(像YOLOv5和YOLOX)。作者提出了一种复合模型方法，在考虑计算模块深度因子缩放的同时也考虑过渡层宽度因子做同等量的变化。当对连接结构的网络进行尺度缩放时，只缩放计算块的深度，转换层的其余部分只进行宽度的缩放。
Prediction Head：深度监督、标签分配策略。
- 深度监督：在网络的中间层增加额外的Auxiliary head，以及以Auxiliary损失为导向的浅层网络权值，图5(b)。将负责最终输出的head为Lead head，用于辅助训练的head称为Auxiliary head。
- 标签分配策略：与其他YOLO系列基于ground-truth的IoU分配soft label不同，本文将网络预测结果与基本事实一起考虑，提出两种soft label分配机制，Lead guided assigner(图5d)与Coarse-to-fine lead guided assigner(图5e)。目前的基操是独立标签匹配结构，将Auxiliary head和Lead head分离，然后使用它们自己的预测结果和真实标签来进行标签分配。
  - Lead guided assigner：主要基于Lead head的预测结果和ground-truth来计算，并通过优化过程生成soft label。这组soft label将用作Auxiliary head和Lead head的训练。(看的别人的博客，我也没明白，留个坑)
  - Coarse-to-fine lead guided assigner：在这个过程中生成了两组不同的soft label，即粗标签和细标签。细标签与Lead head在标签分配器上生成的soft label相同；粗标签是通过放宽认定positive target的条件生成的，也就是允许更多的grids作为positive target。(没看代码，晕的)

6 YOLOv8(Anchor free)

YOLOv8是基于YOLOv5改进的，没改多少东西，把YOLOX的解耦头、Anchor free抄过来了。本身是更侧重于实用，trick不多，甚至没找到论文。

4.1 创新点

Input：学YOLOX在训练的最后10个epoch关闭Mosiac，猛涨点。
Backbone：将YOLOv5的C3结构换成了梯度流更丰富的C2F结构，并对不同尺度模型调整了不同的通道数，像是调参的产物，都给我调！
Neck：无。
Prediction Head：解耦头、Anchor free、Distribution Focal Loss、TaskAlignedAssigner。
- 解耦头：似乎把置信度丢了，两个分支为分类分支与回归分支。分类的损失函数用的交叉熵。回归的损失函数用的CIOU_Loss+Distribution Focal Loss。
- Distribution Focal Loss：不懂，但是尊重，留个坑。[DFL](大白话 Generalized Focal Loss - 知乎 (zhihu.com))
- TaskAlignedAssigner：根据分类与回归的分数加权的分数选择正样本。分数公式为：
  $t=s^{\alpha} \times \mu^{\beta}$
  $s$ 是标注类别对应的预测分值， $\mu$ 是预测框与ground-truth的IoU。首先对于每个ground-truth计算对应类别的所有预测框的分数alignment_metrics。对于每个ground-truth基于alignment_metrics选取最大TopK大的分数对应的预测框作为正样本。

你可能感兴趣的:(机器学习,YOLO,深度学习,人工智能)

Python从0到100（七十六）：计算机视觉-直方图和自适应直方图均衡化是Dream呀 python 计算机视觉开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
autoMate - AI实现电脑任务自动化的本地工具小众AI AI开源人工智能自动化运维
GitHub：https://github.com/yuruotong1/autoMate更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AIautoMate是一款由开源开发的本地自动化工具，以AI+RPA（人工智能+机器人流程自动化）为核心特色。它将大型语言模型的智能理解与RPA的流程执行能力结合，用户只需用自然语言描述任务，如“整理桌面文件”或“生成周报”，即可
YOLO训练指南（以V3为例） niuTaylor YOLO 目标检测深度学习机器学习
YOLO训练指南（以V3为例）前言了解yolo3https://cloud.tencent.com/developer/news/76803https://www.bilibili.com/video/av77670746/1.总教程★★★https://blog.csdn.net/USTCsunyue/article/details/93648307★★★★https://blog.csdn.n
深度学习：马氏距离壹十壹深度学习深度学习人工智能
马氏距离（MahalanobisDistance）是一种用于计算不同维度数据点之间距离的度量方法。它考虑了数据的协方差结构，因此在处理具有相关性的多维数据时更加有效。与欧氏距离不同，马氏距离不仅考虑了各个变量的量纲，还考虑了它们之间的相关性。公式马氏距离计算两个向量(x)和(y)之间的距离，定义为：DM(x,y)=(x−y)TS−1(x−y)\D_M(x,y)=\sqrt{(x-y)^TS^{-1
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
深度学习：偏差和方差壹十壹深度学习深度学习人工智能 python 机器学习
偏差（Bias）偏差衡量了模型预测值的平均值与真实值之间的差距。换句话说，偏差描述了模型预测的准确度。一个高偏差的模型容易出现欠拟合，即模型无法捕捉数据中的真实关系，因为它对数据的特征做出了错误的假设。特征：高偏差的模型通常是过于简单的模型，无法对数据中的复杂关系进行准确建模。高偏差模型的训练误差和测试误差可能都较高。解决方法：增加模型复杂度：例如增加多项式的阶数、增加神经网络的层数等。使用更多的
目标检测煤烦恼目标检测人工智能大数据 pytorch
1.概念：目标检测是识别图片中物体并确定其位置的多任务技术，面临目标种类数量多、尺度不均、外部环境干扰等问题。这里的数字为置信度2.数据集：VOC数据集分4大类20小类；COCO数据集含20万图像、80个类别、超50万目标标注，平均每图7.2个目标。3.GroundTruth格式：包含类别和边界框坐标，常见的有YOLO（归一化中心点坐标和宽高）、VOC（左上角和右下角坐标）、COCO（左上角坐标和
从零开始构建大模型(LLM)应用和老莫一起学AI 人工智能 ai 大模型语言模型 llm 自然语言处理学习
大模型（LLM）已经成为当前人工智能的重要部分。但是，在这个领域还没有固定的操作标准，开发者们往往没有明确的指导，需要不断尝试和摸索。在过去两年中，我帮助了许多公司利用LLM来开发了很多创新的应用产品。基于这些经验，我形成了一套实用的方法，并准备在这篇文章中与大家分享。这套方法将提供一些步骤，帮助需要的小伙伴在LLM应用开发的复杂环境中找到方向。从最初的构思到PoC、评估再到产品化，了解如何将创意
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
机器学习之线性代数珠峰日记 AI理论与实践机器学习线性代数人工智能
文章目录一、引言：线性代数为何是AI的基石二、向量：AI世界的基本构建块（一）向量的定义（二）向量基础操作（三）重要概念三、矩阵：AI数据的强大容器（一）矩阵的定义（二）矩阵运算（三）矩阵特性（四）矩阵分解（五）Python示例（使用NumPy库）四、线性代数在AI中的应用（一）数据表示（二）降维：PCA（三）线性回归（四）计算机视觉（五）自然语言处理一、引言：线性代数为何是AI的基石在人工智能领
深度解析：DETR的多尺度特征融合 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
"深度解析：DETR的多尺度特征融合"作者：禅与计算机程序设计艺术1.背景介绍1.1目标检测的挑战与传统方法的局限性目标检测是计算机视觉领域中的一个基本任务，其目标是识别图像或视频中所有感兴趣的目标，并确定它们的位置和类别。传统的目标检测方法，如FasterR-CNN和YOLO，通常依赖于预定义的锚框或候选区域来生成目标proposals。然而，这些方法存在一些固有的局限性：人工先验知识:锚框的设
基于transformer实现机器翻译(日译中) 小白_laughter 课程学习 transformer 机器翻译深度学习
文章目录一、引言二、使用编码器—解码器和注意力机制来实现机器翻译模型2.0含注意力机制的编码器—解码器2.1读取和预处理数据2.2含注意力机制的编码器—解码器2.3训练模型2.4预测不定长的序列2.5评价翻译结果三、使用Transformer架构和PyTorch深度学习库来实现的日中机器翻译模型3.1、导入必要的库3.2、数据集准备3.3、准备分词器3.4、构建TorchText词汇表对象，并将句
【NLP 39、激活函数 ⑤ Swish激活函数】 L_cl NLP 自然语言处理人工智能
我的孤独原本是座荒岛，直到你称成潮汐，原来爱是让个体失序的永恒运动——25.2.25Swish激活函数是一种近年来在深度学习中广泛应用的激活函数，由GoogleBrain团队在2017年提出。其核心设计结合了Sigmoid门控机制和线性输入的乘积，通过引入平滑性和非单调性来提升模型性能。一、数学定义与变体1.基础形式Swish的标准表达式为：Swish(x)=x⋅σ(βx)其中：σ(x)是Sigm
机器学习(Machine Learning) 七指琴魔御清绝大数据学习
原文链接：http://blog.csdn.net/zhoubl668/article/details/42921187希望转载的朋友，你可以不用联系我．但是一定要保留原文链接，因为这个项目还在继续也在不定期更新．希望看到文章的朋友能够学到更多．《BriefHistoryofMachineLearning》介绍:这是一篇介绍机器学习历史的文章，介绍很全面，从感知机、神经网络、决策树、SVM、Ada
机器学习实战——音乐流派分类（主页有源码）喵了个AI 机器学习实战机器学习分类人工智能
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.简介音乐流派分类是音乐信息检索（MusicInformationRetrieval,MIR）中的一个重要任务，旨在通过分析音频信号的特征，将音乐自动分类到不同的流派（如古典、摇滚、爵士、流行等）。随着数字音乐平台的普及，音乐流派分类技术被广泛应用于音乐推荐、自动标签生成和音乐库管理
AI大模型零基础金融人如何一周自学大模型，从零基础到入门，看这篇就够了！冻感糕人~ 人工智能金融 AI大模型 LLM 大模型技术大模型学习路线大模型基础
前几天参加了字节跳动在上海举办的火山引擎Force原动力大会，OpenAI也连续开了12天发布会，最近堪称科技界的春晚了。如果说2022年ChatGPT横空出世把人工智能的发展带上了一个新的台阶，那么2024年末，大模型对工作、生活的全面“侵入”让我们越来越接近库兹韦尔所描述的那个奇点时刻。作为金融民工，我们想通过这篇文章讲讲从用户的角度如何一周快速掌握大模型，以及为什么我建议每一个金融从业人员（
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language UnknownBody LLM Daily Multimodal 语言模型人工智能自然语言处理
摘要深度学习的最新进展给地震监测带来了革命性变化，但开发一个能在多个复杂任务中表现出色的基础模型仍然充满挑战，尤其是在处理信号退化或数据稀缺的情况时。本文提出SeisMoLLM，这是首个利用跨模态迁移进行地震监测的基础模型，它无需在地震数据集上进行直接预训练，就能充分发挥大规模预训练大语言模型的强大能力。通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和
如何通过深度学习优化操作系统中的故障诊断与恢复机制金枝玉叶9 程序员知识储备1 程序员知识储备2 程序员知识储备3 深度学习人工智能
如何通过深度学习优化操作系统中的故障诊断与恢复机制（副标题：智能监控、自适应诊断与自动恢复——操作系统故障自愈的新方向）摘要随着现代操作系统在多核、高并发和分布式环境中的广泛应用，系统故障及其恢复问题日益成为影响系统稳定性和业务连续性的关键挑战。传统的故障诊断方法依赖于预设规则和人工干预，难以应对复杂多变的故障场景。本文提出了一种基于深度学习的故障诊断与恢复机制，通过对大量历史日志、监控数据和故障
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发 harmonyos-next
HarmonyNext实战案例：基于ArkTS的高性能分布式机器学习应用开发引言在HarmonyNext生态系统中，分布式机器学习是其核心特性之一。通过分布式机器学习，开发者可以充分利用多设备的计算资源，实现复杂模型的训练与推理。本文将深入探讨如何使用ArkTS12+语法开发一个高性能的分布式机器学习应用，涵盖从基础概念到高级技巧的全面讲解。通过本案例，您将学习到如何利用HarmonyNext的分
成功案例丨开发时间从1小时缩短到3分钟：如何利用历史数据训练AI模型，预测设计性能？ Altair澳汰尔 PhysicsAI 仿真 AI 机器学习 HyperWorks 数据分析
案例简介PhysicsAI™助力HEROMOTOCORP实现设计效率提升99%印度领先的跨国摩托车和踏板车制造商HeroMotoCorpLtd.（以下简称Hero）致力于通过将人工智能（AI）和机器学习技术融入有限元分析（FEA）流程，以加速产品开发周期。在其首个AI驱动项目——摩托车把手设计优化中，Hero采用了PhysicsAI™几何深度学习解决方案，利用历史数据训练AI模型并预测设计性能。A
关于两次项目的学习感悟罗婕斯特大数据
经过这两次项目，我学到了以下几点：1.模块化与结构化思维：代码展示了如何将深度学习任务分解为多个模块（如数据加载、模型定义、训练循环、评估等）。这种模块化的思维方式不仅适用于编程，也可以应用于解决复杂问题时的结构化思考。2.细节决定成败：代码中涉及了许多细节，如数据预处理、学习率调整、损失函数的选择等。这些细节对模型的最终性能有着重要影响。这提醒我们，在解决实际问题时，细节往往决定成败，需要耐心和
数据分析与AI丨AI Fabric：数据和人工智能架构的未来 Altair澳汰尔数据分析 ai RapidMiner 知识图谱人工智能
AIFabric架构是模块化、可扩展且面向未来的，是现代商业环境中企业实现卓越的关键。在当今商业环境中，数据分析和人工智能领域发展可谓日新月异。几乎每天都有新兴技术诞生，新的应用场景不断涌现，前沿探索持续拓展。可遗憾的是，众多企业在利用数据和人工智能方面，脚步总是滞后。这是每个行业进行创新和获得竞争优势的冲刺阶段，但正如大多数企业时常感受到的那样，大规模实施下一代数据和AI工具说起来容易做起来难。
Manus演示案例：英伟达财务估值建模解锁投资洞察的深度剖析 ylfhpy Manus 深度学习人工智能机器学习机器翻译 Manus
在当今瞬息万变的金融投资领域，精准剖析企业价值是投资者决胜市场的关键。英伟达（NVIDIA），作为科技行业的耀眼明星，其在人工智能和半导体领域的卓越表现备受瞩目。Manus凭借专业的财务估值建模能力，深入挖掘英伟达的潜在价值，为投资者提供了一份极具价值的分析报告。Manus在接到为英伟达进行详细财务估值建模的任务后，迅速且有条不紊地开展工作。数据收集是建模的基石，其重要性不言而喻。在收集英伟达公司
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
机器学习之KMeans算法 Mr终游机器学习机器学习算法 kmeans
目录一、KMeans的核心思想二、KMeans算法流程三、KMeans的关键点1.优点：2.缺点：四、如何确定最佳k值1.肘部法则2.轮廓系数五、Kmeans的典型应用场景六、代码示例KMeans是一种广泛使用的无监督学习算法，主要用于聚类分析（Clustering）。它的目标是将数据集划分为K个互不重叠的子集（簇，Cluster），使得同一簇内的数据点尽可能相似，不同簇之间的数据点尽可能差异显著
大语言模型原理基础与前沿双层路由多模态融合、多任务学习和模块化架构 AI智能涌现深度研究 AI大语言模型和知识图谱融合 Python入门实战 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿：双层路由多模态融合、多任务学习和模块化架构关键词：大语言模型、双层路由、多模态融合、多任务学习、模块化架构、神经网络、自然语言处理1.背景介绍大语言模型（LargeLanguageModels，LLMs）已经成为人工智能和自然语言处理领域的重要研究方向。随着GPT-3、BERT等模型的出现，大语言模型在各种任务中展现出了惊人的性能。然而，随着模型规模的不断扩大和应用场景的
新的一年，新的感受和成长是小天才哦 #高职生闲谈服务器
本人现在是工作快2年的打工人，我是前年7月份毕业的大专生。其实我在大学刚开始的时候因为体验过社会的毒打，所以发誓一定要好好学习，而我也的确好好学习了，在学校2年时间里，大部分时间都是在图书馆里面看书，主要为啥天天在图书馆很大原因是本专业的课程自己不是非常喜欢（我是人工智能专业，人工智能专业大专学历出来基本也是打框的无聊活）所以我就自己学习了系统运维方向，这个过程也考取了RHCE认证，也是因为这个认
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他