iamrealAI

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者

图表数据来源：

EfficientDet: https://arxiv.org/pdf/2011.08036.pdf

YOLOv3: https://arxiv.org/pdf/2011.08036.pdf

YOLOv4: https://github.com/AlexeyAB/darknet

YOLOv4-Scaled: https://github.com/WongKinYiu/ScaledYOLOv4

YOLO-PPv2: https://arxiv.org/pdf/2104.10419.pdf

YOLOv5: https://arxiv.org/pdf/2104.10419.pdf

YOLOX: https://github.com/Megvii-BaseDetection/YOLOX

YOLOR: https://github.com/WongKinYiu/yolor

YOLOF: https://arxiv.org/pdf/2103.09460.pdf

YOLOS: https://arxiv.org/pdf/2106.00666.pdf

YOLOP: https://arxiv.org/pdf/2108.11250.pdf

图表统计时间：2021年11月-12月

本篇文章是对目标检测YOLO系列的性能总结，主要介绍了2021年YOLO系列的最高精度YOLOR是怎样炼成的。

YOLOR出自论文You Only Learn One Representation: Unified Network for Multiple Tasks，受人类学习方式（使用五官，通过常规和潜意识学习，总结丰富的经验并编码存储，进而处理已知或未知的信息）的启发，本篇论文提出了一个统一的网络来同时编码显式知识和隐式知识，在网络中执行了kernel space alignment（核空间对齐）、prediction refinement（预测细化）和 multi-task learning（多任务学习），同时对多个任务形成统一的表示。结果表明神经网络中引入隐式知识有助于所有任务的性能提升，进一步的分析发现隐式表示之所以能带来性能提升，是因为其具备了捕获不同任务的物理意义的能力。

paper: https://arxiv.org/abs/2105.04206

code: https://github.com/WongKinYiu/yolor

论文作者 | Kin-Yiu Wong等

一、YOLOR思想动机

图1：人可以根据同一幅输入图像回答不同问题，本文也旨在训练一个单一的神经网络来服务于多个任务。

如图1所示，人可以从多个角度来分析同一个目标，然而通常训练CNN时只给予了一个角度，也就是说针对某一个任务得到的CNN特征很难适用于其他问题。作者认为造成上述问题的原因主要是模型只提取了神经元特征而丢弃了隐式知识的学习运用，然而就像人脑一样隐式知识对分析各种各样的任务是非常有用的。

人类对隐式知识的学习通常通过潜意识，然而并没有系统的定义怎样学习和获得隐式知识。对于神经网络而言，一般将浅层特征定义为显式知识，深层特征定义为隐式知识。本文将直接可观察的知识定义为显式知识，隐藏在神经网络中且无法观察的知识定义为隐式知识。

图2：多目的神经网络架构。（a）不同任务对应不同模型；（b）不同任务共享骨干网络，使用不同的输出头；（c）本文提出的统一网络：融合显式知识和隐式知识的一个表征服务多个任务。

如图2所示，本文提出了一个统一的网络来集成显式知识和隐式知识，通过学习统一的表达，使得各个子表示能够适用于不同任务。基于前人工作的理论基础，本文结合压缩感知和深度学习来构建统一网络。

本文主要贡献如下：

1. 提出了一个可同时完成多种任务的统一网络，它通过融合显式知识和隐式知识学习一个可以完成多个任务的统一表征，提出的网络可以有效的提升模型的表现，仅增加千分之一不到的计算成本；

2. 通过 kernel space alignment（核空间对齐）、prediction refinement（预测细化）和 multi-task learning（多任务学习）来完成隐式知识的学习，并验证了其有效性；

3. 分别讨论了隐式知识的建模方式，包括向量、神经网络、矩阵分解，并验证了这些方式的有效性；

4. 证实了所提出的内隐表征学习方法能够准确地对应于特定的物理特征，并以视觉的方式进行了呈现；还证实了如果算子符合目标的物理意义，它可以用来整合隐式知识和显式知识，并会产生乘数效应；

5. 与SOTA比较，YOLOR能够实现和目标检测Scaled-YOLOv4-P7一样的精度，但是推理速度快了88%。

二、隐式知识学习

2.1 隐式知识如何工作

隐式表征 $\textbf{z}_{i}$ 是与观察不相关的，它可以是一个常量tensor $Z = \left\{\textbf{z}_{1},\textbf{z}_{2},...,\textbf{z}_{k} \right\}$ 。下面将介绍隐式知识是如何作为一个常量tensor在多个任务中作用的。

流形空间约简

图3：流形空间约简

一个好的表征应该能够在它所属的流形空间中找到一个合适的投影，并有助于后续目标任务的顺利完成。如图3所示，如果在投影空间中利用超平面能成功地对目标类别进行分类，那将是最好的结果。在图3所示例子中，可以利用投影向量的内积和隐式表示来达到降低流形空间维度的目的，并有效地完成各种任务。

核空间对齐

图4：核空间对齐

在多任务和多头神经网络中，核空间不对齐是经常发生的问题，图4（a）展示了一个多任务多头神经网络核空间不对齐的例子。为了解决这个问题，如图4（b）所示，可以对输出特征和隐式表征进行加法和乘法运算，这样就可以对核空间进行变换、旋转和缩放，以对齐神经网络的每个输出核空间。该方法广泛用于多个领域，比如说FPN中大目标与小目标的特征对齐、知识蒸馏中大模型与小模型的整合、处理zero-shot域迁移等问题。

更多功能和处理方式

图5：更多功能和处理方式

除了可以应用于不同任务的功能外，隐式知识还可以扩展为更多的功能。如图5所示，通过引入加法，可以使神经网络预测中心坐标的偏移；还可以引入乘法来自动搜索锚框的超参数集，这是基于锚框的目标检测器经常需要的；此外，可以分别使用点乘和concat来执行多任务特征选择并为后续计算设置前提条件。

2.2 隐式知识统一网络建模

本节通过比较卷积网络和所提的统一网络，解释为什么在训练多任务网络中引入隐式知识是重要的，并详述实现细节。

隐式知识的表示

Conventional Networks:

图6：建模误差项

传统神经网络可以由以下公式（1）表示，其中为目标，为观测量， $f_{\theta}$ 表示神经网络操作， $\theta$ 是神经网络学习的参数， $\epsilon$ 是误差项：

训练过程中最小化 $\epsilon$ ，这表示我们期望同一目标的不同观测值是 $f_{\theta}$ 所得到的子空间中的一个点，如图6（a）所示。换言之，我们期望得到的解空间只对当前任务 $t_{i}$ 有区别，对各种潜在任务中除 $t_{i}$ 以外的任务是不变的，其中 $T = \left\{ t_{1} , t_{2} ,..., t_{n} \right\}$ 。（解释：以图6（a）为例，不同颜色的圆形解空间只对不同颜色的形状任务 $T = \left\{ t_{green-square}, t_{blue-triangle}, t_{yellow-diamond} \right\}$ 有变化，比如绿色方形对应绿色圆形，而蓝色三角形对应结果就变化成了蓝色圆形，但是对绿色方形类内的不同观测值（潜在任务），如位置的变化，其对应的解空间是不变的。）

对于更通用的神经网络，我们希望获得的表征可以服务于其他所有属于的任务（既各种潜在任务），因此需要松弛 $\epsilon$ ，以便能够在流形空间上同时找到每个任务的解，如图6（b）所示。然而，上述要求使得我们不可能用简单的数学方法，如一个热独向量的最大值或欧氏距离的阈值来求解 $t_{i}$ 。为了解决这个问题，我们必须对错误项进行建模，以便为不同的任务找到解决方案，如图6（c）所示。

Unified Networks:

为了训练所提出的统一网络，作者将显式知识和隐式知识结合起来对误差项进行建模，然后用它来指导多用途网络的训练过程，训练公式如下：

其中 $\epsilon_{ex}$ 和 $\epsilon_{im}$ 分别建模来自观察量的显式误差和来自隐编码的隐式误差， $g_{\phi}$ 这是一个特定于任务的操作，用于从显式知识和隐式知识中组合或选择信息。

有一些现有的方法来整合显性知识到 $f_{\theta}$ ，所以将公式（2）重写为公式（3）：

其中 $\star$ 表示一些可以融合 $f_{\theta}$ 和 $g_{\phi}$ 的操作，本文所使用的操作包括相加、相乘、concat。

如果把误差项的推导过程推广到处理多个任务，可以得到如下等式：

其中 $\textbf{Z} = \left\{\textbf{z}_{1}, \textbf{z}_{2}, ... , \textbf{z}_{T},\right\}$ 是一个用于不同任务的隐式潜编码集合， $\Phi$ 是用于从生成隐式表征的参数， $\Psi$ 是用来从显示表征和隐式表征的不同组合计算最终的输出参数。

对于不同的任务，可以使用以下公式获得所有 $\textbf{z} \in \textbf{Z}$ 的预测：

对于所有任务，以一个共同统一的表征 $f_{\theta}\left(\textbf{x}\right)$ 开始，然后进入基于任务而不同的隐式表征 $g_{\Phi}\left(\textbf{z}\right)$ ，最后用任务特定的判别器 $d_{\Psi}$ 完成不同的任务。

隐式知识的建模

本文提出的隐式知识可用图7所示几种方式建模：

图7：本文提出的3种建模隐式知识的方式，第一行显示了这三种不同建模方法的形成过程，第二行显示了它们对应的数学属性。（a）向量：单基，每个维度彼此独立；（b）神经网络：单基或多基，维度之间相互关联；（c）矩阵分解：多基，每个维数彼此独立。

向量/矩阵/张量

如图7（a）利用向量/矩阵/张量直接作为隐式知识的先验，直接作为隐式表示。此时，必须假设每个维度彼此独立。

神经网络

如图7（b）利用向量/矩阵/张量作为隐式知识的先验，然后利用权重矩阵进行线性或非线性组合形成隐式表示。此时，必须假设每个维度相互依赖。也可以使用更复杂的神经网络来生成隐式表示。或者用马尔可夫链来模拟不同任务之间隐式表示的相关性。

矩阵分解

如图7（c）利用多个向量/矩阵/张量作为隐式知识的先验，这些隐式先验基和系数构成隐式表示。还可以进一步对进行稀疏约束，将其转化为稀疏表示形式。此外，还可以对和施加非负约束，将它们转化为非负矩阵分解（）形式。

训练

假设模型没有任何的先验隐式知识，既隐式知识对显式表示 $f_{\theta}\left(\textbf{x}\right)$ 没有任何影响。当融合操作为相加和concat时，初始化隐式先验 $\textbf{z} \sim N\left(0, \sigma \right)$ ，如果融合方式为相乘，则初始化为 $\textbf{z} \sim N\left(1, \sigma \right)$ ，其中 $\sigma$ 是一个接近0的很小的值，和 $\Phi$ 都通过反向传播算法进行训练更新。

推理

由于隐式知识与观察量无关，无论内隐模型 $g_{\Phi}$ 有多复杂，在执行推理阶段之前，它都可以被简化为一组常数张量，也就是说隐式信息不会影响算法的计算复杂度。当隐式操作是通过相乘进行，如果后续层是卷积层，本文使用公式（9）进行整合操作；当操作是相加，如果前面的层是卷积层且没有激活函数，则使用公式（10）进行整合。

三、实验

3.1 实验设置

图8：统一网络模型结构

本文通过FPN中的feature alignment（特征对齐）、目标检测中的prediction refinement（预测细化）、单模型中的multi-task learning（多任务学习）来应用implicit knowledge（隐式知识）（注：本文的多任务学习指特征嵌入、多标签图像分类和目标检测）。使用YOLOV4-CSP作为baseline model，隐式知识添加位置如图8所示，所有训练超参数与Scaled-YOLOv4一致。

3.2 FPN特征对齐

使用简单的向量隐式表征和加法算子，在FPN的每一个特征映射层添加隐式知识进行特征对齐，各个指标获得到了有意义的提升，如表1所示。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第10张图片

表1：特征对齐消融研究

3.3 目标检测预测细化

使用简单的向量隐式表征和加法算子，在YOLO的每一个输出层添加隐式知识进行预测细化，大部分指标都获得到了一定的增益，如表2所示。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第11张图片

表2：预测细化消融研究

图9展示了隐式表征的引入如何影响检测结果（注：论文中对如何影响的检测结果并么有做进一步解释）。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第12张图片

图9：预测细化学习到的隐式表征的值

3.4 多任务规范表征

当需要同时训练一个被多个任务共享的模型时，由于损失函数的联合优化过程是必须执行的，因此在执行过程中往往会出现多方相互拉动的情况，这种情况将导致最终的整体性能比单独训练多个模型然后集成它们要差。为了解决这个问题，作者提出为训练多任务训练一个规范的表征，通过给每个任务分支引入隐式表征增强表征能力，表3展示了使用简单的向量隐式表征和加法算子进行不同联合训练方式的结果，（检测和特征嵌入联合训练，引入加法隐式表征）取得了最好的对比结果。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第13张图片

表3：多任务联合学习消融研究

3.5 隐式知识建模不同算子比较

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第14张图片

图10：隐式建模算子：（b）相加（c）相乘（d）串联

表4显示了图10中不同算子融合显式表征与隐式表征的结果。

在特征对齐实验中，相加与串联（concat）操作能够提升性能表现，相乘有所下降。特征对齐的实验结果完全符合其物理特性，因为它必须处理全局偏移和所有单个簇的缩放。

在预测细化实验中，由于concat会增加输出维度，所以只比较相加与相乘的效果，在这里相乘的效果更好。这是由于中心偏移在执行预测时使用加法解码，而锚框尺度使用乘法解码，而中心坐标是以网格为界的，影响较小，但人工设置的锚框具有较大的优化空间，因此改进更为显著。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第15张图片

表4：不同算子消融研究

基于上面的分析，作者设计了另外两个实验。在第一个实验中，作者通过锚框聚类来划分特征空间，并执行相乘细化，第二个实验中，作者只在width和height上执行相乘细化。结果如表5所示，发现经过相应的修改，各项指标都得到了提高。实验表明，在设计显式知识与隐式知识的结合时，首先要考虑结合层的物理意义，以达到更好的效果。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第16张图片

表5：不同算子消融研究

3.6 隐式知识建模不同方式比较

本文尝试了向量、神经网络和矩阵分解三种建模隐式知识的方式，发现三种建模方式都带来了不同程度的性能提升，其中矩阵分解效果最好，不同建模隐式知识的潜力也值得进一步挖掘。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第17张图片

表6：不同建模方式消融研究

3.7 隐式知识模型分析

如表7和图11所示，引入隐式知识，仅增加不到万分一的参数量和计算量，模型性能得到有意义的提升，同时收敛更快。

表7：模型信息比较

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第18张图片

图11：学习曲线比较

3.8 隐式知识提升目标检测

按照Scaled-YOLOv4训练过程，先从头训练 300 epochs，然后微调150 epochs，表8展示了目标检测中引入隐式知识的优势。表9与SOTA方法进行了比较，值得注意的是YOLOR并没有增加额外的数据和标注做训练，只通过引入隐式知识的统一网络，YOLOR不仅达到了足可以和SOTA方法比拟的结果，而且速度非常快。

表8：隐式知识增益

表9：SOTA比较

四、总结

本文介绍了如何构造一个隐式知识与显示知识相结合的统一网络，并通过目标检测YOLOR证明了它在单模型结构下对多任务学习的有效性。在未来，作者计划将把训练扩展到多模型和多任务，如图12所示。

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者_第19张图片

图12：多任务多模型统一网络

五、点评

1. 本文借鉴人学习知识的方式，提出了神经网络的显式知识学习和隐式知识学习，视角还是比较新颖的。

2. 隐式知识学习的实现方式巧妙的使用了神经网络的一些常规操作，但其实现方式是否真正达到了隐式知识学习的构想，虽有一定的实验论证，但值得更进一步的挖掘探讨。

3. 引入隐式知识的YOLOR取得了精度的提升，但论文中提升的精度还是比较有限的，但从其速度翻倍的角度应该也某种程度上体现了所提方法的有效性吧，另外下面这幅对比图中的精度top3来自github中的实现，还并未体现在论文中，期待作者后续的更多工作。

如果说2021年YOLO系列的最强王者是YOLOR，那么2022又会出现哪些挑战者，带来哪些精彩的工作，是否会有你的身影（致敬YOLO留给变体的命名机会已经不多了），让我们翘首以盼拭目以待！

基于opencv消除图片马赛克小苗爸爸 opencv 人工智能计算机视觉
以下是一个基于Python的图片马赛克消除函数实现，结合了图像处理和深度学习方法。由于马赛克消除涉及复杂的图像重建任务，建议根据实际需求选择合适的方法：importcv2importnumpyasnpfromPILimportImagedefremove_mosaic(image_path,output_path,method='traditional',block_size=10,scale_f
【AI深度学习基础】Pandas完全指南入门篇：数据处理的瑞士军刀（含完整代码） arbboter 人工智能人工智能深度学习 pandas 数据处理数据分析数据清洗数据分析效率提升
Pandas系列文章导航入门篇进阶篇终极篇一、引言在大数据与AI驱动的时代，数据预处理和分析是深度学习与机器学习的基石。Pandas作为Python生态中最强大的数据处理库，以其灵活的数据结构（如DataFrame和Series）和丰富的功能（数据清洗、转换、聚合等），成为数据科学家和工程师的核心工具。Pandas以Series（一维标签数组）和DataFrame（二维表格）为核心数据结构，提供高
对“预训练”的理解衣衣困深度学习神经网络自然语言处理
预训练有什么用传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。预训练可以节省
《YOLOv12魔术师专栏》专栏介绍 & 专栏目录 AI小怪兽 YOLOv8 11 v12成长师 YOLO 深度学习人工智能目标检测计算机视觉
《YOLOv12魔术师专栏》将从以下各个方向进行创新（更新日期25.03.05）：【原创自研模块】【多组合点优化】【注意力机制】【主干篇】【neck优化】【卷积魔改】【block&多尺度融合结合】【损失&IOU优化】【上下采样优化】【小目标性能提升】【前沿论文分享】【训练实战篇】订阅者可以申请发票，便于报销定期向订阅者提供源码工程+windows编译好的环境，配合博客使用《YOLOv12魔术师专栏
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元 jingwang-cs 人工智能人工智能后端
赋能农业数字化转型用DeepSeek大模型开启智慧农业新纪元当农业遇见DeepSeek大模型：从经验驱动到数据智能的跨越传统农业依赖“看天吃饭”，而「智慧农业」平台依托公司自主研发的农业大模型，深度融合DeepSeek前沿AI技术，构建“数据-模型-决策”全链路智能服务体系。通过深度学习历史种植数据、气象信息、土壤墒情等多维农业要素，平台可精准预测病虫害风险、产量波动及市场趋势，为农户提供科学种植
AI创业机遇：垂直领域无限可能 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI创业垂直领域机器学习深度学习自然语言处理计算机视觉无人驾驶1.背景介绍人工智能（AI）正在各行各业掀起一场革命，为创业者带来了前所未有的机遇。垂直领域，即特定行业或细分市场，正在成为AI创业的热门选择。本文将深入探讨AI在垂直领域的应用，并提供实用的指南，帮助读者把握AI创业机遇。2.核心概念与联系2.1AI与垂直领域AI在垂直领域的应用，需要理解AI与垂直领域的关系。AI可以为垂直领域提供智
DeepSeek人工智能领域的创新先锋与变革力量 CodeJourney. 数据库算法人工智能
在科技飞速发展的时代，人工智能（AI）无疑是最具变革性的力量之一。DeepSeek作为人工智能领域的关键参与者，正以其独特的技术路径和创新理念，深刻影响着行业的发展格局。深入解读相关信息，能让我们更全面地认识DeepSeek在人工智能领域的重要贡献、技术优势、发展战略以及其带来的广泛影响。一、DeepSeek的技术突破与创新（一）核心技术成就DeepSeek在自然语言处理（NLP）和计算机视觉等人
YOLO 银行柜员业务助手鱼弦人工智能时代 YOLO
YOLO银行柜员业务助手介绍YOLO（YouOnlyLookOnce）是一种实时目标检测算法，因其快速、准确的特点，被广泛应用于各种领域。在银行环境中，YOLO可以帮助自动识别和处理柜台上出现的文档、货币等物品，从而支持柜员进行高效、安全的操作。这类系统能够减少人为错误，提高客户服务质量。应用使用场景文件和票据识别：自动检测和分类客户提供的文件和票据。货币识别与计数：自动识别并记录不同面额的钞票，
深度学习代码分析——自用肆—— 深度学习人工智能笔记
代码来自：https://github.com/ChuHan89/WSSS-Tissue?tab=readme-ov-file借助了一些人工智能1_train_stage1.py代码功能总览该代码是弱监督语义分割（WSSS）流程的Stage1训练与测试脚本，核心任务是通过多标签分类模型生成图像级标签，为后续生成伪掩码（Pseudo-Masks）提供基础。代码分为train_phase和test_p
Python | Pytorch | Tensor知识点总结漂亮_大男孩 Python拾遗 python pytorch 深度学习人工智能
如是我闻：Tensor是我们接触Pytorch了解到的第一个概念，这里是一个关于PyTorchTensor主题的知识点总结，涵盖了Tensor的基本概念、创建方式、运算操作、梯度计算和GPU加速等内容。1.Tensor基本概念Tensor是PyTorch的核心数据结构，类似于NumPy的ndarray，但支持GPU加速和自动求导。PyTorch的Tensor具有动态计算图，可用于深度学习模型的前向
一文讲清楚自我学习和深度学习平凡而伟大(心之所向) 人工智能人工智能深度学习机器学习
自我学习（Self-Learning）和深度学习（DeepLearning）是两个不同的概念，但它们在某些应用场景中可以有交集。下面我们将分别介绍这两个概念，并探讨如何将它们结合起来用于自我学习系统。自我学习（Self-Learning）自我学习是指个体或系统通过自主探索、实践和反思来获取知识和技能的过程。它强调的是无需外部直接指导的学习方式，通常包括以下几个方面：自主性：学习者根据自己的兴趣、需
运行时候的导包搜索路径虽然pycharm中标红但不影响程序的执行火星种萝卜 python实践深度学习人工智能
在pycharm中报如下包找不到frommodels.yolo_layerimportYoloLayer，但是该行的前面已经导入了搜包的路径，运行时并不报错，只是pycharm在分析静态代码结构层面会标红提示找不到包importosimportsysPACKAGE_PARENT='..'SCRIPT_DIR=os.path.dirname(os.path.realpath(os.path.join
深度学习数据集封装-----目标检测篇科研小天才深度学习目标检测人工智能
前言在上篇文章中，我们深入探讨了图像分类数据集的制作流程。图像分类作为计算机视觉领域的一个基础任务，通常被认为是最为简单直接的子任务之一。然而，当我们转向目标检测任务时，复杂度便显著提升，尤其是在标注框的处理环节。不同的模型架构往往对标注框的处理方式有着各自独特的要求。以YOLO系列为例，它自有一套成熟且高效的方法来应对这一挑战。鉴于篇幅有限，本文暂不深入展开YOLO的相关内容，感兴趣的读者可以查
深入理解 Transformer：用途、原理和示例范吉民(DY Young) 简单AI学习 transformer 深度学习人工智能
深入理解Transformer：用途、原理和示例一、Transformer是什么Transformer是一种基于注意力机制（AttentionMechanism）的深度学习架构，在2017年的论文“AttentionIsAllYouNeed”中惊艳登场。它打破了传统循环神经网络（RNN）按顺序处理序列、难以并行计算以及卷积神经网络（CNN）在捕捉长距离依赖关系上的局限，另辟蹊径地采用多头注意力机制
深度学习算法模型：从原理到未来 YDH_AlwaysRunning 深度学习
近年来，人工智能（AI）技术以前所未有的速度改变着人类生活，而深度学习的崛起无疑是这场技术革命的核心驱动力。从手机中的语音助手到医学影像的智能诊断，从自动驾驶汽车到生成式AI创作的诗歌和画作，深度学习算法模型正逐渐渗透到社会的每个角落。本文将从基本原理出发，解析典型模型的运作机制，探讨其应用现状与发展趋势，带您全面认识这一改变世界的技术。一、深度学习的基本原理：让机器学会"思考"1.1神经网络的生
预训练模型微调与下游任务迁移学习技术 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习技术近年来在计算机视觉、自然语言处理等领域取得了飞速发展,这离不开大规模预训练模型的贡献。预训练模型通过在海量数据上的自监督学习,学习到了丰富的特征表示,为下游任务提供了强大的初始化。而对预训练模型进行有效的微调,可以充分利用预训练知识,在有限数据上快速达到出色的性能。此外,迁移学习技术也为模型在不同任务间的知识复用提供了有效途径。本文将详细介绍预训练模型微调与下游任务迁移学习
大模型推理速度测评的实战代码 herosunly 大模型推理速度人工智能实战代码
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。今天给大家带来的文章是大模型推理速度测评的实战代码，希望能对学习大模型的同学们有所帮助
微调（Fine-tuning）路野yue 人工智能深度学习
微调（Fine-tuning）是自然语言处理（NLP）和深度学习中的一种常见技术，用于将预训练模型（Pre-trainedModel）适配到特定任务上。它的核心思想是：在预训练模型的基础上，通过少量任务相关的数据进一步训练模型，使其更好地适应目标任务。1.微调的核心思想预训练模型：像BERT、GPT这样的模型，已经在大量通用文本数据上进行了预训练，学习到了丰富的语言知识（如语法、语义、上下文关系等
软件设计和软件架构之间的区别前网易架构师-高司机软件架构软件设计系统架构
作者简介：高科，先后在IBMPlatformComputing从事网格计算，淘米网，网易从事游戏服务器开发，拥有丰富的C++，go等语言开发经验，mysql，mongo，redis等数据库，设计模式和网络库开发经验，对战棋类，回合制，moba类页游，手游有丰富的架构设计和开发经验。并且深耕深度学习和数据集训练，提供商业化的视觉人工智能检测和预警系统（煤矿，工厂，制造业，消防等领域的工业化产品），合
计算机视觉｜ConvNeXt：CNN 的复兴，Transformer 的新对手紫雾凌寒 AI 炼金厂 #计算机视觉 #深度学习机器学习计算机视觉人工智能 transformer ConvNeXt 动态网络神经网络
一、引言在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetworks，简称CNN）长期以来一直是核心技术，自诞生以来，它在图像分类、目标检测、语义分割等诸多任务中都取得了令人瞩目的成果。然而，随着VisionTransformer（ViT）的出现，计算机视觉领域的格局发生了重大变化。ViT通过自注意力机制，打破了传统卷积神经网络的局部感知局限，能够捕捉长距离依赖关系，在图
【目标检测】工地扬尘检测数据集3832张YOLO+VOC格式不会仰游的河马君目标检测 YOLO 人工智能工地扬尘数据集
【目标检测】工地扬尘检测数据集3832张YOLO+VOC格式数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：3832Annotations文件夹中xml文件总计：3832labels文件夹中txt文件总计：3832标签种类数：1标签名称:["dust"]每个标签的框数（注意yolo格式类别顺序不和这个对应，而以
基于PyTorch的深度学习2——Numpy与Tensor Wis4e 深度学习 pytorch numpy
Tensor自称为神经网络界的Numpy，它与Numpy相似，二者可以共享内存，且之间的转换非常方便和高效。不过它们也有不同之处，最大的区别就是Numpy会把ndarray放在CPU中进行加速运算，而由Torch产生的Tensor会放在GPU中进行加速运算。1.创建创建Tensor的方法有很多，可以从列表或ndarray等类型进行构建，也可根据指定的形状构建。importtorch#根据list数
【北上广深杭大厂AI算法面试题】深度学习篇...Squeeze Excitation（SE）网络结构详解，附代码。（二）努力毕业的小土博^_^ AI算法题库人工智能算法深度学习神经网络 cnn
【北上广深杭大厂AI算法面试题】深度学习篇…SqueezeExcitation（SE）网络结构详解，附代码。（二）【北上广深杭大厂AI算法面试题】深度学习篇…SqueezeExcitation（SE）网络结构详解，附代码。（二）文章目录【北上广深杭大厂AI算法面试题】深度学习篇...SqueezeExcitation（SE）网络结构详解，附代码。（二）SqueezeExcitation（SE）网络
【计算机视觉】手势识别油泼辣子多加计算机视觉计算机视觉 opencv 人工智能
手势识别是计算机视觉领域中的重要方向，通过对摄像机采集的手部相关的图像序列进行分析处理，进而识别其中的手势，手势被识别后用户就可以通过手势来控制设备或者与设备交互。完整的手势识别一般有手的检测和姿态估计、手部跟踪和手势识别等。一、手掌检测importcv2importmediapipeasmp#初始化MediaPipe手部模型mp_hands=mp.solutions.handshands=mp_
GPU与CPU：架构对比与技术应用解析 Hello.Reader 运维其他架构
1.引言1.1为什么探讨GPU与CPU的对比？随着计算技术的不断发展，GPU（图形处理单元）和CPU（中央处理单元）已经成为现代计算机系统中最重要的两个组成部分。然而，随着应用场景的多样化和对性能需求的提高，这两种处理器的角色正在逐渐发生变化。GPU以其强大的并行计算能力，在深度学习、图像处理和科学计算等领域迅速崛起，而CPU则在通用计算任务中保持其核心地位。了解GPU与CPU的设计差异和适用场景
AI人工智能代理工作流AI Agent WorkFlow：搭建可拓展的AI代理工作流架构 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
AI人工智能代理工作流AIAgentWorkFlow：搭建可拓展的AI代理工作流架构1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，特别是机器学习和深度学习技术的广泛应用，构建高度智能且自动化的代理系统成为了一个迫切的需求。这些代理系统能够自主地进行决策、执行任务并适应不断变化的环境。然而，现有的代理系统往往在面对复杂任务时缺乏灵活性和可扩展性，这限制了它们在实际应用中的广泛部署和大规模应
Java 中 VO、POJO、DTO 的区别详解 ♢.＊ java 开发语言
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在Java开发的广阔领域中，准确理解和
树莓集团现状最新进展：宜宾园区业务再添新篇树莓集团百度人工智能科技大数据媒体
树莓集团在不断发展的进程中，宜宾园区传来了最新进展，业务再添新篇。近期，树莓集团宜宾园区在人工智能领域取得了重大突破。园区内的研发团队成功研发出一款适用于工业检测的人工智能视觉系统。该系统利用深度学习算法，能够快速、准确地检测出工业产品表面的细微缺陷，检测精度比传统检测方法提高了30%。这一成果不仅提升了宜宾园区在智能制造领域的竞争力，还为当地的制造业企业提供了更先进的质量检测手段。目前，已有多家
【Python】OpenCV算法使用案例全解岱宗夫up 教学 opencv 计算机视觉人工智能算法
OpenCV算法使用案例全解前言OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，它提供了大量的图像和视频处理功能。从简单的图像滤波到复杂的三维重建，OpenCV涵盖了计算机视觉领域的众多算法。本文将详细介绍OpenCV中常见算法的使用案例，帮助读者更好地理解和应用这些强大的工具。一、图像处理基础（一）滤波操作滤波是图像处理中最基
python数据分析入门与实战王静_Keras快速上手：基于Python的深度学习实战 weixin_39724362
1准备深度学习的环境11.1硬件环境的搭建和配置选择.........................11.1.1通用图形处理单元..........................31.1.2你需要什么样的GPU加速卡....................61.1.3你的GPU需要多少内存.......................61.1.4是否应该用多个GPU..............
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

【论文解读】YOLOR: 2021年YOLO系列目标检测的最强王者

你可能感兴趣的:(论文解读,计算机视觉,深度学习,目标检测,计算机视觉,深度学习,YOLO,YOLOR)