奥比中光3D视觉开发者社区

【ECCV2022】如何解决3D检测中长尾问题？

作者|汽车人编辑|3D视觉开发者社区

题目：Improving the Intra-class Long-tail in 3D Detection via Rare Example Mining

作者：waymo

摘要

深度学习体系结构的不断改进使得3D目标检测器的整体性能稳步提升，在某些任务和数据集中，其整体性能主要由常见样本驱动，达到了与人类相当的水平。然而，即使是性能最好的模型，在遇到训练数据中不经常出现的罕见样本时，比如几何形状不规则的车辆，也会犯最幼稚的错误。长尾文献中的大多数研究集中在类别不平衡的分类问题上，已知每个类别的标签数目不平衡，但这些研究并不直接适用于类内变化较大的问题(如3D目标检测)的类内长尾样本，这些问题中，具有相同类别标签的实例可能具有截然不同的属性（如形状和大小）。其他文章提出，以不确定性、难度或多样性为标准，采用主动学习来缓解这一问题。在本项研究中，作者确定了一个新的概念维度-稀疏-挖掘新的数据，以提高模型在长尾问题上的表现。作者表明，稀有性，而不是困难性，是以数据为中心的3D 检测器改进的关键，因为稀有性是缺乏数据支持的结果，而困难性与问题的基本模糊性有关。提出了一种基于流模型的特征空间密度估计的稀有目标识别方法，并提出了一种基于代价感知的稀有目标tracks挖掘方法，提高了模型的整体性能，更重要的是显著提高了稀有目标的性能(提高了30.97%)。

介绍

长尾学习是应用机器学习中一个具有挑战性的重要课题，特别是在自动驾驶或医疗诊断等安全关键应用方面。然而，尽管文献中已经大量研究了不平衡分类问题，但在定义、识别和改进类内罕见实例方面的工具却很有限，例如不规则形状的车辆或穿着万圣节服装的行人，因为它们来自一个多样化的开放集合，除了普通目标之外的任何东西。灵感来自列夫·托尔斯泰的著名作品，作者观察到：“常见的目标都是一样的；每一个罕见的目标都有其独特的方式”。

作者指的是类内长尾这种罕见实例的领域，在这种情况下，没有预先指定的基于类频率的稀有度测量。由于类内长尾目标的安全相关性，它在3D检测中具有特殊的重要性。虽然现代3D检测器的整体性能可能相当高，但作者注意到，即使是完全监督的模型，在罕见的子集数据，如大型车辆(如下图)表现明显更差。

这个问题因为半监督学习而更加严重，这是一种在更大的数据集上快速扩展模型的流行且具有成本效益的方法，平均性能表明，是有少量有标注数据的半监督方法已经和全监督方法不相上下了。

这里有一些挑战使得有针对性的改进类内长尾的3D检测变得困难。首先，由于box回归是目标检测的一个重要方面，传统的利用类频率的长尾学习方法，或者利用依赖于分类输出分布的熵或边际不确定性的主动学习方法都不适用。其次，由于给定一个运行段的标注成本与标注的实例tracks的数量成正比，而不是帧，作者需要一个更细粒度的挖掘方法，它可以优雅地处理场景中目标丢失的标签。最后但并非最不重要的是，不同于不平衡分类任务的长尾问题，它是具有挑战性的定义哪些样本属于类内长尾，这导致难以评估和挖掘额外的数据，以改善这些模型的长尾性能。针对这些挑战，作者提出了一种可推广但有效的方法来度量和定义稀有度为潜在特征空间中实例的密度。作者发现，正规化流模型对于特征密度估计非常有效，对于异常检测估计也非常稳健，这与之前的研究相反，正规化流模型直接用于高维图像输入，在异常检测上得到了负面结果[38]。作者提出了一种基于稀有准则的tracks级数据挖掘和主动学习的成本敏感公式，因为3D目标标注成本通常与每个运行段中唯一tracks的数量成正比。作者结合强大的offboard 3D自动标签器[40,58]来填充缺失的数据，并与困难、不确定性或基于启发式的主动学习基线相比，有更强的模型改进，特别是对于尾分布中的目标。

此外，作者研究稀有性作为一种新的数据挖掘标准，相对于传统的不确定性或基于错误的挖掘方法。虽然模型往往表现不佳，无论是罕见的或难例，作者注意到一个明确的区别，概念之间的罕见与难例。在这个讨论中，“稀有”映射到认知不确定性（可约误差），其中模型由于缺乏训练集中的数据支持而不确定，而“难例”映射到偶然不确定性（不可约误差），其中模型由于给定问题的基本模糊性和不确定性而不确定，例如，如果目标目标被严重遮挡。作者进一步说明，虽然传统的不确定性估计（例如合成方法）将揭示难例目标和稀有目标，但过滤出难例将导致稀有实例的显着更高浓度，这显着提高了主动学习性能，强调了稀有实例在主动学习中的重要性。

总之，这项工作的主要贡献是:

作者确定稀有性作为数据挖掘和主动学习的新标准，为提高模型在有很大的类内变化场景的性能问题，如3D目标检测。
作者提出了一个有效的方法来识别罕见的目标估计潜在的特征密度使用流模型，并证明了估计的对数概率，已知的罕见子类和模型性能之间的强相关性。
作者提出了一个细粒度，cost-ware，跟踪级别的3D检测挖掘方法，使用功能强大的offboard 3D自动标注器在部分标注的框架中注释未标注的目标，相比传统的半监督基线，在类内长尾子类别中获得了强大的性能提升(30.97%)。

方法

作者提出了一种通用而有效的基于数据密度估计的稀有实例挖掘方法，作者称之为以数据为中心的稀有实例挖掘(REM)。为了进一步深入了解与困难相关的稀有性，作者提出了另一种概念上简单而有效的方法，通过简单地从整体不确定的样本中过滤出难例来挖掘稀有的样本。后面内容中，作者展示了结合这两种方法可以进一步提高长尾性能。最后但并非最不重要的是，作者提出了一个cost-aware，细粒度的tracks级主动学习方法，聚集每个tracks稀有度作为让人工标注的选择标准，并利用一个强大的offboard 3D 自动标注器未挖掘的、未标注的tracks，重新训练模型时，可以最大限度地发挥所有数据的效用。

稀有样本挖掘

**以数据为中心的稀有样本挖掘(D-REM)**以数据为中心的 REM 背后的主要直觉是，在学习特征embeddings空间中测量每个样本的密度，作为稀有性的指标。完整的以数据为中心的 REM 工作流程(见下图)包括以下步骤。

首先，作者在现有的全标注数据上预训练检测模型，这些数据无法充分表示长尾样本；第二，使用预训练好的任务模型对源数据和大量未标注的数据进行推理，并通过感兴趣区域(Region-of-interest，ROI)pooling提取每个实例的原始特征向量，然后进行主成分分析(PCA)降维和归一化。然后作者在特征向量上训练一个规范化流模型来估计数据挖掘的每个实例的稀疏性（负对数概率）。

目标特征提取：如前所述，作者提出的估计罕见样本的方法与文献中未能成功使用标准化流来进行分布外检测的早期工作相比，一个主要区别是作者提出在预训练模型的潜在特征空间中估计每个实例的概率密度，以利用目标之间的语义相似性来区分罕见实例。正如 Kirichenko 等人[29]所观察到的，直接在高维原始输入特征上训练的规范化流倾向于更多地关注局部像素相关性而不是语义，因为它不利用高级embeddings。通过将特征映射与预测框裁剪，作者通过感兴趣区域(ROI) max-pool [16]从最终的 Birds-Eye-View (BEV)3D目标检测器的特征映射中提取每个目标的特征embeddings。作者主要将其应用于实现SOTA方法 MVF [40,65]3D 检测器，该过程也通常适用于产生中间特征图的大多数检测器[31,37,49]。为了提高计算效率，作者进一步执行主成分分析(PCA) 来降维，然后对通过 ROI pooling获得的原始特征向量集合进行归一化。

综上所述，作者的流模型的训练数据集包括经过主成分分析(PCA)变换后的归一化特征向量，该特征向量通过 ROI max-pool 获得最终的3D检测器特征映射，并使用预测的边界框。

$\mathcal{D}_{x}=\left\{X_{\text {norm }}[i], \forall i \in[0, n)\right\}$

利用归一化流进行稀疏估计: 作者使用连续归一化流模型直接估计每个样本的对数概率表示为一个特征向量 x。

典型的归一化流模型[28]由两个主要部分组成: 一个基本分布 p (z)和一个学习的可逆函数 fθ (x) ，也称为bijector，其中 θ 是bijector的可学习参数，fθ (x)是正演方法，f-1θ (x)是反演方法。基本分布一般被选为易于解析的分布，其概率密度函数(PDF)可以很容易计算，例如球形多元高斯分布，其中 p (z) = N (z; 0,I)。一个可学习的双目标函数可以有多种形式，流行的选择包括屏蔽缩放和移位函数，例如 RealnVP [11,28]或利用学习常微分方程(ODE)动力学的连续bijector[4,17]。文献[28]大量研究了将归一化流作为生成模型的使用，其中可以通过将随机采样的潜在向量通过前向bijector来生成新的分布内样本：

$\boldsymbol{x}=f_{\boldsymbol{\theta}}(\boldsymbol{z}), \quad \text { where } \boldsymbol{z} \sim p(z)$

然而，在这项工作中，作者更感兴趣的是使用归一化流来估计每个数据样本的确切概率。对应于数据示例的潜变量可以通过 z = fθ (x)推断出来。在变量变化公式下，数据样本的对数概率可以估计为:

$\begin{aligned} \log p_{\theta}(\boldsymbol{x}) &=\log p\left(f_{\boldsymbol{\theta}}(\boldsymbol{x})\right)+\log \left|\operatorname{det}\left(d f_{\boldsymbol{\theta}}(\boldsymbol{x}) / d \boldsymbol{x}\right)\right| \\ &=\log p(\boldsymbol{z})+\log |\operatorname{det}(d \boldsymbol{z} / d \boldsymbol{x})| \end{aligned}$

第一项 log p (z)可以从基本分布的 PDF 中有效地计算出来，而对于 Jacobian: log | det (dfθ (x)/dx) | 的对数行列式的计算则取决于bijector类型。

训练过程可以被描述为从训练数据 Dx 中预期对数概率的最大化（或者等效地最小化参数的预期负对数似然），并且可以通过批量随机梯度下降来学习：

$\underset{\theta}{\arg \min } \mathbb{E}_{x \sim \mathcal{D}_{\boldsymbol{x}}}\left[-\log p_{\boldsymbol{\theta}}(\boldsymbol{x})\right]$

在作者的实验中，作者选择基分布 p (z)作为球形多元 Gaussian N (z;0，I)，并且作者使用 FFJORD [17]bijector。对于第 i 个目标的最后一个罕见的样本评分函数，ri，有：

$r_{i}=-\log p_{\boldsymbol{\theta}}\left(\boldsymbol{x}_{\boldsymbol{i}}\right)$

模型为中心的罕见样本挖掘(M-REM) 作者提出了一个替代 REM的模型为中心的公式，概念上简单而有效，但可以区分稀有和难例。与以数据为中心的REM模型不同，以模型为中心的REM模型利用检测器集合之间的散度作为总不确定度的度量。

与直接使用集合散度作为主动学习的挖掘标准的方法不同[2]，作者的关键见解是，虽然集合散度是一个很好的测量实例的总体不确定性的方法，但它可能是由于问题从根本上来说是困难和模糊的(即hard) ，或者是由于问题是罕见的和缺乏模型的训练支持（即罕见的）。对于3D目标检测来说，目标很难被检测到的一个主要原因是遮挡和来自目标的激光雷达点数很少。从概念上讲，添加更多的难例，例如具有很少可见激光雷达点的远距离和严重遮挡的目标，将不会有帮助，因为这些情况从根本上来说是模棱两可的，不能仅仅通过增加数据支持来改进。

因此，获得罕见样本的一个简单方法是从整个不确定样本集中过滤出难以处理的样本。在实践中，两个过滤器的简单组合： (i)每个检测实例的 LiDAR 点数较少，（ii)检测实例与 LiDAR 源之间的距离较大，证明了通过数据挖掘和主动学习改善模型性能的惊人有效性。

作者实现以模型为中心的 REM 方法如下：

设 M = {M1，M2，…，MN }是一组 N 个独立训练的检测器，具有相同的结构和训练配置，但模型初始化不同。sji表示第j个检测器对第 i 个目标的检测得分，如果有一个漏检，则sji 被设置为0。模型集合 M 对第 i 个目标的检测方差定义为：

$v_{i}=\frac{1}{N} \sum_{j=1}^{N}\left(s_{i}^{j}-\frac{1}{N} \sum_{k=1}^{N} s_{i}^{k}\right)^{2}$

对于难例的过滤，将第 i 个目标内的 LiDAR 点数表示为 pi，将第 i 个目标与 LiDAR 源的距离表示为 di。一个简单的实例过滤函数可以定义为:

$h_{i}=1 \text { if }\left(p_{i}>\tilde{p}\right) \&\left(d_{i}<\tilde{d}\right) \text { else } 0$

其中 p~、 d~是各自的点阈值和距离阈值。在作者的实验中，有 N = 5，p = 200，d = 50（米）。

最终的第i个目标罕见样本得分函数ri可以表示为：
$r_{i}=h_{i} * v_{i}$

Track级的REM的主动学习

为了将作者的 REM 方法应用于主动学习，作为一种原则性的方法来收集来自大规模未标注样本中的稀有实例，作者提出了一种新的track级别的挖掘和有针对性的标注策略，结合一个高性能的offboard 3D 自动标注器来填补缺失的标签。作者选择在tracks水平上挖掘，因为标注工具被优化为标注整个目标tracks，这比每帧标注便宜。

首先，从 K 个tracks的标注预算开始，作者使用上面的一个罕见示例评分函数从具有最高稀有度评分的检测目标开始，作者依次将每个示例发送给人类标注员，以标注与该目标相对应的整个tracks T，并将该tracks添加到挖掘的和人类标注的tracks集合 Sh 中。然后删除所有与 T (> 0 IoU)相交的模型检测结果。这个过程迭代地执行，直到 Sh 中的tracks数达到 K 的预算。所有与 Sh 相交的自动标注的tracks Sa 被删除，并且两组tracks被合并成一个混合的、完全标注的数据集 S = Sa ∪ Sh。

具体见面的算法流程：

实验

作者使用 Waymo 开放数据集[48]作为作者调查的主要数据集，因为与其他可用的相机 + LiDAR 数据集[3,15]相比，其基于地理覆盖的无与伦比的多样性以及其庞大的行业级规模。Waymo 开放数据集由1150个场景组成，跨越20秒，记录了多个城市的一系列天气状况。在下面的实验中，作者试图回答三个问题：（1）模型性能是否与作者对类内长尾的稀有度测量相关，（2）作者提出的稀有样本挖掘方法能否成功——完全找到和检索更多稀有样本，以及（3）在主动学习环境中向作者现有的训练数据中添加稀有数据是否提高了整体模型性能，特别是长尾的性能。

罕见样本挖掘分析

相关性：稀有性和性能：作者得到了两个主要（1）所有模型的性能都与作者提出的稀有度测量密切相关，表明作者基于流概率的稀有度估计是非常有效的。(2)与原始的半监督基线相比，作者提出的稀有样本挖掘方法利用少量的人类标注数据，在稀有样本上获得了显著的性能提高。

可视化罕见的样本: 作者可视化来自 Waymo 开放数据集的最罕见的真值样本，由每个实例的估计对数概率确定。通过计算每条track中不同帧中目标的平均对数概率，对每条航迹的稀有度得分进行聚合。

然后根据平均对数概率下降对目标进行排序。有关数据集中最稀有目标的可视化，请参见下图。

最罕见的真值目标包括车辆部件周围的盒子(突出的管道，卡车装载坡道)和超大或不规则形状的车辆(卡车，平板拖车) ，这符合作者对罕见车辆的直觉。此外，作者发现少数错误标注的真值实例中最罕见的样本。这说明罕见的样本检测是一个分布外检测问题。在某种意义上，类内的长尾样本可以定义为类内的、分布外的样本。

流动模型的分布敏感性：鉴于罕见的样本挖掘本质上是一个分布外检测问题的观察，作者寻求对模型的分布外实例的敏感性进行更多的定量分析。详细分析见下图。

用于主动学习的罕见样本挖掘

为了证明 REM 方法在有针对性地改善模型在类内长尾的性能方面的适用性，作者利用track水平的 REM 进行主动学习。

挖掘轨迹的组成：我们首先分析挖掘轨迹的构成，在所有情况下，使用各种挖掘方法获得1268条轨迹，具体如下表：

结果如下表：

作者的方法显著提高了整体模型性能，特别是在稀有子集上。作者将人类标注比率表示为(% s,% t) ，以表示正在用全标注的% s 以及被挖掘和标注的剩余track的% t 进行训练的模型。

主动学习实验表明：(1)以数据为中心的方法和以模型为中心的方法都有助于提高罕见子集的性能，两者的结合可以进一步提高长尾性能。(2)虽然基于启发式的挖掘方法(“预测大小”）可以实现大型车辆的有针对性的改进，但它可能无法捕获其他罕见程度，导致整体性能下降。

讨论和展望

在这项工作中，作者展示了基于学习的目标检测器的局限性，相对于罕见的实例，在类内变化很大的问题，如3D检测。提出了一种基于数据中心和模型中心的稀有实例挖掘的主动学习方法，该方法能够有效地发现未标注数据中的稀有目标。作者的主动学习方法，结合SOTA半监督方法，可以实现完全与全监督模型接近的性能，不管是罕见还是常见目标上，而这只利用少至16% 的人工标注标签。这项研究的一个局限性是现有数据集的规模为主动学习，其中数据挖掘超出可用数据集的规模是有限的。更大数据集上的结果将提供更多信息。未来的工作包括将REM 方法扩展到3D检测以外，包括自动驾驶的其他主题，如轨迹预测和规划。

版权声明：本文为奥比中光3D视觉开发者社区特约作者授权原创发布，未经授权不得转载，本文仅做学术分享，版权归原作者所有，若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台，旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。

快来[3D视觉开发者社区]和开发者们一起讨论分享吧~

RT-DETR改进策略【Neck】| PRCV 2023，SBA（Selective Boundary Aggregation）：特征融合模块，描绘物体轮廓重新校准物体位置，解决边界模糊问题 Limiiiing RT-DETR改进专栏人工智能计算机视觉深度学习 RT-DETR
一、本文介绍本文主要利用DuAT中的SBA模块优化RT-DETR的目标检测网络模型。SBA模块借鉴了医疗图像分割中处理边界信息的独特思路，通过创新性的结构设计，在维持合理计算复杂度的基础上，巧妙融合浅层的边界细节特征与深层的语义信息，实现边界特征的精准提取与语义信息的有效整合。将其应用于RT-DETR的改进过程中，能够使模型着重聚焦于目标物体的边界区域，降低背景及其他无关信息的影响，强化目标物体的
深度学习笔记——模型部署好评笔记深度学习笔记深度学习笔记人工智能 transformer 模型部署大模型部署大模型
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文简要概括模型部署的知识点，包括步骤和部署方式。文章目录模型部署模型部署的关键步骤常见的模型部署方式优势与挑战总结边缘端部署方案总结历史文章机器学习深度学习模型部署模型部署是指将训练好的机器学习或深度学习模型集成到生产环境中，使其能够在实际应用中处理实时数据和提供预测服务。模型部署的流程涉及模型的封装、部署环境的选择、部
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点岑童嵘
探索泰坦尼克号生存分类数据集：机器学习与数据分析的完美起点【下载地址】泰坦尼克号生存分类数据集本仓库提供了一个经典的机器学习数据集——泰坦尼克号生存分类数据集。该数据集包含两个CSV文件：训练集和测试集。数据集主要用于训练和评估机器学习模型，以预测泰坦尼克号乘客的生存情况项目地址:https://gitcode.com/open-source-toolkit/35561项目介绍泰坦尼克号生存分类数
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
Python中的Pipeline快速教学、 Coding Is Fun python 开发语言
在Python中，Pipeline通常指的是机器学习工作流中的流水线，尤其是在使用scikit-learn库时。Pipeline允许你将多个数据处理步骤和模型训练步骤串联起来，形成一个有序的工作流程。这不仅使代码更简洁，还能确保在训练和预测时一致的数据处理。以下是一个快速教学，帮助你掌握Python中Pipeline的核心概念和使用方法。目录安装和导入必要的库Pipeline的基本概念创建一个简单
大模型介绍詹姆斯爱研究Java spring
大模型（LargeModel）指的是拥有庞大参数量的机器学习模型。由于具有更多的参数，大模型能够更好地拟合复杂的数据和模式，从而提供更准确的预测和更好的性能。大模型的参数量通常远远超过常规模型，可以达到数百万甚至数十亿个参数。这些参数通常通过深度神经网络（DeepNeuralNetwork）来表示，包括多个隐藏层和大量的神经元。大模型的训练需要大量的计算资源和数据。通常，它们需要在多个GPU或TP
基于深度学习的极端天气预测全解析与实战指南：基于MetNet 模型 AI_DL_CODE 深度学习人工智能 MetNet 天气预测 python
摘要：本文全面解析了基于深度学习的极端天气预测，重点介绍了MetNet模型。首先，文章阐述了极端天气预测的重要性和传统天气预报的局限性。接着，详细介绍了MetNet模型的基本架构、特点以及与其他气象预测模型的对比。然后，通过实战案例展示了MetNet模型在极端降雨天气预测中的应用，包括数据准备、模型搭建与训练、模型评估与预测。最后，文章总结了MetNet模型的优势与挑战，并展望了深度学习在气象领域
国自然青年项目｜基于多模态影像组学的乳腺癌分子分型预测研究｜基金申请·25-01-20 罗小罗同学基金申请医学人工智能人工智能国自然
小罗碎碎念今天和大家分享一份国自然青年项目，项目执行期为2021-2023年，直接费用为24万。项目聚焦乳腺癌分子分型预测，综合运用多模态组学数据、影像组学技术和深度学习技术。研究内容包括跨模态医学图像分割、多模态特征提取与融合、模型设计与系统研发。通过提出一系列创新算法，如基于类别中心原型对齐器的图像分割算法、基于自注意力机制与生成对抗网络的聚类算法等，实现了对乳腺癌分子分型的高精度预测，并开发
深度学习乐园智能零售柜商品识别 Java先进事迹深度学习零售人工智能
1.项目简介本项目专注于智能零售柜商品识别，是为第六届信也科技杯图像算法大赛设计的方案。其核心目标是利用深度学习技术，实现对顾客选购商品的精准识别和自动化结算。当商品被放置在指定区域时，系统应自动检测并识别每件商品，生成购物清单并计算总价格，提升零售柜的自动化与便利性。此类智能系统在不需要售货员的情况下即可进行商品识别和结算，相较于传统的硬件分隔、重量判断、顾客行为监测、或射频识别技术，这种方法不
YOLOv8改进，YOLOv8检测头融合DiverseBranchBlock，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要一种卷积神经网络（ConvNet）的通用构建模块，以在不增加推理时间成本的情况下提高性能。该模块被命名为多样分支块（DiverseBranchBlock，DBB），通过结合不同尺度和复杂度的多样分支来丰富特征空间，包括卷积序列、多尺度卷积和平均池化，从而增强单个卷积的表示能力。在训练后，DBB可以等效地转换为一个单独的卷积层以进行部署。与新型ConvNet架构的进步不同，DBB在保持宏观架构的
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
在PyTorch框架上训练ImageNet时，Dataloader加载速度慢怎么解决？ cda2024 pytorch 人工智能 python
在深度学习领域，PyTorch因其灵活性和易用性而受到广泛欢迎。然而，在实际应用中，特别是在处理大规模数据集如ImageNet时，Dataloader的加载速度往往成为瓶颈。本文将深入探讨这一问题，并提供多种解决方案，帮助你在PyTorch框架上高效地训练ImageNet。1.问题背景ImageNet是一个包含超过1400万张图像的大规模数据集，被广泛用于图像分类任务的研究。在PyTorch中，D
Python从0到100（七十三）：Python OpenCV-OpenCV实现手势虚拟拖拽是Dream呀 python opencv 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
K-means聚类：解锁数据隐藏结构的钥匙陈辰学长 kmeans 聚类机器学习
K-means聚类：解锁数据隐藏结构的钥匙在机器学习的广阔领域中，无监督学习以其独特的魅力吸引了众多研究者和实践者。其中，K-means聚类作为一种经典且实用的无监督学习算法，以其简单高效的特点，广泛应用于市场细分、图像分割和基因聚类等领域。本文将深入探讨K-means聚类的工作原理、应用实例及其在这些领域中的具体应用，旨在揭示其如何智能划分数据，解锁隐藏结构，为相关领域提供精准导航。一、K-me
ACNet：深度学习中的自适应卷积网络新星郎轶诺
ACNet：深度学习中的自适应卷积网络新星项目地址:https://gitcode.com/gh_mirrors/ac/ACNet在深度学习领域，卷积神经网络（CNN）一直是图像处理和计算机视觉任务的核心技术。然而，传统的固定大小的卷积核无法灵活适应不同区域的信息密度。针对这一问题，ACNet（AdaptiveConvolutionNetwork）项目应运而生，它引入了一种新型的自适应卷积层，旨在
与机器学习的邂逅--自适应神经网络结构的深度解析想成为高手499 机器学习与人工智能机器学习神经网络人工智能
引言随着人工智能的发展，神经网络已成为许多应用领域的重要工具。自适应神经网络（AdaptiveNeuralNetworks，ANN）因其出色的学习能力和灵活性，逐渐成为研究的热点。本文将详细探讨自适应神经网络的基本概念、工作原理、关键技术、C++实现示例及其应用案例，最后展望未来的发展趋势。自适应神经网络的基本概念什么是自适应神经网络？自适应神经网络是一种能够根据输入数据的变化和环境的动态特性自动
自适应神经网络架构：原理解析与代码示例 chian-ocean 机器学习神经网络人工智能深度学习
个人主页：chian-ocean文章专栏自适应神经网络结构：深入探讨与代码实现1.引言随着深度学习的不断发展，传统神经网络模型在处理复杂任务时的局限性逐渐显现。固定的网络结构和参数对于动态变化的环境和多样化的数据往往难以适应，导致了过拟合或欠拟合的问题。自适应神经网络（AdaptiveNeuralNetworks,ANN）为此提供了一种新的解决方案，它可以根据数据特征和训练情况自动调整网络结构，从
PostgreSQL - pgvector 插件构建向量数据库并进行相似度查询花千树-010 RAG 数据库 postgresql AI编程
在现代的机器学习和人工智能应用中，向量相似度检索是一个非常重要的技术，尤其是在文本、图像或其他类型的嵌入向量的操作中。本文将介绍如何在PostgreSQL中安装pgvector插件，用于存储和检索向量数据，并展示如何通过Python脚本向数据库插入向量并执行相似度查询。一、安装PostgreSQL并配置pgvector插件1.安装PostgreSQL首先，确保你已经安装了PostgreSQL。可以
全面解析NVIDIA显卡：从入门级到旗舰级显卡详解花千树-010 大模型人工智能算法智能电视
在选择显卡时，了解不同显卡的性能和适用场景是非常重要的。无论你是预算有限的入门用户，还是追求极致性能的游戏玩家，亦或是专业的内容创作者和深度学习研究人员，NVIDIA都有适合你的显卡。本篇博文将详细列举NVIDIA显卡的各项配置，从低到高逐一整理，并给出适用的使用场景。入门级显卡NVIDIAGeForceGT1030CUDA核心数:384基础频率:1227MHz加速频率:1468MHz显存:2GB
直播预告丨精度优于AlphaFold，基于深度学习实现生物大分子及其互作的三维结构预测
「MeetAI4S」系列直播第6期将于1月15日19:00准时开播，HyperAI超神经有幸邀请到了南开大学统计与数据科学学院教授郑伟，他本次分享的主题是「AlphaFold3王座未稳，来自学术界的反超：基于深度学习的生物大分子及其互作的三维结构预测」。蛋白质的功能取决于其独特的三维结构，近年来，基于深度学习等人工智能技术的蛋白质结构预测发展迅猛，AlphaFold甚至获得了2024年诺贝尔化学奖
AI代码生成工具的未来：杨立昆的洞见与AI革命前端
近年来，人工智能（AI）领域取得了令人瞩目的进展，特别是以大型语言模型为代表的AI技术，在自然语言处理、图像生成等领域展现出强大的能力。然而，深度学习先驱杨立昆（YannLeCun）却对现有的AI系统提出了尖锐的批评，他认为目前的AI系统“理解能力远不如猫”，缺乏对真实世界的理解和常识。这引发了人们对AI未来发展方向的思考，也为我们探讨AI代码生成工具，以及AI技术对人类社会的影响提供了新的视角。
未来教育：AI知识库如何重塑学习体验知识管理知识库知识库软件
在科技日新月异的今天，教育领域正经历着前所未有的变革。人工智能（AI）技术的快速发展，特别是AI知识库的广泛应用，正在重塑我们的学习体验，使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影响未来教育，以及它如何为学习者提供前所未有的学习体验。一、AI知识库：教育领域的智能助手AI知识库，作为结合了人工智能技术的知识管理系统，不仅能够存储和处理海量信息，还能通过自然语言处理、机器学习等
AI赋能人力资源：效率提升新路径前端
引言人工智能(AI)正以前所未有的速度改变着各行各业，从自动驾驶到医疗诊断，AI的应用日益广泛。而人力资源领域，作为企业运营的核心环节，也正经历着AI带来的深刻变革。传统的人力资源管理面临诸多挑战，例如招聘效率低、候选人筛选精准度不足、员工培训成本高昂以及数据分析能力有限等。这些问题不仅影响企业的招聘速度和效率，也制约了企业的发展。为了应对这些挑战，越来越多的企业开始探索AI技术在人力资源领域的应
【TVM 教程】内联及数学函数
ApacheTVM是一个端到端的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/作者：TianqiChen尽管TVM支持基本的算术运算，但很多时候，也需要复杂的内置函数，例如exp取指函数。这些函数是依赖target系统的，并且在不同target平台中可能具有不同的名称。本教程会学习到如何调用这些target-spe
mindspore编译报错小乐快乐深度学习神经网络
1、重新创建个工程后无法正常运行，2、使用代码为：华为提供的机器学习监督学习中的代码[quote][size=2][url=forum.php?mod=redirect&goto=findpost&pid=1364937&ptid=165780][color=#999999]回复：HS12发表于2021-10-3018:16[/color][/url][/size]报错信息
ai照片放大python源码_AI新时代-大牛教你使用python+Opencv完成人脸解锁（附源码）... weixin_39639505 ai照片放大python源码
好吧，伙计们，我回来了。说我拖更不写文章的可以过来用你的小拳拳狠命地捶我胸口....那么今天我们来讲关于使用python+opencv+face++来实现人脸验证及人脸解锁。代码量同样不多，你可以将这些代码运用在其它一些智能领域，如智能家居，进门的时候判断你是谁，也可以加入机器学习判断来的人是客人还是熟人。在讲之前我们会先适当的拓扑一下关于人脸识别的知识点。OK废话少说下面开始正是话题。解锁原理：
线性回归：从基础到进阶的全面解析 tester Jeffky 大模型线性回归机器学习算法
线性回归：从基础到进阶的全面解析线性回归是机器学习中最基本的算法之一，广泛应用于预测和分析。本文将详细介绍线性回归的基本概念、数学原理、实现方法以及在实际应用中的注意事项。我们将通过丰富的代码示例来展示如何从头开始构建一个简单的线性回归模型，并逐步深入到更复杂的场景。1.线性回归的基本概念1.1什么是线性回归？线性回归是一种用于建模两个或多个变量之间关系的统计方法。它假设因变量（目标变量）与一个或
YOLOv9改进，YOLOv9检测头融合，适合目标检测、分割任务挂科边缘 YOLOv9改进目标检测人工智能计算机视觉 YOLO
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
YOLOv8改进，YOLOv8检测头融合RFAConv卷积，并添加小目标检测层（四头检测），适合目标检测、分割等挂科边缘 YOLOv8改进 YOLO 目标检测人工智能计算机视觉深度学习
摘要空间注意力已广泛应用于提升卷积神经网络（CNN）的性能，但它存在一定的局限性。作者提出了一个新的视角，认为空间注意力机制本质上解决了卷积核参数共享的问题。然而，空间注意力生成的注意力图信息对于大尺寸卷积核来说是不足够的。因此，提出了一种新型的注意力机制——感受野注意力（RFA）。现有的空间注意力机制，如卷积块注意力模块（CBAM）和协调注意力（CA），仅关注空间特征，未能完全解决卷积核参数共享
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f