瑾怀轩

【论文】CBAM: Convolutional Block Attention Module

一、引言

二、相关工作

三、卷积注意力模块

四、实验

4.1、消融研究

4.2、Image Net 上的图像分类 - 1 K

4.3 使用 Grad 进行网络可视化 - CAM [18]

4.4 MS COCO 物体检测

4.5 VOC 2007 目标检测

五、结论

附录

摘要：我们提出了卷积块注意模块 (CBAM)，这是一个用于前馈卷积神经网络的简单而有效的注意模块。给定一个中间特征图，我们的模块沿两个单独的维度（通道和空间）顺序推断注意力图，然后将注意力图乘以输入特征图以进行自适应特征细化。因为 CBAM 是一个轻量级的通用模块，它可以无缝集成到任何 CNN 架构中，开销可以忽略不计，并且可以与基础 CNN 一起进行端到端训练。我们通过对 Image Net - 1 K、MS COCO 检测和 VOC 2007 检测数据集的广泛实验来验证我们的 CBAM。我们的实验表明，各种模型在分类和检测性能方面的持续改进，证明了 CBAM 的广泛适用性。代码和模型将公开提供。

一、引言

卷积神经网络 (CNNs) 基于其丰富的表示能力，极大地推动了视觉任务 [1-3] 的性能。为了提高 CNNs 的性能，最近的研究主要研究了网络的三个重要因素：深度、宽度和基数。

从 Le Net 架构 [4] 到 Residual-style Networks [5-8] 到目前为止，网络已经变得更深，可以提供丰富的表示。 VGG Net [9] 表明，堆叠具有相同形状的块会产生公平的结果。遵循同样的精神，Res Net [5] 将残差块的相同拓扑与跳跃连接堆叠在一起，以构建一个非常深的架构。 GoogLe Net [10] 表明宽度是提高模型性能的另一个重要因素。 Zagoruyko 和 Komodakis [6] 提出增加基于 Res Net 架构的网络宽度。他们已经表明，一个 28 层的 ResNet 增加了在 CIFAR 基准测试中，Width 可以胜过具有 1001 层的极深 ResNet。 Xception [11] 和 ResNeXt [7] 提出增加网络的基数。他们的经验表明，基数不仅节省了参数的总数，而且比其他两个因素：深度和宽度具有更强的表示能力。

图 1：CBAM 概述。该模块有两个顺序子模块：通道和空间。中间特征图通过我们的模块（CBAM）在深度网络的每个卷积块上自适应地细化。

除了这些因素之外，我们还研究了架构设计的不同方面，即注意力。注意力的重要性在之前的文献中已经得到了广泛的研究[12-17]。注意力不仅告诉你关注的地方，它还提高了兴趣的表现。我们的目标是通过使用注意力机制来增加表示能力：关注重要特征并抑制不必要的特征。在本文中，我们提出了一个新的网络模块，命名为“卷积块注意模块”。由于卷积操作通过将跨通道和空间信息混合在一起来提取信息特征，我们采用我们的模块来强调沿着这两个主要维度的有意义的特征：通道和空间轴。为了实现这一点，我们依次应用通道和空间注意模块（如图 1 所示），以便每个分支可以分别学习通道和空间轴上的“什么”和“哪里”。因此，我们的模块通过学习要强调或抑制哪些信息来有效地帮助信息在网络中流动。

在 Image Net - 1 K 数据集中，我们通过插入我们的微型模块从各种基线网络中获得了准确度的提高，揭示了 CBAM 的功效。我们使用 grad - CAM [18] 对训练模型进行可视化，并观察到 CBAM增强网络比其基线网络更准确地关注目标对象。考虑到这一点，我们推测性能提升来自于对无关杂波的准确关注和降噪。最后，我们在 MS COCO 和 VOC 2007 数据集上验证了对象检测的性能改进，证明了 CBAM 的广泛适用性。由于我们精心设计了轻量级模块，因此在大多数情况下参数和计算的开销可以忽略不计。

贡献:我们的主要贡献是三方面：

1、我们提出了一个简单而有效的注意力模块(CBAM),可以广泛应用于提高 CNNs的表示能力。

2、我们通过广泛的消融研究验证了注意力模块的有效性。

3、通过插入我们的轻量级模块，我们验证了各种网络的性能在多个基准测试（Image Net - 1 K、MS COCO 和 VOC 2007）上得到了极大的改进。

二、相关工作

网络工程：“网络工程”一直是最重要的视觉研究之一，因为精心设计的网络可确保在各种应用中显着提升性能。自大规模 CNN [19] 成功实施以来，已经提出了广泛的架构。一种直观且简单的扩展方式是增加神经网络的深度[9]。塞格迪等人 [10] 使用多分支架构引入深度 Inception 网络，其中每个分支都经过精心定制。并且已经开发了 Res NeXt [7]。 WideRes Net [6] 提出了一种具有更多卷积滤波器和降低深度的残差网络。 Pyramid Net [20] 是 Wide Res Net 的严格概括，其中网络的宽度逐渐增加。 Res NeXt [7] 建议使用分组卷积，并表明增加基数可以提高分类精度。最近，Huang 等人。 [21] 提出了一种新的架构，Dense Net。它迭代地将输入特征与输出特征连接起来，使每个卷积块能够接收来自所有先前块的原始信息。虽然最近的大多数网络工程方法主要针对三个因素深度 [19, 9, 10, 5]，宽度 [10, 22, 6, 8] 和基数 [7, 11]，但我们专注于另一个方面，'注意力”，这是人类视觉系统的奇特方面之一。

注意力机制:众所周知，注意力在人类感知中起着重要作用[23-25]。人类视觉系统的一个重要特性是不会尝试一次处理整个场景。相反，人类利用一系列部分瞥见并选择性地关注显着部分，以便更好地捕捉视觉结构[26]。

最近，已经有一些尝试 [27, 28] 将注意力处理结合起来以提高 CNN 在大规模分类任务中的性能。王等人。 [27] 提出了使用编码解码器样式注意模块的残差注意网络。通过细化特征图，网络不仅表现良好，而且对噪声输入也具有鲁棒性。我们不是直接计算 3d 注意力图，而是分解分别学习通道注意力和空间注意力的过程。3D 特征图的单独注意力生成过程具有更少的计算和参数开销，因此可以用作现有基础 CNN 架构的即插即用模块。

更接近我们的工作，胡等人。 [28] 引入了一个紧凑的模块来利用通道间的关系。在他们的 Squeeze -and - Excitation 模块中，他们使用全局平均池化特征来计算 channel-wise attention。然而，为了推断精细的通道注意力，我们表明这些是次优特征，我们建议也使用最大池化特征。他们也错过了空间注意力，这在决定“在哪里”集中注意力方面起着重要作用，如 [29] 所示。

CBAM 基于有效的架构同时利用空间和通道注意，并通过经验验证利用这两者优于仅使用通道注意 [28]。此外，我们凭经验证明我们的模块在检测任务（MS - COCO 和 VOC）中是有效的。特别是，我们只需将我们的模块放在 VOC2007 测试集中现有的一次性检测器 [30] 的顶部，就可以实现最先进的性能。

三、卷积注意力模块

给定中间特征图 F ∈ $R^{C*H*W}$ 作为输入，CBAM 依次推断出一维通道注意图 $M_{c}$ ∈ $R^{C*1*1}$ 和二维空间注意图 $M_{s}$ ∈ $R^{1*H*W}$ ，如图所示在图 1 中。整个注意力过程可以概括为：

其中 ⊗ 表示元素 - 明智的乘法。在乘法过程中，注意力值被相应地广播（复制）：通道注意力值沿空间维度广播，反之亦然。 F′′是最终的精炼输出。图 2 描述了每个注意力图的计算过程。下面描述每个注意力模块的细节。

通道注意力模块:通过利用特征的通道间关系来生成通道注意图。由于特征图的每个通道都被视为特征检测器 [31]，因此通道注意力集中在给定输入图像的“什么”是有意义的。为了有效地计算通道注意力，我们压缩了输入特征图的空间维度。对于聚合空间信息，迄今为止普遍采用平均池化。周等人。 [32] 建议使用它来有效地学习目标对象的范围，Hu 等人。 [28] 在他们的注意力模块中采用它来计算空间统计。除了以前的工作，我们认为最大池化收集了另一个关于独特对象特征的重要线索，以推断更精细的通道 - 明智的注意力。因此，我们同时使用平均池化和最大池化特征。我们凭经验证实，利用这两个特征大大提高了网络的表示能力，而不是单独使用每个特征（参见第 4.1 节），显示了我们设计选择的有效性。我们将在下面描述详细的操作。

图 2：每个注意力子模块的示意图。如图所示，通道子模块利用共享网络同时使用最大池输出和平均池输出；空间子模块利用沿通道轴汇集的相似的两个输出并将它们转发到卷积层。

首先通过使用平均池化和最大池化操作来聚合特征图的空间信息，生成两个不同的空间上下文描述符： $F_{avg}^{c}$ 和 $F_{max}^{c}$ ,分别表示平均池化特征和最大池化特征。然后将两个描述符转发到共享网络以生成我们的通道注意力图 $M_{c}$ ∈ $R^{C*1*1}$ 。共享网络由具有一个隐藏层的多层感知器（MLP）组成。为了减少参数开销，隐藏激活大小设置为 $R^{C/r*1*1}$ ，其中 r 是缩减率。在将共享网络应用于每个描述符之后，我们使用逐元素求和来合并输出特征向量。简而言之，通道注意力被计算为：

其中σ表示sigmoid函数， $W_{0}$ ∈ $R^{C/r*C}$ ， $W_{1} \in R^{C*C/r}$ 。请注意，两个输入共享 MLP 权重 $W_{0}$ 和 $W_{1}$ ，并且 ReLU 激活函数后跟 $W_{0}$ 。

空间注意力模块:我们利用特征的空间间关系生成空间注意力图。与通道注意力不同，空间注意力集中在“哪里”是一个信息部分，这是对通道注意力的补充。为了计算空间注意力，我们首先沿通道轴应用平均池化和最大池化操作，并将它们连接起来以生成有效的特征描述符。沿通道轴应用池化操作被证明在突出信息区域方面是有效的 [33]。在连接的特征描述符上，我们应用卷积层来生成空间注意力图 $M_{s}(F)\in R^{H*W}$ ，它编码了要强调或抑制的位置。我们将在下面描述详细的操作。

图 3：CBAM 与 Res Net[5] 中的 Res Block 集成。此图显示了我们的模块在集成到 Res Block 时的确切位置。我们在每个块的卷积输出上应用 CBAM。

我们通过使用两个池化操作聚合特征图的通道信息，生成两个二维图： $F_{avg}^s \in R^{1*H*W}$ 和 $F_{max}^s \in R^{1*H*W}$ 。每个表示通道中的平均池化特征和最大池化特征。然后通过标准卷积层将它们连接和卷积，生成我们的 2D 空间注意力图。简而言之，空间注意力被计算为：

其中 σ 表示 sigmoid 函数， $f^{7*7}$ 表示滤波器大小为 7×7 的卷积操作。

注意力模块的布局：给定输入图像，通道和空间两个注意模块计算互补注意，分别关注“什么”和“在哪里”。考虑到这一点，两个模块可以以并行或顺序的方式放置。我们发现顺序排列比并行排列给出了更好的结果。对于顺序过程的安排，我们的实验结果表明，通道一阶略好于空间一阶。我们将在第二节讨论网络工程的实验结果。 4.1。

四、实验

我们在标准基准上评估 CBAM：Image Net - 1 K 用于图像分类； MS COCO 和 VOC 2007 用于对象检测。为了进行更好的形成对照的比较，我们在 Py Torch 框架 [35] 中复制了所有评估的网络 [57, 34, 28]，并在整个实验中报告了我们的复制结果。

为了彻底评估我们最终模块的有效性，我们首先进行了广泛的消融实验。然后，我们验证 CBAM 在没有花里胡哨的情况下优于所有基线，证明了 CBAM 在不同架构和不同任务中的普遍适用性。可以将 CBAM 无缝集成到任何 CNN 架构中，并联合训练组合的 CBAM - 增强网络。图 3 显示了 CBAM 与 Res Net [5] 中的 Res Block 集成的示意图作为示例。

4.1、消融研究

在本小节中，我们凭经验展示了我们的设计选择的有效性。对于这项消融研究，我们使用 Image Net - 1 K 数据集并采用 Res Net - 50 [5] 作为基础架构。 Image Net - 1 K 分类数据集 [1] 包含 120 万张用于训练的图像和 50,000 张用于验证的图像，其中包含 1,000 个对象类。我们采用与 [5, 36] 相同的数据增强方案进行训练，并在测试时应用大小为 224×224 的单作物评估。学习率从 0.1 开始，每 30 个 epoch 下降一次。我们训练网络 90 个 epoch。在 [5, 36, 37] 之后，我们报告了验证集上的分类错误。

我们的模块设计过程分为三个部分。我们首先寻找计算通道注意力的有效方法，然后是空间注意力。最后，我们考虑如何结合通道和空间注意模块。我们在下面解释每个实验的细节。

通道注意力机制：我们通过实验验证，使用平均池化和最大池化特征可以实现更精细的注意力推理。我们比较了通道注意力的 3 种变体：平均池化、最大池化和两种池化的联合使用。请注意，具有平均池化的通道注意模块与 SE [28] 模块相同。此外，当使用两个池时，我们使用共享的 MLP 进行注意力推理以保存参数，因为两个聚合通道特征都位于相同的语义嵌入空间中。我们在这个实验中只使用了通道注意模块，我们将缩减率固定为 16。

各种池化方法的实验结果如表 1 所示。我们观察到最大池化特征与平均池化特征一样有意义，比较了基线的准确性提高。然而，在 SE [28] 的工作中，他们只利用了平均池化特征，忽略了最大池化特征的重要性。

表 1：不同渠道注意力方法的比较。我们观察到，使用我们提出的方法优于最近提出的挤压和激发方法 [28]。

表2：不同空间注意力方法对比。使用假设的通道池化(例如, 沿着通道轴进行平均池化和最大池化)，沿着最大为7的卷积核大小进行卷积操作表现最好。

表3：结合通道和空间注意力方法：使用两种注意力是最好的结合策略更好的提升了精度。（排列是通道注意力在前）

我们认为，对最显着部分的程度进行编码的最大池化特征可以补偿对全局统计数据进行软编码的平均池化特征。因此，我们建议同时使用这两个功能并将共享网络应用于这些功能。然后共享网络的输出通过逐元素求和合并。我们凭经验表明，我们的通道注意方法是一种有效的方法，可以在没有额外可学习参数的情况下进一步推动 SE [28] 的性能。作为一个简短的结论，我们在我们的通道注意模块中使用平均池化特征和最大池化特征，在以下实验中减少率为 16。

空间注意力：给定通道明智的细化特征，我们探索了一种计算空间注意力的有效方法。设计理念与通道注意力分支对称。为了生成二维空间注意力图，我们首先计算一个二维描述符，该描述符在所有空间位置上的每个像素处编码通道信息。然后我们将一个卷积层应用于 2D 描述符，获得原始注意力图。最终的注意力图由 sigmoid 函数归一化。

我们比较了生成 2D 描述符的两种方法：使用通道轴上的平均池和最大池的通道池和标准 1×1 卷积将通道维度减少到 1。此外，我们研究了内核大小在以下卷积层：内核大小为 3 和 7。在实验中，我们将空间注意模块放在先前设计的通道注意模块之后，因为最终目标是同时使用这两个模块。

表2显示了实验结果。我们可以观察到通道池化产生更好的准确性，这表明显式建模池化导致更好的注意力推理，而不是可学习的加权通道池化（实现为 1×1 卷积）。在不同卷积核大小的比较中，我们发现采用更大的核大小在两种情况下都会产生更好的精度。这意味着需要一个广阔的视野（即大的感受野）来决定空间上重要的区域。考虑到这一点，我们采用通道池方法和具有大内核大小的卷积层来计算空间注意力。简而言之，我们使用卷积核大小为 7 的通道轴上的平均池化特征和最大池化特征作为我们的空间注意力模块。

通道注意力和空间注意力机制的排列：在本实验中，我们比较了安排通道和空间注意子模块的三种不同方式：通道 - 空间，空间 - 通道，以及两个注意模块的并行使用。由于每个模块具有不同的功能，因此顺序可能会影响整体性能。例如，从空间的角度来看，通道注意力是全局应用的，而空间注意力是局部的。此外，很自然地认为我们可以结合两个注意力输出来构建一个 3D 注意力图。在这种情况下，可以并行应用两个注意力，然后将两个注意力模块的输出相加并使用 sigmoid 函数进行归一化。

表 3 总结了不同注意力安排方法的实验结果。从结果中，我们可以发现顺序生成注意力图比并行生成更精细的注意力图。此外，通道一阶的性能略好于空间一阶。请注意，所有排列方法都优于单独使用通道注意力，这表明利用两种注意力至关重要，而最佳排列策略会进一步提高性能。

最终模型设计 在消融研究中，我们设计了通道注意模块、空间注意模块，以及这两个模块的排列方式。我们的最终模块如图 1 和图 2 所示：我们为通道和空间注意模块选择平均池和最大池；我们在空间注意模块中使用内核大小为 7 的卷积；我们按顺序排列通道和空间子模块。我们的最终模块（即 Res Net50 + CBAM）实现了 22.66% 的 top-1 误差，远低于 SE [28]（即 Res Net50 + SE），如表 4 所示。

4.2、Image Net 上的图像分类 - 1 K

我们执行 Image Net - 1 K 分类实验来严格评估我们的模块。我们遵循与 Sec 中指定的相同协议。 4.1 并在各种网络架构中评估我们的模块，包括 ResNet [5]、Wide ResNet [6] 和 ResNext [7]。

表4：在ImageNet-1K 数据集上的分类结果。单模块错误验证报告

表 4 总结了实验结果。具有 CBAM 的网络显着优于所有基线，表明 CBAM 可以很好地泛化大规模数据集中的各种模型。此外，具有 CBAM 的模型提高了最强方法之一的准确性 - SE [28]，这是 ILSVRC 2017 分类任务的获胜方法。这意味着我们提出的方法是强大的，显示了新的池化方法的有效性，该方法生成了更丰富的描述符和空间注意力，有效地补充了通道注意力。

图 4 描绘了 Image Net - 1 K 训练期间各种网络的误差曲线。我们可以清楚地看到，我们的方法在两个错误率图中都表现出最低的训练和验证错误。它表明与 SE [28] 相比，CBAM 具有更大的能力来提高基线模型的泛化能力。

我们还发现 CBAM 的总体开销在参数和计算方面都非常小。这促使我们将我们提出的模块 CBAM 应用到轻量级网络 Mobile Net [34]。表 5 总结了我们基于 Mobile Net 架构进行的实验结果。我们将 CBAM 放置在两个模型中，基本模型和容量缩减模型（即将宽度乘数（α）调整为 0.7）。我们观察到类似的现象，如表 4 所示。CBAM 不仅显着提高了基线的准确性，而且还有利地提高了 SE [28] 的性能。这显示了 CBAM 在低端设备上应用的巨大潜力。

图4：在ImageNet-1K上的训练期间的错误曲线，

表5: 在ImageNet-1K上使用轻量化网络的分类结果。单模块验证错误报告

4.3 使用 Grad 进行网络可视化 - CAM [18]

对于定性分析，我们使用来自 Image Net 验证集的图像将 Grad - CAM [18] 应用于不同的网络。 Grad - CAM 是最近提出的一种可视化方法，它使用梯度来计算卷积层中空间位置的重要性。由于梯度是针对唯一类计算的，因此 Grad - CAM 结果清楚地显示了参与区域。通过观察网络认为对预测类别很重要的区域，我们试图了解该网络如何充分利用特征。我们比较了 CBAM - 集成网络 (Res Net50 + CBAM) 与基线 (Res Net50) 和 SE - 集成网络 (Res Net50 + SE) 的可视化结果。图 5 说明了可视化结果。图中还显示了目标类的 softmax 分数。

在图 5 中，我们可以清楚地看到 CBAM 集成网络的 Grad-CAM 掩码比其他方法更好地覆盖目标对象区域。也就是说，CBAM - 集成网络可以很好地学习利用目标对象区域中的信息并从中聚合特征。请注意，目标类分数也会相应增加。根据观察，我们推测 CBAM 的特征细化过程最终会导致网络很好地利用给定的特征。

图 5：Grad - CAM [18] 可视化结果。我们比较了 CBAM - 集成网络 (Res Net50 + CBAM) 与基线 (Res Net50) 和 SE - 集成网络 (Res Net50 + SE) 的可视化结果。为最后的卷积输出计算 grad - CAM 可视化。真实标签显示在每个输入图像的顶部，P 表示真实标签类的每个网络的 softmax 分数。

表6：在MS COCO数据验证集的目标检测mAP. 我们采用Faster R-CNN 检测框架并且应用我们模型到基础网络。 CBAM 在mAP@[.5, .95] 增长了0.9对应每一个基础网络。

表7：在VOC 2007的测试数据集上目标检测的mAP。我们采用StairNet[30] 检测框架并且使用SE 和CBAM对于检测头。CBAM在几乎没有增加参数下提升了所有的基础模型。

4.4 MS COCO 物体检测

我们在 Microsoft COCO 数据集 [3] 上进行对象检测。该数据集包含 80k 训练图像（“2014 train”）和 40k 验证图像（“2014 val”）。在从 0.5 到 0.95 的不同 Io U 阈值上的平均 m AP 用于评估。根据 [38, 39]，我们使用所有训练图像以及验证图像的子集训练我们的模型，提供 5,000 个示例进行验证。我们的训练代码基于 [40]，我们训练网络进行 49 万次迭代以进行快速性能验证。我们采用 Faster - RCNN [41] 作为我们的检测方法，并采用 Image Net 预训练的 Res Net50 和 Res Net101 [5] 作为我们的基线网络。在这里，我们对通过将 CBAM 插入基线网络来提高性能感兴趣。由于我们在所有模型中使用相同的检测方法，增益只能归因于增强的表示能力，由我们的模块 CBAM 给出。如表 6 所示，我们观察到基线的显着改进，证明了 CBAM 在其他识别任务上的泛化性能。

4.5 VOC 2007 目标检测

我们进一步在 PASCAL VOC 2007 测试集上进行实验。在本实验中，我们将 CBAM 应用于检测器，而之前的实验（表 6）将我们的模块应用于基础网络。我们采用了 Stair Net [30] 框架，这是基于 SSD [39] 的最强的多尺度方法之一。在实验中，我们在 Py Torch 平台上重现 SSD 和 Stair Net，以准确估计 CBAM 的性能提升，分别达到 77.8% 和 78.9% m [email protected]，高于原始论文中报告的原始精度.然后，我们将 SE [28] 和 CBAM 放在每个分类器之前，在预测之前细化由上采样的全局特征和相应的局部特征组成的最终特征，强制模型自适应地只选择有意义的特征。我们在 VOC 2007 trainval 和 VOC 2012 trainval (“07+12”) 的联合集上训练所有模型，并在 VOC 2007 测试集上进行评估。训练 epoch 的总数为 250。我们使用 0.0005 的权重衰减和 0.9 的动量。在所有实验中，为简单起见，输入图像的大小固定为 300。

实验结果总结在表 7 中。我们可以清楚地看到，CBAM 提高了具有两个骨干网络的所有强基线的准确性。请注意，CBAM 的准确性提高伴随着可忽略的参数开销，这表明增强不是由于简单的容量增量，而是由于我们有效的特征细化。此外，使用轻量级骨干网络[34]的结果再次表明，CBAM 可以成为低端设备的一种有趣方法。

五、结论

我们提出了卷积瓶颈注意模块（CBAM），这是一种提高 CNN 网络表示能力的新方法。我们使用基于注意力的特征细化两个不同的模块，通道和空间，并在保持较小开销的同时实现显着的性能改进。对于通道注意力，我们建议使用最大池化特征和平均池化特征，从而产生比 SE 更好的注意力 [28]。我们通过利用空间注意力进一步推动性能。我们的最终模块（CBAM）学习了强调或抑制的内容和位置，并有效地改进了中间特征。为了验证其功效，我们对各种最先进的模型进行了广泛的实验，并确认 CBAM 在三个不同的基准数据集上优于所有基线：Image Net - 1 K、MS COCO 和 VOC 2007。此外，我们可视化模块如何准确推断给定输入图像。有趣的是，我们观察到我们的模块诱导网络正确地关注目标对象。我们希望 CBAM 成为各种网络架构的重要组成部分。

附录

1. Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: Imagenet: A large-scale hierarchical image database. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2009)

2. Krizhevsky, A., Hinton, G.: Learning multiple layers of features from tiny images

3. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Proc. of European Conf. on Computer Vision (ECCV). (2014)

4. LeCun, Y., Bottou, L., Bengio, Y., Haﬀner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE 86(11) (1998) 2278–2324

5. He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.

In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)

6. Zagoruyko, S., Komodakis, N.: Wide residual networks. arXiv preprint arXiv:1605.07146 (2016)

7. Xie, S., Girshick, R., Dollár, P., Tu, Z., He, K.: Aggregated residual transformations for deep neural networks. arXiv preprint arXiv:1611.05431 (2016)

8. Szegedy, C., Ioﬀe, S., Vanhoucke, V., Alemi, A.A.: Inception-v4, inception-resnet and the impact of residual connections on learning. In: Proc. of Association for the Advancement of Artiﬁcial Intelligence (AAAI). (2017)

9. Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)

10. Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A.: Going deeper with convolutions. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2015)

11. Chollet, F.: Xception: Deep learning with depthwise separable convolutions. arXiv preprint arXiv:1610.02357 (2016)

12. Mnih, V., Heess, N., Graves, A., et al.: Recurrent models of visual attention."

advances in neural information processing systems. In: Proc. of Neural Information Processing Systems (NIPS). (2014)

13. Ba, J., Mnih, V., Kavukcuoglu, K.: Multiple object recognition with visual attention. (2014)

14. Bahdanau, D., Cho, K., Bengio, Y.: Neural machine translation by jointly learning to align and translate. (2014)

15. Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention. (2015)

16. Gregor, K., Danihelka, I., Graves, A., Rezende, D.J., Wierstra, D.: Draw: A recurrent neural network for image generation. (2015)

17. Jaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks.

In: Proc. of Neural Information Processing Systems (NIPS). (2015)

18. Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D.: Gradcam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2017) 618–626

19. Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classiﬁcation with deep convolutional neural networks. In: Proc. of Neural Information Processing Systems (NIPS). (2012)

20. Han, D., Kim, J., Kim, J.: Deep pyramidal residual networks. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2017)

21. Huang, G., Liu, Z., Weinberger, K.Q., van der Maaten, L.: Densely connected convolutional networks. arXiv preprint arXiv:1608.06993 (2016)

22. Szegedy, C., Vanhoucke, V., Ioﬀe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)

23. Itti, L., Koch, C., Niebur, E.: A model of saliency-based visual attention for rapid scene analysis. In: IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI). (1998)

24. Rensink, R.A.: The dynamic representation of scenes. In: Visual cognition 7.1-3.

(2000)

25. Corbetta, M., Shulman, G.L.: Control of goal-directed and stimulus-driven attention in the brain. In: Nature reviews neuroscience 3.3. (2002)

26. Larochelle, H., Hinton, G.E.: Learning to combine foveal glimpses with a thirdorder boltzmann machine. In: Proc. of Neural Information Processing Systems (NIPS). (2010)

27. Wang, F., Jiang, M., Qian, C., Yang, S., Li, C., Zhang, H., Wang, X., Tang, X.: Residual attention network for image classiﬁcation. arXiv preprint arXiv:1704.06904 (2017)

28. Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. arXiv preprint arXiv:1709.01507 (2017)

29. Chen, L., Zhang, H., Xiao, J., Nie, L., Shao, J., Chua, T.S.: Sca-cnn: Spatial and channel-wise attention in convolutional networks for image captioning. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2017)

30. Sanghyun, W., Soonmin, H., So, K.I.: Stairnet: Top-down semantic aggregation for accurate one shot detection. In: Proc. of Winter Conference on Applications of Computer Vision (WACV). (2018)

31. Zeiler, M.D., Fergus, R.: Visualizing and understanding convolutional networks.

In: Proc. of European Conf. on Computer Vision (ECCV). (2014)

32. Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: Computer Vision and Pattern Recognition (CVPR), 2016 IEEE Conference on, IEEE (2016) 2921–2929

33. Zagoruyko, S., Komodakis, N.: Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer. In: ICLR. (2017)

34. Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H.: Mobilenets: Eﬃcient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)

35. : Pytorch. http://pytorch.org/ Accessed: 2017-11-08.

36. He, K., Zhang, X., Ren, S., Sun, J.: Identity mappings in deep residual networks.

In: Proc. of European Conf. on Computer Vision (ECCV). (2016)

37. Huang, G., Sun, Y., Liu, Z., Sedra, D., Weinberger, K.Q.: Deep networks with stochastic depth. In: Proc. of European Conf. on Computer Vision (ECCV). (2016)

38. Bell, S., Lawrence Zitnick, C., Bala, K., Girshick, R.: Inside-outside net: Detecting objects in context with skip pooling and recurrent neural networks. In: Proc. of Computer Vision and Pattern Recognition (CVPR). (2016)

39. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C.Y., Berg, A.C.: Ssd:

Single shot multibox detector. In: Proc. of European Conf. on Computer Vision (ECCV). (2016)

40. Chen, X., Gupta, A.: An implementation of faster rcnn with study for region sampling. arXiv preprint arXiv:1702.02138 (2017)

41. Ren, S., He, K., Girshick, R., Sun, J.: Faster r-cnn: Towards real-time object detection with region proposal networks. In: Proc. of Neural Information Processing Systems (NIPS). (2015)

你可能感兴趣的:(论文集,目标检测,深度学习,计算机视觉)

QKeras、Brevitas和QONNX量化工具对比 kanhao100 笔记深度学习边缘计算
QKeras、Brevitas和QONNX量化工具对比一、引言在深度学习模型部署领域，量化技术已成为提升模型执行效率的关键手段。通过将浮点权重转换为低精度表示，量化能显著减小模型体积、降低内存占用并加速推理过程。对于资源受限的设备（如移动设备、嵌入式系统和边缘计算设备），量化技术尤为重要。本文深入对比三款主流量化工具：QKeras、Brevitas和QONNX，从用户实际应用角度剖析它们的技术特点
Umi-OCR：解锁高效文字识别的新时代水熠芝Dark-Haired
Umi-OCR：解锁高效文字识别的新时代Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda项目介绍在数字化浪潮席卷全球的今天，文字识别技术已成为提升工作效率和生活质量的关键工具。Umi-OCR，作为一款基于深度学习技术的开源文字识别工具，凭借其强大的功能和高效的性能，迅速成为众多用户的首选。无
Umi-OCR：一款强大而高效的文字识别工具裘心国Trent
Umi-OCR：一款强大而高效的文字识别工具Umi-OCR一款强大而高效的文字识别工具项目地址:https://gitcode.com/Resource-Bundle-Collection/6adda介绍Umi-OCR是一款基于深度学习技术的开源文字识别工具，特别适合日常办公、学术研究及数据分析等场景。它能有效解决将图像中的文字快速转化为可编辑文本的需求，极大提升工作效率。此工具依托于先进的计算机
自动语音识别（ASR）：技术、应用与未来 ajie1117 语音识别人工智能
自动语音识别（ASR）：技术、应用与未来1.ASR简介自动语音识别（ASR，AutomaticSpeechRecognition）是一种将语音转换为文本的技术。它利用人工智能（AI）、深度学习和自然语言处理（NLP）技术来识别和理解人类的语言，使计算机能够与人类进行更自然的交互。2.ASR的工作原理ASR的核心流程通常包括以下几个步骤：语音信号采集：通过麦克风或其他设备获取音频数据。预处理：去除噪
关于误差平面小记文弱_书生乱七八糟平面算法神经网络机器学习
四维曲面的二维切片：误差平面详解在深度学习优化过程中，我们通常研究损失函数（LossFunction）的变化，试图找到权重的最优配置。由于神经网络的参数空间通常是高维的，我们需要使用低维可视化的方法来理解优化过程和误差平面（ErrorSurface）。在这里，我们讨论一个四维曲面的二维切片，其中：三个维度是网络的权重（w1,w2,w3w_1,w_2,w_3w1,w2,w3）。第四个维度是误差（损失
常见经典目标检测算法 109702008 人工智能 #深度学习目标检测人工智能
ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。以下是一些常见的经典目标检测算法：1.R-CNN（RegionswithCNNfeatures）:R-CNN通过使用区域提议方法（如选择性搜索）首先生成潜在的边界框，然后使用卷积神经网络(CNN)提取特征，
目标检测中归一化的目的？林语微光 kaggle 目标检测目标跟踪人工智能
在目标检测任务中，归一化坐标和尺寸时需要除以图像的宽度和高度，主要有以下几个原因：1.统一尺度不同图像可能具有不同的宽度和高度。通过将坐标和尺寸除以图像的宽度和高度，可以将所有图像的标注信息统一到相同的尺度范围（[0,1]）。这使得模型在训练和推理时能够处理任意尺寸的图像，而不需要关心图像的具体像素尺寸。2.位置和尺寸的相对性归一化后的坐标和尺寸是相对于图像尺寸的，而不是绝对像素值。这种相对性使得
GraphCube、Spark和深度学习技术赋能快消行业关键运营环节 weixin_30777913 开发语言大数据深度学习人工智能 spark
在快消品（FMCG）行业，需求计划（DemandPlanning）、库存管理（InventoryManagement）和需求供应管理（DemandSupplyManagement）是影响企业整体效率和利润水平的关键运营环节。GraphCube图多维数据集技术、Spark大数据分析处理技术和深度学习技术的结合，为这些环节提供了智能化、动态化和实时化的解决方案，显著提升业务运营效率和企业利润。一、技术
Marker可以快速且准确地将PDF转换为markdown格式。星霜笔记开源关注简介免费源码 pdf
MarkerMarker可以快速且准确地将PDF转换为markdown格式。支持多种文档类型（针对书籍和科学论文进行了优化）支持所有语言移除页眉/页脚/其他杂质格式化表格和代码块提取并保存图像以及markdown将大多数方程转换为latex支持在GPU、CPU或MPS上运行工作原理Marker是一个由深度学习模型组成的管道：提取文本，必要时进行OCR处理（启发式算法，surya，tesseract
Hugging Face预训练GPT微调ChatGPT（微调入门！新手友好！） y江江江江机器学习大模型 gpt chatgpt
HuggingFace预训练GPT微调ChatGPT（微调入门！新手友好！）在实战中，⼤多数情况下都不需要从0开始训练模型，⽽是使⽤“⼤⼚”或者其他研究者开源的已经训练好的⼤模型。在各种⼤模型开源库中，最具代表性的就是HuggingFace。HuggingFace是⼀家专注于NLP领域的AI公司，开发了⼀个名为Transformers的开源库，该开源库拥有许多预训练后的深度学习模型，如BERT、G
Open-Sora - 为所有人实现高效的视频制作大众化小众AI AI开源音视频人工智能 AI编程
GitHub：https://github.com/hpcaitech/Open-Sora更多AI开源软件：发现分享好用的AI工具、AI开源软件、AI模型、AI变现-小众AI这是一款开源的SOTA（State-of-the-Art）视频生成模型，仅用20万美元（224张GPU）就能训练出商业级11B参数的视频生成大模型。它采用Python语言和PyTorch深度学习框架开发，具有生成速度快、资源消
Adam-mini：深度学习内存效率新突破 XianxinMao 人工智能深度学习人工智能
标题：Adam-mini：深度学习内存效率新突破文章信息摘要：Adam-mini优化器在深度学习领域展现出突破性潜力，尤其在内存效率和计算性能上表现卓越。相比AdamW，Adam-mini将内存效率提升了一倍，并通过减少学习率数量显著降低了内存消耗，同时保持了与AdamW相当甚至更好的性能。在训练十亿参数级别的大语言模型（LLM）时，Adam-mini实现了49.6%的吞吐量提升，并减少了33%的
Transformer与图神经网络的融合与应用 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Transformer与图神经网络的融合与应用关键词：Transformer,图神经网络,注意力机制,图结构数据,图表示学习,图分类,图生成1.背景介绍近年来，深度学习技术在各个领域取得了显著的进展。其中，Transformer模型和图神经网络（GraphNeuralNetworks,GNNs）是两个备受关注的研究方向。Transformer最初应用于自然语言处理领域，通过自注意力机制实现了并行计
深度学习的颠覆性发展：从卷积神经网络到Transformer AI天才研究院 AI大模型应用入门实战与进阶 ChatGPT 大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍深度学习是人工智能的核心技术之一，它通过模拟人类大脑中的神经网络学习从大数据中抽取知识，从而实现智能化的自动化处理。深度学习的发展历程可以分为以下几个阶段：2006年，GeoffreyHinton等人开始研究卷积神经网络（ConvolutionalNeuralNetworks，CNN），这是深度学习的第一个大突破。CNN主要应用于图像处理和语音识别等领域。2012年，AlexKrizh
高性能计算:GPU加速与分布式训练 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着人工智能技术的飞速发展，深度学习模型的规模和复杂度不断提升，对计算能力的需求也越来越高。传统的CPU架构已经难以满足深度学习模型训练的需求，因此，GPU加速和分布式训练成为了高性能计算领域的研究热点。1.1.深度学习与计算挑战深度学习模型通常包含数百万甚至数十亿个参数，训练过程需要进行大量的矩阵运算和梯度更新，对计算资源的需求非常高。传统的CPU架构虽然具有较强的通用性，但其并行计
使用 MistralAI 平台进行开源模型托管与调用 VYSAHF python
MistralAI是一个提供开放源码模型托管的平台，致力于帮助开发者更轻松地使用和管理开源模型。通过该平台，你可以方便地调用强大的深度学习模型，并将其集成到你的应用中。本文将带你了解如何利用MistralAI提供的服务来进行模型的托管和调用。技术背景介绍MistralAI的服务包括了如聊天模型和嵌入模型等，这些模型适用于聊天机器人、文本嵌入等各种场景。使用这些模型需要注册并获取一个有效的API密钥
AI 大模型应用数据中心的数据迁移架构 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能 java python javascript kotlin golang 架构人工智能
AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。这些AI模型通常需要海量的数据进行训练和推理，因此数据中心作为AI应用的基础设施，显得尤为重要。然而，随着AI模型规模的不断扩大，数据中心面临着新的挑战：数据规模庞大:AI模型的训练和推理需要海量数据
暗光增强技术研究进展与产品落地综合分析（2023-2025） AndrewHZ 深度学习新浪潮图像处理算法动态范围计算机视觉深度学习 transformer 暗光增强
一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。本文从技术研究与产业应用两个维度，系统梳理近三年（2023-2025）该领域的关键突破，并对比分析主流手机厂商的影像技术优劣势。二、暗光增强技术研究进展1.算法创新：从传统模型到深度学习（1）Retinex理论的深度结合清华与ETH联合提出的Retinexformer（202
金融风控算法透明度与可解释性优化智能计算研究中心其他
内容概要金融风控算法的透明化研究面临模型复杂性提升与监管合规要求的双重挑战。随着深度学习框架在特征提取环节的广泛应用，算法可解释性与预测精度之间的平衡成为核心议题。本文从联邦学习架构下的数据协作机制出发，结合特征工程优化与超参数调整技术，系统性分析逻辑回归、随机森林等传统算法在召回率、F1值等关键指标上的表现差异。研究同时探讨数据预处理流程对风控决策鲁棒性的影响，并提出基于注意力机制的特征权重可视
H800核心性能优化技术智能计算研究中心其他
内容概要作为新一代AI加速卡的核心创新载体，H800通过异构计算架构与动态能效管理技术的协同设计，实现了从硬件底层到应用层的系统性优化。其技术突破聚焦于张量核心重构带来的计算密度提升、混合精度运算对资源利用率的增强，以及智能散热方案在复杂负载场景下的稳定性保障。这些创新不仅显著提升了30%以上的能效比，更通过精细化任务调度机制，解决了深度学习训练中高并发数据处理与模型参数同步的效率瓶颈。值得关注的
TikTokenizer 项目常见问题解决方案齐飞锴Timothea
TikTokenizer项目常见问题解决方案tiktokenizerOnlineplaygroundforOpenAPItokenizers项目地址:https://gitcode.com/gh_mirrors/ti/tiktokenizer项目基础介绍TikTokenizer是一个开源项目，主要用于文本处理，特别是将文本转化为可用于深度学习的格式。该项目是基于TensorFlow和Keras开发
TypeScript语言的计算机视觉苏墨瀚包罗万象 golang 开发语言后端
使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。计算机视觉旨在使计算机能够“看”和“理解”数字图像或视频中的内容。近年来，TypeScript作为一种现代化的编程语言，因其类型安全和更好的开发体验，逐渐在前端和后端开发中得到了广泛应用。本文将探讨如何使用TypeScript进行计算
DeepSeek混合专家架构赋能智能创作智能计算研究中心其他
内容概要在人工智能技术加速迭代的当下，DeepSeek混合专家架构（MixtureofExperts）通过670亿参数的动态路由机制，实现了多模态处理的范式突破。该架构将视觉语言理解、多语言语义解析与深度学习算法深度融合，构建出覆盖文本生成、代码编写、学术研究等场景的立体化能力矩阵。其核心优势体现在三个维度：精准化内容生产——通过智能选题、文献综述自动生成等功能，将学术论文写作效率提升40%以上；
人工智能之数学基础：数学对人工智能技术发展的作用每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能深度学习机器学习神经网络自然语言处理数学
本文重点数学是人工智能技术发展的基础，它提供了人工智能技术所需的数学理论和算法，包括概率论、统计学、线性代数、微积分、图论等等。本文将从以下几个方面探讨数学对人工智能技术发展的作用。概率论和统计学概率论和统计学是人工智能技术中最为重要的数学分支之一。概率论和统计学的应用范围非常广泛，包括机器学习、数据挖掘、自然语言处理、计算机视觉等领域。在人工智能技术中，概率论和统计学主要用于处理不确定性的问题，
YOLO11改进-模块-引入频率谱动态聚合模块FSDA 去除噪声一勺汤 YOLOv11模型改进系列目标检测魔改模块 YOLO YOLOv11 YOLOv11改进改进
在图像去雾领域，深度学习在白天图像去雾方面成果显著，但夜间雾图研究较少。夜间雾图面临诸多挑战，其中包括雾、辉光和噪声因多个低强度有源彩色光源而具有复杂特性，以及模拟与真实数据的域差异导致的亮度问题。为解决这些，我们使用FSDA模块，处理频率不一致特性。FSDA先对频谱信息聚合，再计算通道权重并应用，最后映射回空间域，以此优化频谱信息，使模型更好处理复杂干扰。本文将其与YOLOv11相结合，增强YO
基于多头注意机制的多尺度特征融合的GCN的序列数据（功率预测、故障诊断）模型及代码详解清风AI 深度学习算法详解及代码复现人工智能神经网络深度学习 python conda pip pandas
GCN基础在深度学习领域中，图卷积网络(GCN)是一种强大的图数据处理工具。它将卷积操作扩展到图结构上，能够有效捕捉图中节点之间的关系信息。GCN的核心思想是通过聚合邻居节点的特征来更新目标节点的表示，这种局部聚合机制使得GCN能够学习到图的拓扑结构和节点属性。GCN的主要构成要素包括节点特征矩阵、邻接矩阵和卷积核。通过多次迭代，GCN可以逐步学习到图中节点的高阶表示，为后续的分类、预测等任务提供
YOLO魔改之频率分割模块（FDM）清风AI YOLO算法魔改系列 YOLO 人工智能计算机视觉目标检测 python 深度学习
目标检测原理目标检测是一种将目标分割和识别相结合的图像处理技术，旨在从图像中定位并识别特定目标。深度学习方法，如FasterR-CNN和YOLO系列，已成为主流解决方案。这些方法通常采用两阶段或单阶段策略，通过卷积神经网络(CNN)提取特征并进行分类和定位。在小目标检测中，为克服分辨率低和特征不明显的问题，模型设计中会特别注重特征融合和多尺度处理，以增强对小目标的感知能力。YOLOv8基础YOLO
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
计算机视觉毕业设计选题推荐：选题技巧建议收藏 HaiLang_IT 毕业设计人工智能计算机视觉
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本