不断进步的咸鱼

【注意力机制】CBAM: Convolutional Block Attention Module

文章目录

摘要
1 介绍
2 相关工作
3 卷积块注意模块（CBAM）
- 3.1 通道注意力模块
- 3.2 空间注意力模块
- 3.3 注意力模块的排列
4 实验
- 4.1 消融研究
- - 4.1.1 探索计算通道注意的有效方法
  - 4.1.2 探索计算空间注意的有效方法
  - 4.1.3 如何结合通道和空间注意模块
  - 4.1.4 总结
- 4.2 在ImageNet-1K的图像分类
- 4.3 使用Grad-CAM进行网络可视化
- 4.4 MS COCO目标检测
- 4.5 VOC 2007目标检测
5 结论

摘要

CBAM：
本文提出卷积块注意模块(CBAM)——前馈卷积神经网络的一种简单而有效的注意模块。给定一个中间 feature map，CBAM模块沿着通道和空间两个维度依次推导 attention map，然后将 attention map 乘以输入feature map进行自适应的特征细化。
CBAM特点：
CBAM是一个轻量级的通用模块，它可以无缝地集成到任何CNN架构中，而开销可以忽略不计，并且可以与基本的CNN一起进行端到端的训练。
实验：
在ImageNet-1K、MS COCO检测和VOC 2007检测数据集上进行大量实验来验证CBAM。实验结果显示了不同模型在分类和检测性能方面的一致改进，表明CBAM的广泛适用性。

1 介绍

CNN架构设计的三个因素（宽度，深度，基数）：
卷积神经网络(Convolutional neural networks, CNNs)基于丰富的表征能力，显著地推动了视觉任务的性能。为了提高CNN的性能，近年来的研究主要集中在三个重要的网络因素：深度、宽度和基数。从LeNet体系结构到到目前为止的残差式网络，网络已经变得更加深入。
（1）VGGNet：表明采用相同形状的块叠加得到的结果是公平的。
（2）ResNet：遵循同样的理念，堆叠相同的residual blocks拓扑结构和skip连接，构建一个非常深的架构。
（3）GoogLeNet：显示宽度是提高模型性能的另一个重要因素。
（4）Zagoruyko和Komodakis ：建议在ResNet架构的基础上增加网络的宽度，并且已经证明了28层的ResNet 增加宽度在CIFAR基准上可以超过一个非常深的ResNet 1001。
（5）Xception 和ResNeXt ：提出增加网络的基数，并通过经验表明基数不仅节省了参数的总数，而且比其他两个因素(深度和宽度)具有更强的表示能力。
CNN架构设计的另一因素（attention注意）：
除了上述因素（宽度，深度，基数），本文研究了架构设计的一个不同方面——attention注意。 attention的意义在以往的文献中得到了广泛的研究，不仅告诉我们应该关注哪里，还能改善感兴趣（区域）的表征。本文目标是利用注意机制来增加表征能力：关注重要特征，抑制不必要特征。
卷积块注意模块（CBAM）：

本文提出一个新的网络模块，——卷积块注意模块。由于卷积操作通过混合跨通道信息和空间信息来提取信息特征，我们采用我们的模块来强调沿这两个主要维度的有意义的特征：通道轴和空间轴。为了实现这一点，依次应用通道和空间注意模块(如图1所示)，这样每个分支就可以分别在通道轴和空间轴上了解关注“什么”和“哪里”。因此本文模块通过学习哪些信息应该强调或抑制，有效地帮助信息在网络中流动。
实验结果：
在ImageNet-1K数据集中，通过在各种基线网络中插入本文模块获得了精度的提高，表明了CBAM的有效性。
使用grad-CAM可视化训练模型， 观察到与基线网络相比，CBAM使得网络更正确地关注目标对象。我们推测性能的提高来自于精确注意和对不相关杂波的降噪。
最后在MS COCO和VOC 2007数据集上验证了目标检测性能的提高，证明了CBAM具有广泛适用性。
CBAM模块为轻量级，所以在大多数情况下参数和计算的开销可以忽略不计。
本文贡献：
1.我们提出了一种简单而有效的注意模块(CBAM)，可广泛应用于提高CNN的表征能力。
2. 通过广泛的消融研究来验证本文注意模块的有效性。
3.通过插入本文轻量级模块，验证了各种网络的性能在多个基准测试(ImageNet-1K、MS COCO和VOC 2007)上得到了极大的提高。

2 相关工作

Network engineering：
已成为最重要的视觉研究之一，精心设计的网络可以确保在各种应用中显著的提高性能。自大规模CNN成功实现以来，人们提出了广泛的架构：
（1）Inception网络：Szegedy等人引入一个使用多分支架构的深度Inception网络，其中每个分支都是精心定制的。
（2）ResNet：单纯的增加深度会导致梯度传播困难，因此ResNet 提出了一种简单的identity skip-connection来缓解深度网络的优化问题。
（3）WideResNet：提出了一个带有大量卷积滤波器和降低深度的残差网络。
（4）PyramidNet：是对网络宽度是逐渐增大的WideResNet的严格泛化。
（5）ResNeXt：建议使用分组卷积，并表明增加基数可以获得更好的分类精度。
（6）DenseNet：迭代地连接输入特征和输出特征，使每个卷积块能够从之前的所有块接收原始信息。
总结： 目前大多数Network engineering方法主要针对深度，宽度 ]和cardinality 三个因素，本文关注的是另一个因素——“注意力”。
注意力机制：
众所周知，注意力在人类知觉中起着重要作用，人类视觉系统的一个重要特性是，人们不会试图一次处理整个场景。相反为了更好地捕捉视觉结构，人类会利用一系列局部瞥见，有选择地聚焦于突出部分。最近有几项尝试利用注意处理，提升大规模分类任务中的性能。
（1）Residual Attention Network：残差注意网络，使用了一种编码 - 解码器风格的注意模块，通过细化特征映射，该网络不仅表现良好，而且对输入噪声具有鲁棒性。
（2）本文CBAM：与直接计算3D attention map不同，本文将通道注意力和空间注意力的学习过程分解开来，3D特征图的独立注意生成过程计算量、参数开销小，因此可以作为已存在的基本CNN架构的即插即用模块。
（3）Squeeze-and-excitation networks：引入了一个紧凑的模块来利用通道间的关系，与本文工作接近：1）在他们的“Squeeze-and-Excitation”模块中，使用全局平均池特征来计算逐通道注意力，然而这些是次优特征。为推断良好的通道注意，本文建议使用最大池化特征。2）没有使用空间注意力，空间注意力在决定关注的“位置”上扮演着重要角色。
总结：
CBAM：基于一种有效的架构，同时利用空间和通道注意，并通过经验验证了两者的利用优于仅使用通道注意。经验表明，本文模块在检测任务(MS-COCO和VOC)上是有效的，特别是只要将我们的模块放在VOC2007测试集中现有的单阶段检测器上，就可以实现最先进的性能。

3 卷积块注意模块（CBAM）

输入为中间特征图F∈R^C×H×W，CBAM依次推导出1D通道注意力映射（channel attention map）M_c∈R^C×1×1和2D空间注意力映射（spatial attention
map）M_s∈R^1×H×W，如图1。整个注意过程可以概括为：

其中⊗表示逐元素相乘，在乘法过程中，注意力值（attention values ）被相应地传播(复制)：通道注意值沿着空间维度传播。f’'是最终的细化输出。图2描述每个注意力图（attention map）的计算过程。

3.1 通道注意力模块

利用特征间的通道关系来生成通道注意力图（channel attention map）。feature map的每个通道都被认为是一个特征检测器，通道注意力关注给定输入图像中“什么”是有意义的。
为有效计算通道注意力，压缩输入特征图的空间维数（空间信息聚合）：
1）平均池化（ average-pooling）是目前普遍采用的方法，
2）最大池化（max-pooling）我们认为它收集了关于目标特征另一个重要线索，以推断更精细的通道注意的。
我们同时使用平均池化和最大池化来池化特征。经验证实利用这两个特征比单独使用每一个特征能极大地提高网络的表征能力
详细操作：
（1）首先通过使用平均池化（average-pooling）和最大池化（max-pooling）操作聚合特征图的空间信息，生成两个不同的空间上下文描述符，分别表示平均池化特征和最大池化特征。
（2）然后这两个空间描述符被转发到一个共享网络，来产生通道注意力映射（channel attention map）M_c∈R^C×1×1。共享网络由包含一个隐藏层的多层感知器(MLP)组成，为了减少参数开销，隐藏的激活大小设置为R^C/r×1×1，其中r是缩减率。
（3）共享网络应用于每个描述符后，使用逐元素求和来合并输出特征向量。
通道注意力计算方式：

其中σ为sigmoid函数，W₀∈R^C/r×C, W₁∈R^C×C/r。注意MLP权重W₀和W₁对于两个输入都是共享的，ReLU激活函数后面跟着W₀。

3.2 空间注意力模块

利用特征间的空间关系生成空间注意力图（spatial attention map）。与通道注意力不同的是，空间注意力关注输入图像中“哪里”是信息部分，是对通道注意力的补充。
为了计算空间注意力：
1）首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来生成一个有效的特征描述符。（沿着通道轴应用池化操作在突出显示信息区域方面被证明是有效的）；
2）然后在连接的特征描述符上，应用卷积层生成空间注意力图M_s(F)∈R^H×W,编码在何处进行强调或抑制。
详细操作：
（1）通过两个池化操作聚合一个特征图的通道信息，生成两个2D映射：，分别表示跨通道的平均池化特征和最大池化特征。
（2）然后将这些信息连接起来并通过一个标准的卷积层进行卷积，产生2D空间注意力图。
（3）最后通过sigmoid函数进行标准化得到最终注意力图。
空间注意力计算如下：

其中σ为sigmoid函数，f^7×7为7×7的卷积运算

3.3 注意力模块的排列

给定一个输入图像，两个注意力模块——通道注意力模块和空间注意力模块），计算互补注意力，分别关注“什么”和“哪里”。
两个模块可以以并行或顺序的方式放置，但顺序排列比平行排列得到更好的结果。实验结果表明在顺序排列方式上，通道注意力优先的排列比空间注意力优先的排列略好。

4 实验

在标准基准上评估CBAM：ImageNet-1K用于图像分类、MS COCO和VOC 2007用于目标检测。

为了彻底评估CBAM模块的有效性，进行了大量的烧蚀实验，实验验证了CBAM优于所有的基线，CBAM在不同体系结构和不同任务中具有一般适用性，可以在任何CNN架构中无缝地集成CBAM，并共同训练联合CBAM的增强网络。 图3以ResNet为例的CBAM与ResBlock集成示意图。

4.1 消融研究

实验设置：
（1）使用ImageNet-1K数据集，ImageNet-1K分类数据集由120万张用于训练的图像和50000张用于验证的图像组成，包含1000个类。
（2）采用ResNet-50作为基础架构。
（3）采用数据增强方案进行训练，并在测试时应用大小为224×224的 single-crop评价。
（4）学习速率从0.1开始，每30个epoch下降一次，网络训练90个epoch，并报告了在验证集的分类错误。
模块设计过程分为三个部分：
（1）首先寻找计算通道注意的有效方法；
（2）然后是探索计算空间注意的有效方法;
（3）最后考虑如何结合通道和空间注意模块。

4.1.1 探索计算通道注意的有效方法

通过实验验证同时使用平均池化和最大池化的特征能够更好地进行注意力推断。
（1）实验设置：
比较3种不同的通道注意力：
1）平均池化（average pooling）：具有平均池化注意的通道注意模块与SE模块相同；
2）最大池化（ max pooling）；
3）两种池化的联合使用：当使用两个池化时，使用共享的MLP进行注意推断以节省参数，因为这两个聚合通道特征都处于同一个语义嵌入空间。

（2）实验结果：（表1）
1）最大池化的特征和平均池化的特征一样有意义，比基线提高了准确性。在SE的工作中，只利用了平均池化的特征而忽略了最大池化特征的重要性。
2）本文认为最大池化特征编码最显著部分的程度，可以补偿编码全局统计的平均池化特征。本文建议同时使用这两个特性，并对这些特性应用共享网络，然后共享网络的输出按逐元素求和的方式进行合并。
（3）实验表明：
本文通道注意方法是一种有效的方法，性能远超SE，并且没有额外的可学习参数。
（4）结论：
本文通道注意模块中同时使用了平均池化和最大池化特征。

4.1.2 探索计算空间注意的有效方法

已经给出了基于通道的精细特征，我们探索一种计算空间注意力的有效方法，设计理念与通道注意分支对称。
（1）生成2D空间注意力图：
1）首先计算一个2D描述符，在所有空间位置的每个像素上编码通道信息；
2）然后对2D描述符应用一个卷积层，得到原始注意力图；
3）最后通过sigmoid函数进行标准化得到最终注意力图。
（2）两种生成2D描述符的方法：
1）通道池化：在通道轴上使用平均池化和最大池化；
2）标准的1×1卷积：将通道维数减小为1。
（3）研究卷积核大小在卷积层的影响：
卷积核大小为3和7。
（4）实验设置：
实验中将空间注意模块放置在前面设计的通道注意模块之后，最终的目标是将两个模块一起使用。

（5）实验结果：（表2）
1）通道池化生成2D描述符的方法产生了更好的准确性，这表明明确建模的池化产生了更好的注意力推理，相比于可学习的权重通道池化(既标准1 × 1卷积)。
2）在对不同卷积核大小的比较中，我们发现采用较大的卷积核能产生更好的精度，这意味着需要一个广阔的视野(即大的接受野)来决定重要的空间区域。
（6）结论：
使用横跨通道轴的平均池化和最大池化的特征（采用通道池化的方法），加上卷积核大小为7的卷积层（大卷积核尺寸），作为我们的空间注意模块，计算空间注意力。

4.1.3 如何结合通道和空间注意模块

（1）实验设置：
比较了三种不同的通道注意和空间注意模块的排列方式：
1)顺序通道-空间注意
2)顺序空间-通道注意
3)两个注意模块的并行使用。
（1）实验设计理念：
1）由于每个模块的功能不同，模块的顺序可能会影响整体性能，如从空间的角度来看，通道注意是全局的，而空间注意则是局部的。
2）此外我们很自然地认为可以结合两种注意力输出来构建一个3D注意力图，在这种情况下可以将两个注意模块并行应用，然后将两个注意模块的输出相加，用sigmoid函数进行归一化。
实验结果（表3）：

1）顺序生成注意力图比并行生成注意图更精细。
2）通道优先的排列方式比空间优先的排列方式的性能稍好。
3）所有的安排方法都比单独使用通道注意力的效果好，这表明利用这两种注意力是至关重要的，而最佳安排策略将进一步推动性能。

4.1.4 总结

在消融研究中，设计了通道注意模块、空间注意模块以及两个模块的排列。
最终的模块：在通道和空间注意模块上都选择了average- and max-pooling；在空间注意模块中使用卷积核大小为7的卷积层；将通道子模块和空间子模块按顺序排列,如图1,2。 .
最后的模块ResNet50 + CBAM的top-1 error值为22.66%，远低于ResNet50 + SE的top-1 error值，见表4。

4.2 在ImageNet-1K的图像分类

在ImageNet-1K分类实验中评估本文的模块在各种网络架构：ResNet ， WideResNe，ResNext的表现。
实验结果（表4）：

1）使用CBAM的网络明显优于所有的基线，表明CBAM可以在大规模数据集的各种模型上很好地泛化；
2）使用CBAM的模型比最强的方法之一SE（ILSVRC 2017分类任务的获胜方法）提高了准确性，意味着本文提出的方法是强大的，显示了新的池化方法的有效性，产生更丰富的描述符和空间注意，有效补充通道注意。
各网络在ImageNet-1K训练过程中的误差曲线（图4）：

本文方法在两个错误图中显示出最低的训练和验证错误。表明与SE相比CBAM具有更强的提高基线模型泛化能力的能力。
CBAM在参数和计算方面的总体开销都相当小:

CBAM在参数和计算方面的总体开销都相当小，促使我们将CBAM模块应用于轻量级网络，MobileNet。
表5总结了基于MobileNet架构的实验结果，将CBAM分为两种模式，基本模块和减少容量模块(即调整宽度乘数(α)到0.7)。CBAM不仅显著提高了基线的准确性，而且很好地提高了性能。显示了CBAM在低端设备上应用的巨大潜力。

4.3 使用Grad-CAM进行网络可视化

Grad-CAM：
为了定性分析，使用ImageNet验证集的图像在不同的网络上应用Grad-CAM。Grad-CAM是最近提出的一种可视化方法，它利用梯度来计算卷积层中空间位置的重要性。由于梯度是根据一个唯一的类计算的，Grad-CAM结果清楚地显示了参加的区域，通过观察网络认为对预测类很重要的区域，试图看这个网络是如何很好地利用特征。
可视化对比：
比较CBAM集成网络(ResNet50 + CBAM)与基线网络(ResNet50)和SE集成网络(ResNet50 + SE)的可视化结果。图5为可视化结果，目标类的softmax分数也显示在图中。

在图5中可以清楚地看到，CBAM集成网络的Grad-CAM masks比其他方法更能覆盖目标对象区域，也就是说CBAM集成的网络能够很好地学习利用目标区域的信息并从中聚合特征，目标类分数也相应提高。通过观察，我们推测CBAM的特征细化过程最终导致网络很好地利用给定的特征。

4.4 MS COCO目标检测

实验设置：
1）数据集：Microsoft COCO数据集包括80k训练图像(“2014训练”)和40k验证图像(“2014 val”)。
2）评价指标：从0.5到0.95不同IoU阈值上的mAP用于评价。
3）训练集及验证集：使用所有的训练图像以及验证图像的子集来训练模型，5000个图像进行验证。
4）迭代步数：训练迭代490K。
5）基线网络：采用Faster-RCNN目标检测方法，ImageNet预训练的ResNet50和ResNet101作为基线网络。
将CBAM插入基线网络（目标检测主干网络）提高性能，由于在所有模型中使用相同的检测方法，增益只能归因于CBAM模块增强表征能力。

实验结果：（表6）
CBAM在其他识别任务上的泛化性能较基线显著提高。

4.5 VOC 2007目标检测

将CBAM模块应用于检测器，之前的实验(表6)将CBAM模块应用于基础网络。
实验设置：
1）采用基于SSD的最强多尺度方法之一 StairNet。
2）将SE和CBAM放在每个分类器的前面，在预测前细化由上采样的全局特征和相应的局部特征组成的最终特征，强制模型自适应地选择有意义的特征。
3）数据集：在VOC 2007 trainval和VOC 2012 trainval(“07+12”)的联合集上对所有模型进行训练，在VOC 2007测试集上进行评估。
4）训练epoch为250，使用权重衰减为0.0005，动量为0.9，输入图像的大小都固定为300。

实验结果：（表7）
CBAM提高了两个骨干网基线的准确性，并且CBAM的精度提高伴随着可以忽略的参数开销，这表明增强不是由于单纯的容量增量，而是由于有效的特性细化。
此外使用轻型骨干网的结果再次表明，CBAM可以是一个有趣的低端设备的方法。

5 结论

本文：
提出卷积瓶颈注意模块(CBAM)——一种提高CNN网络表征能力的新方法。
采用基于注意力的特征精细化方法，分别采用通道和空间两个不同的模块，在保持开销较小的同时，获得了相当大的性能提升。
通道注意力模块使用最大池化特征和平均池化的特征，产生比SE更好的注意力；通过利用空间注意力模块来进一步推动性能。
最终模块(CBAM)学习到了应该强调或抑制‘’什么‘’和‘’哪里‘’，精细化中间特征。
实验结果：
为验证其有效性，使用各种先进模型进行大量实验，并证实CBAM在三个不同的基准数据集上优于所有基线：ImageNet-1K、MS COCO和VOC 2007。
可视化结果：
可视化模块如何准确地推断给定的输入图像，观察到CBAM模块诱导网络正确地聚焦目标对象。
我们希望CBAM成为各种网络架构的重要组成部分。

番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
轻量级模型解读——轻量transformer系列 lishanlu136 #图像分类轻量级模型 transformer 图像分类
先占坑，持续更新。。。文章目录1、DeiT2、ConViT3、Mobile-Former4、MobileViTTransformer是2017谷歌提出的一篇论文，最早应用于NLP领域的机器翻译工作，Transformer解读，但随着2020年DETR和ViT的出现(DETR解读，ViT解读)，其在视觉领域的应用也如雨后春笋般渐渐出现，其特有的全局注意力机制给图像识别领域带来了重要参考。但是tran
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
Python(PyTorch)和MATLAB及Rust和C++结构相似度指数测量导图亚图跨际 Python 交叉知识算法量化检查图像压缩质量低分辨率多光谱峰值信噪比端到端优化图像压缩手术机器人三维实景实时可微分渲染重建三维可视化
要点量化检查图像压缩质量低分辨率多光谱和高分辨率图像实现超分辨率分析图像质量图像索引/多尺度结构相似度指数和光谱角映射器及视觉信息保真度多种指标峰值信噪比和结构相似度指数测量结构相似性图像分类PNG和JPEG图像相似性近似算法图像压缩，视频压缩、端到端优化图像压缩、神经图像压缩、GPU变速图像压缩手术机器人深度估计算法重建三维可视化推理图像超分辨率算法模型三维实景实时可微分渲染算法MATLAB结构
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
transformer架构(Transformer Architecture)原理与代码实战案例讲解 AI架构设计之禅大数据AI人工智能 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
transformer架构(TransformerArchitecture)原理与代码实战案例讲解关键词：Transformer,自注意力机制,编码器-解码器,预训练,微调,NLP,机器翻译作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来自然语言处理（NLP）领域的发展经历了从规则驱动到统计驱动再到深度学习驱动的三个阶段。
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
计算机视觉——第三章图像拼接 JMU15980999055 python 计算机视觉人工智能
计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接3.1图片集说明3.2实验代码3.3实验结果及其分析总结1.图像全景拼接的原理和过程的简要介绍在同一位置拍摄的两幅或者多幅图片是单应性相关的，我们经常使用该约束将很多图像缝补起来，拼成一个
计算机视觉学习路线不会代码的小林计算机视觉
计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。以下是一个详细的计算机视觉学习路线，供您参考：一、基础知识学习编程语言与基础库学习Python语言，掌握基础语法、函数、面向对象编程等概念。Python是计算机视觉领域广泛使用的编程语言，因其简洁易读和丰富的库支持而受到青睐。学习Numpy库，用于科学计算和多维数组操作，这是计算机视觉中数据处理的基础。学习OpenCV
【Python第三方库】OpenCV库实用指南墨辰JC Python opencv python 人工智能学习
文章目录前言安装OpenCV读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库，提供了丰富的图像处理和计算机视觉功能，尤其在图像识别、对象检测、视频分析等领域有着广泛的应用。本文将带领读者使用Pyt
ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率爱研究的小牛 AIGC——图像 AIGC—视频 AIGC 人工智能深度学习音视频自动化
ESRGAN（EnhancedSuper-ResolutionGAN）：用于提高图像的分辨率，将低质量图像升级为高分辨率版本，常用于老旧照片、视频帧的修复和增强。一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。传统的算法（如双三次插值）通常导致放大后的图像模糊、不自然。而深度学习特别是**生成对抗网络（G
计算机视觉之旅-进阶-图像滤波处理撸码猿计算机视觉图像处理人工智能
1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到
基于Pytorch框架的CIFAR-10图像分类任务（附带完整代码）难得北窗高卧 pytorch 人工智能 python 深度学习
本文主要实现在pytorch框架下，训练CIFAR数据集，通过观察训练和验证的误差、准确率图像来进一步改善。保存最好的模型。测试集打印整体准确率和每一类别的准确率，并生成混淆矩阵，将其中每一个错误的图片并保存下来。语言：python实现方式：pytorch框架,CPU关键词:CIFAR-10数据集、Dataset和Dataloader、SummaryWriter画图、网络模型搭建、混淆矩阵、统计所
探秘3D UNet-PyTorch：高效三维图像分割利器鲍凯印Fox
探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。本文将深入剖析该项目的技术细节，应用场景及特性，以期吸引更多的开发者和研究人员参与其中。项目简介3DUNet是2DUNet的三维扩展，其结构保持了卷积神经网络的对称性，采用跳跃连接的方式保留了不同尺度
论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
深度学习计算机视觉中 feature modulation 操作是什么？ Wils0nEdwards 深度学习计算机视觉人工智能
什么是特征调制（FeatureModulation）？在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。特征调制通过动态调整神经网络中间层的特征，使模型能够根据不同的上下文、输入或任务自适应地调整自身的行为。特征调制的核心概念特征调制的基本思想是通过某种形式的参数调节来改变特征表示的性质
计算机视觉中，如何理解自适应和注意力机制的关系？ Wils0nEdwards 计算机视觉人工智能
自适应和注意力机制之间的关系密切相关，注意力机制本质上是一种自适应的计算方法，它能够根据输入数据的不同特点，自主选择和聚焦于输入的某些部分或特征。以下是两者之间的具体关系和如何理解它们：1.注意力机制的自适应特性注意力机制的核心功能是为不同输入元素（如特征、位置、通道等）分配不同的权重。这些权重是通过学习动态生成的，表示模型对不同输入元素的关注程度。由于这些权重是根据具体的输入数据动态计算的，因此
解锁Python中的人脸识别：Face Recognition库详解与应用码上飞扬 Recognition 人脸识别
在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。在众多的人脸识别工具和库中，Python的FaceRecognition库以其简单易用和高效性而备受青睐。本文将深入探讨FaceRecognition库的使用方法、工作原理及其应用场景，帮助你快速掌握这一强大的工具。一、什么是FaceRecogniti
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st