yBooooo

MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection

MAF-YOLO:基于多模态注意力融合的行人检测YOLO

ABSTRACT

实现自然环境中行人的快速准确检测是人工智能系统的重要应用。然而，由于红外图像的低光密度和低分辨率，夜间行人的准确检测具有一定的挑战性，且对检测速度要求较高。提出一种基于多模态注意力融合YOLO (mafo -YOLO)的实时行人检测方法。首先，基于压缩的Darknet53框架构建多模态特征提取模块，以适应夜间行人检测，保证检测效率;从两种模式中提取特征，然后通过模态加权融合模块进行融合。其次，我们定义一个损失函数，并基于K-means聚类算法重新生成锚箱的大小，以提高小目标的检测速度和鲁棒性。最后，利用双注意模块从低分辨率的小目标中获取更多的语义特征。在KAIST和OSU的色热数据集上的实验结果证实了该方法的有效性。该方法也可用于其他行人检测算法。

1. Introduction

目标检测技术在计算机视觉中发挥着重要的基础性作用，因为它具有多种用途，如安全系统、目标跟踪、行人检测等。随着无人驾驶汽车的发展，行人检测已成为目标检测领域的关键问题。精确的行人检测算法可以提高无人驾驶技术的安全系数，保护驾驶员[1]。然而，在日常道路条件下，气候和照明变化会显著影响行人检测的准确性。此外，行人检测算法容易受到各种干扰的阻碍，例如低分辨率、遮挡或小目标检测，这导致检测精度低[2]。因此，如何在光照不足的情况下提高行人检测模型的鲁棒性是一个亟待解决的问题。迄今为止，人们从不同的角度提出了许多解决这一问题的方法。然而，大多数现有的方法倾向于在不以主要对象为目标的情况下处理提议区域包含的全部信息，这会在处理过程中产生许多不相关的信息。例如，在特征提取方面，各种背景信息可能会分散注意力。另一方面，目前的方法通常很难检测到小目标。因此，有效获取目标行人的特征仍然是一个尚未解决的问题；这主要是因为视觉信息在夜间情况下要复杂得多[3]。

即使在照明不足的情况下，红外热像仪也能获得图像的特征。它可以基于有限的可见光模式获取信息，使夜间行人检测成为可能[4]。然而，基于可见光的行人检测算法仍然表现得更好，因为在良好的光照条件下，红外光图像包含相对更多的次要特征信息。因此，近年来提出了大量基于红外和可见光多模式融合的行人检测算法。Hwang等人[5]提出了结合可见光和红外光模式的ACF+T+THOG（聚合通道特征+热+定向梯度热直方图）。实验结果表明，融合式行人检测器的性能优于单模态行人检测器。然而，由于采用传统方法，检测精度仍然有限。Wagner等人[6]利用深度卷积神经网络，提出了两种特征融合策略：早期融合和晚期融合。Liu等人[7]进一步讨论了基于深度卷积神经网络的可见光和红外图像的特征融合结构，提出了比早期融合和晚期融合更好的中间融合，再次提高了检测性能。Konig等人[8]利用区域建议网络（RPN）作为基于中途融合的特征提取模块，并使用增强决策树（BDT）进行分类，以提高行人检测器的性能。然而，上述多模式行人检测算法在特征提取过程中忽略了行人图像的多尺度问题。它只融合了单独的特征层，这导致多尺度行人检测任务，尤其是小目标行人检测任务的鲁棒性较低。此外，这些算法使用的融合方法都是直接拼接的，忽略了白天和夜间不同光照条件下各模态特征信息的差异，导致检测结果不足。近年来，为了改善卷积神经网络的性能，人们在注意机制方面做了许多引人注目的工作。至于空间方面的注意，它探索了计算机视觉领域中的空间相关性，从图像标题[9]，目标检测[10]到图像分类[11]。在通道注意方面，Hu等人[12]引入了SENet块，通过网络本身的损失来生成特征权重。Zhang等人[13]利用空间和通道注意作为加权机制，这有利于行人检测。Woo等人[14]提出了一种结合空间注意和通道注意的新注意模型。方和韩[15]提出了一种新的空间和通道注意机制，并结合U-net进行图像分割。

近年来，为了改善卷积神经网络的性能，人们在注意机制方面做了许多引人注目的工作。至于空间方面的注意，它探索了计算机视觉领域中的空间相关性，从图像标题[9]，目标检测[10]到图像分类[11]。在通道注意方面，Hu等人[12]引入了SENet块，通过网络本身的损失来生成特征权重。Zhang等人[13]利用空间和通道注意作为加权机制，这有利于行人检测。Woo等人[14]提出了一种结合空间注意和通道注意的新注意模型。方和韩[15]提出了一种新的空间和通道注意机制，并结合U-net进行图像分割。

2.Related work

行人检测是计算机视觉领域中应用于各种场景的一项基本任务，它集人体检测和目标识别于一体。行人检测方法通常包括三个主流：经典行人检测器、两阶段方法和一阶段方法。

2.1. 经典行人检测器

2.3. 一阶段法

近年来，随着工业应用的发展，对目标检测领域的效率和及时性的需求迅速增加。已经发明了许多经典的单阶段方法，包括YOLO系列网络[29–31]和SSD[32]，它们直接预测了定位、对象标签和区域建议。此外，与两阶段方法不同，YOLO网络直接执行回归以检测图像中的目标，而不需要区域建议网络，从而提供更快的检测速度。You Only Look Once（YOLO）方法最初由Redmon等人发明。一年后，Redmon等人促进了YOLOv1并提出了YOLOv2。采用穿透层将高分辨率特征图与低分辨率特征图关联起来进行多尺度检测。其他技术，包括批量标准化和锚盒卷积，也被用来提高召回率和准确性。YOLOv3在主干网（Darknet53）中应用了剩余块，并引入了特征金字塔网络（FPN）以提高其性能。Lin等人[33]设计了视网膜网和焦距损失，以在训练密集探测器的同时解决前景和背景之间的不平衡问题。这些研究为物体检测领域提供了理论基础和参考。
3.网络结构

所提出的模型的图示如图1所示。MAF-YOLO网络利用C-DarkNet53，基于DarkNet53的修改后的神经网络框架，作为骨干，以从可见光和红外光型模式中提取特征。然后，使用模态加权融合模块来更好地熔化提取的特征。最后，将双重注意力模块添加到网络以获得更好的准确性。

3.1. The compressed Darknet53 architecture

虽然原始YOLOv3的结构可以解决一般的目标检测问题，但其结构在夜间处理行人检测方面存在局限性，因为小型红外目标的特征主要包括低分辨率、模糊细节和缺乏彩色特征。此外，Darknet-53频繁的最大池和深层结构很容易导致小物体提取特征的差异，这使得夜间行人检测成为一项相当具有挑战性的任务。为此，我们提出了压缩的Darknet53神经网络结构，以提高MAF-YOLO在夜间对小目标的特征提取能力。网络结构改进的基本思想是压缩特征提取模块的深度，从浅卷积层中获取最多的特征。此外，来自浅层的感受野含有较少的噪声，更适合提取低分辨率小目标的语义特征，对红外目标具有更好的表征能力。相反，深卷积结构更适合处理高分辨率细节特征，不适合包含较少语义特征的低分辨率图像，因此可以进行压缩。

在压缩的Darknet53网络中，我们从Darknet53的深层移除卷积层和残余层，以避免模型退化。由于红外目标往往相对较小，分辨率较低，细节模糊，因此在深卷积层中提取的红外图像特征图包含的信息较少。它很容易在感受区产生噪音，导致精确度降低。与深卷积层的特征映射不同，浅卷积层的特征映射保留了红外目标更多的语义特征，感受野中的噪声更少。此外，为了保留更多低分辨率目标的语义信息，我们将核数比原来的Darknet53减少了四倍。在主干上实现从深到浅的压缩是一种有效的方法，可以充分利用低级功能，同时降低计算复杂度并提高实时性能。

此外，Szegedy表明，如果用1×n卷积代替n×n卷积，然后再进行n×1卷积，可以大大节省计算成本[34]。受这个想法的启发，我们采用了1×3和3×1卷积层代替3×3卷积层的技术，这进一步有利于低分辨率红外目标检测。为了简单起见，我们在本文的剩余部分将压缩的Darknet53表示为C-Darknet53。原始53和压缩53的比较如图2所示。

3.2. Multi-modal feature extraction module

设计了基于双通道结构的多模态特征提取模块。我们使用C-Darknet53作为框架，从可见光和红外光模态中提取特征，分别命名为C-Darknet53-V和C-Darknet53-I。输入图像大小为416×416，从两种模态中获得的特征映射被转发到模态加权融合模块（表示为MWF）。可见光模式的特征图表示为（V1、V2、V3）。红外光模式的特征图标记为（I1、I2、I3）。模态加权融合模块的输出标记为（M1、M2、M3）。多模态特征提取模块的图示如图3所示。

3.3. Modal weighted fusion module

图4显示了白天场景和夜间场景中行人目标的可见光和红外图像之间的比较，可见光模式下的白天行人图像包含丰富的特征和清晰的纹理。然而，红外光模式仅包含轮廓信息。对于夜间行人图像而言，在可见光模式下，在光照不足的情况下很难对目标进行定位。然而，在红外光模式中，情况正好相反。因此，在白天和夜间不同的光照条件下，两种模式的图像表现出不同的特征。以前的一些基于多模式融合的行人检测算法直接使用级联来级联从两种模式中提取的特征[35–37]，这假定两种模式贡献相同比例的信息。此外，Kopf等人[38]证明，图像的亮度特征可以通过其平均亮度和范围来定义。在本文中，我们利用图像中的平均像素值作为平均亮度的测量值，范围从第5个到第95个像素值百分位。最终，平均亮度和范围标准化为间隔[0,1]。图5示出了KAIST数据集中的平均亮度和范围的分布。可以看出，红外模态图像在平均亮度和范围上比可见模态图像具有更小的值。

根据之前的观察，我们可以推断，在白天照明下，可见光模式的权重应该占主导地位，而红外光模式的权重应该不重要，因此最终的检测结果将从这两种模式中受益。相反，在夜间照明下，红外光模式的权重应该高于可见光模式的权重，因为彩色图像提供的干扰大于帮助。因此，我们提出了一种模态加权融合模块来调节两种模态的重要性，而不是仅仅将它们连接起来。考虑到这些直觉，我们仔细设计了图像的模态权重，作为映射I→ iv，其中I表示输入图像，iv表示输入图像的归一化平均亮度和范围。我们在图6中展示了我们的模态融合机制。在左侧的情况下，在良好的照明条件下，可见子网络的模态权重比红外子网络的模态权重大。通过这种方式，可见光子网络比红外子网络贡献更多。在正确的情况下，在恶劣的照明条件下，红外子网络的模态权重为0.95。因此，最终的融合结果主要由红外子网决定。我们还在两个子网络中实施网络中网络（NIN）结构[39]，以提高疗效。模型加权融合模块的图示如图7所示。

为了确保维度一致性，我们对融合特征映射使用与单一模式特征映射相同数量的通道。最后，我们将两种模式的特征图连接起来，如下所示：

其中Av和Ai定义为可见光和红外模态分支的输出，ivvisible和ivinfrared表示可见光和红外图像的模态权重，Mi表示为最终输出，通过融合两个子网络的输出获得。

3.4. Dual attention module

3.4.1. Channel attention block

值得注意的是，特征图的每个通道都起着至关重要的作用，对检测结果的贡献也各不相同。因此，我们提出了一种通道注意块（CAB）来利用特征映射的通道间关系。模型的表征能力可以通过采用通道注意来提高，从而增强相关特征并抑制不相关特征。频道注意块的示意图如图8所示。全球平均池化，它通常用于聚集通道信息，通过压缩输入特征映射的空间维度来创建像素反馈特征，以计算通道注意。然而，它认为特征图的每个部分都具有相同的重要性，这降低了反映更显著特征的特征图的贡献。全局最大池可以收集关于不同对象特征的基本线索，以推断更精细的通道特征，这是对全局平均池的补充。

为了实现特征的有效重新校准，我们将全局最大池应用到传统的通道注意块中。该特征向量是通过全局平均池特征和全局最大池特征从高层获得的。公式定义如下：

其中BC（H）表示通道注意图，该图由高级特征生成，用于引导通道注意信息获取的低级特征，HCAVG和HCMAX分别表示全局平均汇集高级特征和全局最大汇集高级特征，H′CAVG和H′CMAX表示通过隐藏层处理后的全局平均合并高级特征和全局最大合并高级特征，其中HCAVG、HCMAX、H′CAVG和H′CMAX∈ Rc×1×1，c是高级特征的通道数，σ是将通道权重值映射到区间[0,1]的sigmoid函数。W0和W1表示权重隐藏层的矩阵WT0和WT1是W0和W1的转置矩阵，其中W0∈ Rc×cs和W1∈ rcs×c，s是比例因子。

3.4.2. Spatial attention block

为了有效地编码特征地图之间的空间关系，我们提出了空间注意块（SAB）。空间注意块的示意图如图9所示。与频道注意力相比，空间注意力集中在特征图的信息区域，这是通道注意力的补充方法。不同通道特征的相同部分具有相同的空间权重，通道注意对每个通道中的所有特征点具有相同的权重。此外，空间注意对每个特征点进行不同的处理，并对所有通道位置相同的值施加全局平均池和全局最大池，从而获得其在特定位置的空间权重值。此外，获得的空间权重值被用作通道注意机制不能很好地获得的位置信息的补充。为了计算空间注意，我们首先采用全局最大池和全局平均池操作，然后执行元素加法以获得足够的特征描述符。此后，特征描述符被转发到卷积层，并通过元素乘积执行，以生成空间注意特征图。公式定义如下：

其中，BS（L）是空间注意特征图，由低级特征生成，用于指导高级特征进行空间注意筛查，LSAVG和LSMAX分别表示全局平均汇总低级特征和全局最大汇总低级特征，其中LSAVG，LSMAX∈ R1×h×w，h和w表示低层特征映射的高度和宽度，σ是sigmoid函数，Conv表示核大小为7×7、核数为1的卷积运算。

3.4.3. Dual attention module combining channel and spatial attention block

结合通道和空间注意块的双注意模块

在本文中，我们提出了一种结合CAB和SAB的双注意模块（DAM），以提高行人检测的准确性。大坝示意图如图10所示。到目前为止，MAF-YOLO中都采用了通道和空间注意机制，以获得更好的检测结果。高级特征引导低级特征获取通道注意信息，低级特征反过来引导高级特征进行空间注意筛选。因此，可以在不显著增加计算复杂度的情况下提高特征提取的性能。公式如下：

其中H表示高级特征，L表示低级特征，BC（H）表示高级特征生成的通道注意图，其中BC（H）∈ Rc×1×1，BS（L）表示由低级特征生成的空间注意图，其中BS（L）∈ R1×h×w，F代表DAM生成的特征图，其中F∈ Rc′×h×w。通道数c′等于高级特征、低级特征、CAB和SAB的通道数之和。

3.5. Multi-scale pedestrian detection多尺度行人检测

特征地图（M1、M2、M3）通过模态加权融合模块进行增强，并进一步传输到yolo层，用于多尺度行人检测。多尺度行人检测结构的图示如图11所示。DBL（卷积、批量规范化和泄漏ReLU）是由卷积层、批量规范化和一个Leaky-ReLU激活组成的块函数。特征地图M1经过5个DBL块后，大小为13×13的调整大小的特征地图被转发到yolo1层，用于大规模行人检测。然后我们从之前的两层中提取特征图，并将其上采样两次。上采样功能被用作低级功能，并通过双注意模块与高级功能M2合并。输出F2经过多个卷积层处理后，尺寸为26×26的特征地图被转发到yolo2层进行中尺度行人检测。这样，我们可以从上采样的特征中提取更有意义的语义信息，并从之前的特征映射中提取更细粒度的信息。最后，我们重复同样的操作，采用上采样F2作为低级特征，并通过双注意模块将其与高级特征M3合并。输出F3经过多个卷积层处理后，大小为52×52的特征映射被转发到YOL3层进行小尺度检测。该结构对多尺度行人检测具有更好的鲁棒性。

3.6. Optimization of anchor boxes锚箱的优化

YOLOv3在多尺度检测中使用基于COCO数据集生成的固定簇大小作为锚盒。然而，如果我们选择更好的锚，那么夜间行人检测任务可以实现更准确的建议。因为与一般目标相比，行人有一个相对矩形的形状。为此，我们利用K均值聚类算法为行人目标生成合适的锚盒，而不是手动选择锚。此外，初始锚箱的选择不仅保持了网络的稳定性，还影响了效率和精度。为了加快网络的收敛速度，我们使用K-means聚类算法来获得适合行人检测的锚箱大小。原始的K-means聚类算法使用欧几里德距离函数作为标准，这意味着锚盒的大小会影响误差。为了减轻锚盒大小对误差的影响，我们采用平均相交于并集而不是欧几里德距离函数作为K-均值聚类算法的评价标准，并且平均相交于并集越大表示聚类结果越好。并集上的平均交点和距离度量的计算公式如下：

其中Bgt是对象边界框的实际区域，B是对象边界框的检测区域，B是边界框；c为星团质心；K是质心数，Ni是第i个质心的样本数，IoU（A，T）表示边界框和簇质心之间的IoU分数。此外，我们观察到，每个单元中预测的边界框的数量对性能有明显的影响。为此，进行了实验，以评估模型性能与不同边界盒数（从1到12）之间的相关性。KAIST测试集的精度和召回曲线如图12（a）所示，OSU热色测试集的实验结果如图12（b）所示。从KAIST测试集上的结果可以看出，随着边界盒数的增加，查准率和查全率最初会上升，当K数超过9时，查准率和查全率的趋势变得相对稳定。对于9个质心，我们的聚类方案的精确度为87.4，召回率为82.3。此外，计算复杂度随着边界框数目的增加而增加。因此，在我们的实验中，我们将最终的K值设置为9，以便在准确性和效率之间进行最佳权衡。9个星团的大小分别为：（49,158）、（35,105）、（85,51）、（28,81）、（27,64）、（26,41）、（19,55）、（18,45）、（14,25）。

3.7. Loss function modification

在原始的YOLOv3模型中，通过最小化损失函数（定义为三部分的平方和误差，即定位误差、置信度误差和分类误差）来优化神经网络。在我们的行人检测任务中，考虑到实际场景中行人的形状在理论上是稳定的，并且每张图像中有不同数量的行人，我们使用伪平衡技术修改了Redmon等人[31]提出的YOLOv3的损失函数，以获得更好的性能和效率。此外，我们注意到在我们的场景中只有两类，即行人和背景，这表明没有多类检测要求。因此，我们消除了损失函数的分类错误。基于上述陈述，我们提出新的损失函数如下：

新的损失函数由两部分组成：定位误差和置信度误差，通过交叉熵方法计算。s2定义为特征映射的输出大小，B表示为每个单元中预测框的数量；1 person i表示此人是否出现在单元格i中；1 person ij表示单元格i中的第j个边界框是否与行人检测“相关”，如果有人出现，其值设置为1；否则，该值设置为0；1noperson ij表示单元格i中的第j个边界框与行人检测“无关”，如果有人出现，其值设置为0；否则，该值设置为1；λ坐标用于调整位置误差的权重，类似于Redmon等人[31]中的内容。更具体地说，利用λ坐标增加位置误差在整个损失函数中的比例，从而提高包围盒预测的准确性。引入λnoperson来平衡网格中正负样本之间损失函数的比例。在本文的剩余部分中，基于多模态注意融合的YOLO网络（其损失函数在等式（10）中定义）被称为“MAF-YOLO”，以进行简化。

AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
[pytorch] pytorch_model.bin 和 training_args.bin 的区别心心喵 pytorch 深度学习 pytorch 神经网络
pytorch_model.bin和training_args.bin是与PyTorch框架和训练过程相关的两个文件。pytorch_model.bin:这是保存了PyTorch模型的二进制文件。在使用PyTorch进行深度学习训练时，经过训练的模型会被保存为这个文件，其中包含了模型的权重参数。这个文件可以被加载到PyTorch中，以便进行推理、评估或继续训练。training_args.bin:
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
【2025最新】AI大模型项目实战教程大揭秘！超详细攻略，手把手带你飞，记得收藏！大模型教程人工智能产品经理大模型大模型教程大数据大模型学习程序员
一、大模型开发整理流程1.1、什么是大模型开发我们将开发以大语言模型为功能核心、通过大语言模型的强大理解能力和生成能力、结合特殊的数据或业务逻辑来提供独特功能的应用称为大模型开发。开发大模型相关应用，其技术核心点虽然在大语言模型上，但一般通过调用API或开源模型来实现核心的理解与生成，通过PromptEnginnering来实现大语言模型的控制，因此，虽然大模型是深度学习领域的集大成之作，大模型开
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
解释神经网络的普适逼近定理（面试题200合集，中频、实用）快撑死的鱼算法工程师宝典（面试学习最新技术必备）深度学习人工智能
神经网络的普适逼近定理（UniversalApproximationTheorem,UAT）是理解为什么神经网络如此强大和灵活的理论基石之一。它为我们提供了信心，即在某些条件下，一个相对简单的神经网络结构原则上能够模拟出几乎任何复杂的函数。这个定理在深度学习领域中经常被提及，尤其是在讨论模型表达能力的时候。普适逼近定理（UniversalApproximationTheorem）概述普适逼近定理的
【TVM 教程】PAPI 入门
ApacheTVM是一个深度的深度学习编译框架，适用于CPU、GPU和各种机器学习加速芯片。更多TVM中文文档可访问→https://tvm.hyper.ai/性能应用程序编程接口（PerformanceApplicationProgrammingInterface，简称PAPI）是一个可在各种平台上提供性能计数器的库。在指定的运行期间，性能计数器提供处理器行为的准确底层信息，包含简单的指标，如总
人工智能-基础篇-10-什么是卷积神经网络CNN（网格状数据处理：输入层，卷积层，激活函数，池化层，全连接层，输出层等） weisian151 人工智能人工智能 cnn 神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频、音频）设计的深度学习模型。它通过模拟生物视觉机制，从原始数据中自动提取多层次的特征，最终实现高效的分类、检测或生成任务。1、核心概念与原理1、生物视觉启发局部感受野：模仿人类视觉皮层神经元仅响应局部区域刺激的特性，每个神经元关注输入数据的局部区域（如图像的一小块区域）。权值共享：同一
CPO-CNN-GRU-Attention、CNN-GRU-Attention、CPO-CNN-GRU、CNN-GRU四模型多变量时序预测对比 Matlab科研辅导帮 cnn gru 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。个人主页：Matlab科研工作室个人信条：格物致知，求助可私信。内容介绍多变量时序预测在诸多领域扮演着至关重要的角色，例如金融、气象和工业控制等。近年来，深度学习方法在时序预测任务中取得了显著的进展。本文旨在系统地比较四种基于卷积神经网络（CNN）和循环神经网络（GRU）的不同架构，包
DeepSeek：AI驱动的效率革命与实战案例解 weixin_45788582 人工智能 ai DeepSeek
在人工智能技术的浪潮中，DeepSeek作为一款专注实现AGI（通用人工智能）的先锋工具，正通过其强大的自然语言处理（NLP）与分布式计算能力，重新定义高效办公的边界。以下通过技术解析与实战案例，展现DeepSeek如何赋能个人与企业，开启职场效率革命。一、技术革新：DeepSeek的核心竞争力深度学习赋能DeepSeek的技术架构基于BERT、Transformer等先进深度学习模型，通过构建复
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
python读取sas数据集_SASpy模块，利用Python操作SAS
SASpy模块打通了Python与SAS之间的连接。有了SASpy模块，我们就能够在Python中操控SAS。本文将首先介绍SASpy模块的一些基本方法，最后通过一个聚类分析的例子，来展示如何在Python中调用SAS的机器学习过程，以及对聚类结果的可视化。SASpy模块特点1、需要Python3.X及以上，SAS9.4及以上，需要Java环境；2、无论是本地SAS还是远程服务器上的SAS，都可以
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR

MAF-YOLO: Multi-modal attention fusion based YOLO forpedestrian detection

你可能感兴趣的:(深度学习,计算机视觉,聚类)