Dymc

『论文阅读|利用深度学习在热图像中实现无人机目标检测』

利用深度学习在热图像中实现无人机目标检测

摘要
1 引言
- 1.1 小物体检测
- 1.2 物体检测中的模型组合
- 1.3 热图像处理
2 提出的模型
- 2.1 预测头数量
- 2.2 骨干网络优化
- 2.3 Transformer encoder 模块
- 2.4 使用滑动窗口和注意力进行卷积
- 2.5 训练和运行过程
3 结果
- 3.1 数据集
- 3.2 评估指标和平台
- 3.3 评估结果
4 结论

论文题目： Object Detection in Thermal Images Using Deep Learning for Unmanned Aerial Vehicles

利用深度学习在热图像中实现无人机目标检测

摘要

这项研究提出了一种神经网络模型，能够识别无人驾驶飞行器采集的热图像中的微小物体。模型由三部分组成：骨干、颈部和预测头。骨干基于 YOLOv5 的结构开发，并在末端使用了一个transformer编码器。颈部包括一个 BI-FPN 块，结合使用滑动窗口和transformer，以增加输入预测头的信息量。预测头通过使用 Sigmoid 函数评估特征图来进行检测。带有注意力的transformers和滑动窗口的使用提高了识别准确率，同时将模型的参数数量和计算要求控制在嵌入式系统的合理范围内。在公共数据集 VEDAI 和收集的数据集上进行的实验表明，提出的模型比最先进的方法（如 ResNet、Faster RCNN、ComNet、ViT、YOLOv5、SMPNet 和 DPNetV3）具有更高的准确性。在嵌入式计算机 Jetson AGX 上进行的实验表明，提出的模型实现了实时计算速度和超过 90% 的稳定性。

关键词：深度学习、热图像、无人驾驶飞行器

1 引言

无人驾驶飞行器（Unmanned aerial vehicles, UAV）正被用于执行搜救、监视和军事行动等专门任务。为执行这些任务，无人飞行器配备了图像传感器和机载处理单元，用于收集数据并进行分析。分析通常需要对物体进行识别和分类，然后才能进行相关操作。在无人机的物体识别中，通常使用彩色图像作为输入数据。然而，在夜间或微光等许多环境条件下，由于物体与环境混为一体，使用彩色图像效果不佳。因此，使用热图像被认为是一种更切合实际的解决方案，其优点包括：只要物体散发的热量与环境温度不同，就能识别微小物体；还能在雾和弱光等恶劣条件下进行搜索。然而，主要的挑战在于如何处理低分辨率、不均匀的热背景以及热图像中的高噪声。为解决这些问题，已经提出了一些研究方案，具体如下。

1.1 小物体检测

探测小物体的方法已开发多年，最先进的方法有 Viola Jones检测器[1]、定向梯度直方图（Histogram of Oriented Gradients，HOG）检测器[2]、基于变形部件的模型（Deformable Part-based Model，DPM）[3]等。然而，机器学习技术，尤其是深度学习技术的发展，因其优于传统技术的效果和优势，使其成为一种趋势。在深度学习中，物体检测方法主要分为两类：单阶段检测法和两阶段检测法。单阶段方法无需使用预先生成的区域候选，即可对物体进行分类并生成边界框。因此，它的执行时间较快，代表方法有 Retical net、SSD [4]、Yolo [5]、CornerNet、FCOS [6]、FSAF [7]。两阶段法首先生成区域候选，然后对每个区域候选中的对象进行分类。因此，这种方法更准确，但速度较慢，其中的著名代表有 mask R-CNN [8]、Faster R-CNN [9]。深度学习的不断进步使得用于物体检测的 CNN 模型大受欢迎，并由此开发出了 VGG、Googlenet、DenseNet、Resnet、Efficientnet [10]、ViT [11]等新模型，它们具有更高质量的特征图，可以更准确地检测物体。

物体检测模型的进步还来自于改变计算深度大的单个层的计算方法[12]、模型集合策略[13]和基于区域的卷积神经网络[13]…改进还包括将识别层从全局特征图改为局部特征图[13]、使用新的检测核[12]以及组合特征图[14]。因此，模型的准确性逐渐提高。然而，使用这些模型有两个挑战：(1) 在嵌入式设备上部署这些模型相对复杂，(2) 模型的性能尚未真正稳定。

1.2 物体检测中的模型组合

深度学习是一种灵活且可扩展的方法，能够适应用于训练的数据量的不断增加。这种方法的一个缺点是，它取决于所使用的数据，当遇到全新的数据时，网络的权重会相应改变，导致方差增大。缓解这一问题的方法之一是训练多个模型，然后将它们的预测结果合并。

有三种常用的方法可以合并预测的边界框，包括非最大抑制（non-maximum suppression, NMS）[15]、Soft-NMS [16]和加权框融合（weighted boxes fusion, WBF）[17]。在 NMS 中，如果边界框重叠并超过一定的 “交集大于联合”（Intersection over Union，IoU）阈值，则认为它们属于一个对象。然后，NMS 只保留置信度最高的边界框，并删除其余的边界框。Soft-NMS通过使用一个函数改进NMS，根据 IoU 临界值降低相邻边界框的置信度。WBF 的操作方式与 NMS 不同，它是通过合并方框而不是移除方框来生成最终结果。对于无人机提供的彩色图像，WBF 能产生良好的结果。然而，对于热图像，当背景区域的热耗散与物体相似时，这种方法可能会将背景区域误检测为物体。因此，在作者的方法中，使用了 Soft-NMS 来组合预测的边界框。

1.3 热图像处理

与具有三个通道的彩色图像不同，热图像的信息仅相当于一幅灰度图像，表示捕捉区域对红外频率的响应。因此，大多数方法都使用两阶段方法来提取恶劣环境中的稀疏特征[18]；学习最大化可见光和红外频率之间信息的特征[19]；或检测无人机上的低分辨率物体[20]。然而，两阶段方法的使用限制了这些模型在计算能力有限的系统中的应用。

本文提出的 CNN 模型解决了从无人机拍摄的热图像中识别物体的两个问题。第一个问题是，在表示温度变化的物体（如船只或停放的车辆）时，热图像的信息有限。第二个问题是，当无人机拍摄物体时，相距很近的物体很可能会被识别为单个物体。为了解决这些问题，提出的方法主要是通过多维金字塔提取特征图，并使用注意力机制来丰富数据和扩展信息区域，如图 1 所示。使用注意力层而不是增加 CNN 的深度来降低计算成本。此外，使用 Bi-FPN 方法代替其他 FPN，以获得针对高价值区域的前馈计算过程。在最后一层，使用 Soft-NMS [16] 结合训练模型的预测边界框。

在这项工作中的贡献包括：

分析小物体检测问题的特点，研究从无人机拍摄的彩色图像和热图像中识别物体的方法，从而提出一种新的网络模型。该模型可通过使用滑动窗口去除与周围区域相关性低的区域，并输出高识别潜力区域，从而识别小物体。该模型利用 ViT 和 YOLOv5（在彩色图像上表现良好的网络架构），并在其中加入注意力区块，以更好地识别物体。
修改骨干架构，使其等效但参数更少，以便更好地用于无人机。此外，还将模型的权重压缩到 ONNX 和 TensorRT 中，以提高模型的执行速度。在训练过程中，还利用自我训练来强化物体分类能力，消除错误的识别特征。
模型在高噪声的热图像上表现良好。该模型被设计成一个模块，可以部署在无人机等嵌入式系统上。该模型在公共数据集和自己的数据集上都达到了很高的准确率。

2 提出的模型

在本节中，将介绍利用无人机热图像进行物体检测的方法。提出的模型建立在 YOLOv5 的架构上，包括以下 3 个结构：骨干、颈部和头部，如图 1 所示。在骨干和transformers之后的两层中使用注意力层来扩展输入矩阵的特征，以克服与热图像信息量低有关的限制，尤其是图像中的小物体、人和车辆。使用注意层的作用是扩大计算区域，使物体特征清晰，便于识别。由于红外图像的信息含量较低，对周围的像素进行计算，以检测物体的边界框。

2.1 预测头数量

对于 YOLOv5 模型[5]，在通过骨干层和颈部层之后，会产生三个特征矩阵，输入预测头。不过，这三个预测头只适用于图像中的物体占据了图像很大一部分的情况。在实施环境中，涉及从无人机上捕获的图像，如 VEDAI [21] 数据集中的图像，图像中的物体只占图像的一小部分。为了识别这些物体，使用了 4 个预测头，而不是 3 个。从低层特征层提取的额外预测头有助于减少识别边界框时的差异，并提高检测新物体的能力，而这些新物体可能在更高的特征层中被忽略。增加一个预测头后，计算参数的数量会增加，但物体检测性能会显著提高。

2.2 骨干网络优化

由于需要在无人机上使用，因此需要一种能够快速提取特征图的识别模型。因此，通过使用 GhostConv 来作为特征提取方法，以减少需要计算的参数数量。为了解决热信息少的问题，使用颈部网络的计算层来提取额外的信息。对于输入 $X ∈ R^{c×h×w}$ ，其中 c 是输入维数，h 和 w 是输入矩阵的大小，特征层 n 的值计算公式为:
$Y = X * f + b$
其中， $Y∈R^{h^′×w^′×n}$ 是特征层 n 的结果，b 是偏置项， $f∈R^{c×k×k×n}$ 是卷积块的滤波器。GhostNet 方法通过对每个固有特征进行标准卷积和一系列线性运算产生结果。

在标准卷积中，根据公式 $Y^′ = X ∗f^′$ ，从输入 $X∈R^{c×h×w}$ 和卷积块矩阵 $f^′∈R^{c×k×k×m}$ 得到 $Y∈R^{h^′×w^′×m}$ （m < n）。一系列线性运算通过变换矩阵 g(x) 将张量 Y ′ 转换为矩阵 Y ′′，计算公式为
$y''_{ij}=g_{ij}\cdot y'_{ij}\quad i\in1,\ldots,m;j\in1,\ldots,s$
y′ 的每个值都会产生一个 y′′ 的值，其中 m 和 s 分别是 y′ 和 y′′ 的大小。最后，y′和 y′′ 合并生成输出结果。与传统 CNN 网络相比，使用 $g_{ij}$ 的计算成本更低，参数更少。

2.3 Transformer encoder 模块

受视觉转换器（ViT）中应用的transformer方法的启发，在主干块末端应用了transformer块，以取代 YOLOv5 原始版本中的颈部网卷积层。该层的输入是前向卷积层的输出和通过 ASPP 模块分发的信息[22]。transformer块的输入表示为 $I_{IR}∈R^{c×h×w}_{IR}$ ，由特征图 $F_{IR}∈R^{c×h×w}_{IR}$ 给出。 $I_{IR}$ 进入注意力处理过程，其 3 个参数 Q、K、V 的计算公式为:
$\begin{aligned}Q&=I_{IR}\cdot W_Q\\K&=I_{IR}\cdot W_K\\V&=I_{IR}\cdot W_V,\end{aligned}$
其中， $W_Q$ 、 $W_K$ 和 $W_V$ 是模型中训练过的矩阵。注意力模块的输出 Z 的计算公式为:
$Z=Attention(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d_k}})\cdot V,$
其中， $d_k$ 是保持 Softmax 结果收敛性的参数。从 Z 开始，激活层 GELU 用于计算输出。使用 GELU 代替 ReLU 可以对数据进行回归，而不是丢弃参数为负的数据，从而减少方差。

2.4 使用滑动窗口和注意力进行卷积

在提出的模型中，将滑动窗口的使用与注意力机制相结合，而不是使用通常的 Transformer 方法来实现快速的物体检测。该模块也非常简单，可以集成到 CNN 系统中，而不会导致计算系统超出 YOLOv5 架构的处理量。该模块有两个处理过程，包括用滑动窗口分割输入矩阵和对得到的窗口进行 Attention 处理。该模块的输入是 Bi-FPN 的输出特征图。通过滑动窗口机制将大小为（ $h \times w \times c ）$ 的特征图缩小为大小为 $（ n \times mh \times m w \times c ）$ 的特征图，同时创建一个大小为 $（ n \times mh - m w \times mh - m w \times c ）$ 的掩码矩阵。其中，h、w、c 分别为输入特征矩阵的宽度、高度和深度； $mh$ 、 $m w$ 分别为滑动窗口的长度和宽度。然后在滑动窗口及其周围计算自注意力，以提取这些窗口上的特征。在这里，使用 $GE LU$ 层来确保处理大量数据时的准确性。输出计算如下：
$\begin{aligned}\hat{z}^l&=WA(LN(z^{l-1})+z^{l-1}\\z^l&=MLP(LN(\hat{z}^l))+\hat{z}^l,\end{aligned}$
其中， $z^l$ 和 $\hat{z}^l$ 分别是模块 $l$ 中窗口注意力（WA）和多层感知（MLP）模块的输出；WA 表示使用滑动窗口的多头自我注意力模块；LN 表示对 z 进行线性运算的线性模块。该模块的结果是由注意力层提取的特征信息增强的特征图。因此，该模块有助于确定模型在检测物体时应关注的区域。

2.5 训练和运行过程

对于大型模型而言，检测物体的过程可能会耗费大量时间。在训练过程中，调整输入图像的大小，尽量减少信息损失，输入图像的大小分别为原始图像的 0.67 和 0.85。还对图像进行旋转和翻转，以丰富训练数据。在实验中，使用原始图像大小 0.67 的输入尺寸，并保留热图像的灰度或彩色比例。使用层堆叠和扩大计算区域等技术来提高识别速度。还通过使用 ConvGhost 和 Bottleneck Ghost 与参数数量较少的模型相结合，以减少计算特征图的时间。

3 结果

为了评估所提出的模型，在名为 VEDAI 的公共数据集和从无人机上收集的数据集上进行了实验。还在两个平台（包括高性能服务器和嵌入式计算机）上与其他最先进的模型进行了比较。

3.1 数据集

自己采集的数据由名为 Mavic 2 Enterprise Advanced 的无人机收集，该无人机配备了如图 4 所示的摄像头。红外热像仪的分辨率为 640 × 512 px，速度为 30 fps，16 倍变焦，精度为 ±2 摄氏度。无人机还配备了一个分辨率为 4800 万像素的彩色摄像头。不过，这台相机仅用于参考目的。所收集的视频数据持续时间长达 11 小时，在不同的时间和地点进行记录。因此，它为作者提供了数百万张热图像，用于训练和测试。此外，还使用名为 VEDAI 的公共数据集，利用无人机在各种条件下（尤其是弱光条件下）采集的热图像。数据集中的图像都经过预处理和标记，以确保模型使用时的质量。在比较中，所有模型都使用相同的 800 × 800 图像尺寸。

3.2 评估指标和平台

在所有比较中，使用平均精度（mAP）指标来评估模型在两个 IoU 阈值（0.5 和 0.95）下的精度。用于训练模型的平台是配有 GPU A100 3.2G 40G 的服务器。使用的优化函数是学习率为 $3.2 × 10^{-5}$ 的 Adam。使用 10 个初始epochs来稳定训练，并使用 150 个实际训练epochs，批量大小为 16。这个过程在自己的数据集和公共数据集上都进行了训练。

3.3 评估结果

将提出的模型与用于物体检测的常用模型进行了比较，包括 Faster R-CNN、ResNet、YOLO net、Vision Transformer (ViT)、E-net、ComNet [23]、SMPNet [24]、DPNetV3 [25]。结果见表一和表二。可以看出，提出的模型在 0.5 和 0.95 值时都比其他方法更准确。与使用等量参数的方法相比，提出的模型在两个数据集上都显示出更好的结果。具体来说，在 VEDAI 数据集上，提出的模型在 mAP50 上的表现比其他方法好 4.1% 到 7.01%，在自己的数据集上，提出的模型在 mAP95 上的表现比其他方法好 4.42% 到 9.83%。此外，提出的模型参数数量相对较少，这要归功于用注意力层和前馈线性层等计算效率高的层替换了多个 CNN 块。因此，与其他模型相比，提出的模型实现了更高的性能，并且能够部署在嵌入式系统上。

图 2 显示了 VEDAI 数据的一些结果，其中第一行代表热图像，第二行代表相应的彩色图像作为参考。可以看出，提出的模型在检测船只、飞机和汽车等常见物体时表现良好。这些图像也反映了从无人机数据中进行物体检测所面临的挑战，即当物体非常小的时候。图 3 显示了无人机在正常和具有挑战性的条件（如城市环境或弱光）下采集图像的结果。在这里，由于无人机配置的原因，热数据以红色比例表示，而不是灰度。还添加了第三行，以便近距离观察检测结果。可以看出，提出的模型可以识别物体，即使是那些体积小、热对比度低的物体。图 3d 显示了使用热图像比使用彩色图像的明显优势，在夜间也能检测到物体。

在另一项评估在无人机等嵌入式设备上部署模型的能力的实验中，通过保持模型质量的方法对模型进行了压缩。具体来说，使用迁移学习方法来缩小模型大小，同时保持其性能。实验使用的设备是一台名为 Jetson AGX 30W 的嵌入式计算机。将所有模型设置为在 Nvidia 设备的 GPU 线程上运行。表 III 显示了不同模型的实验结果，包括全模型、半模型、ONNX、TensorRT 和传输模型。可以看出，通过使用转移模型，提出的模型可以在嵌入式设备上部署，并且具有实时速度和高稳定性。因此，该模型可应用于无人机等实用系统。

4 结论

本文提出了一种新的神经网络模型，用于识别无人机采集的热图像上的物体。提出的模型采用了基于 YOLOv5 的改进骨干结构，并在颈部和预测头中使用了匹配分类器，从而提高了识别效率。特别是在预测头之前使用注意力块，大大提高了识别小物体的能力。在公共数据集和采集的数据集上的实验结果表明，提出的模型比最先进的方法表现更好。它的参数数量少，可以在嵌入式系统上实现实时计算。因此，该模型可部署在无人机等实际系统上，用于实际应用。

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
传统检测响应慢？陌讯多模态引擎提速90+FPS实战 2501_92473147 算法计算机视觉目标检测
开篇痛点：实时目标检测在安防监控中的核心挑战在安防监控领域，实时目标检测是保障公共安全的关键技术。然而，传统算法如YOLOv5或开源框架MMDetection常面临两大痛点：误报率高（复杂光照或遮挡场景下检测不稳定）和响应延迟（高分辨率视频流处理FPS低于30）。实测数据显示，城市交通监控系统误报率达15%，导致安保资源浪费；客户反馈表明，延迟超100ms时，目标跟踪可能失效。这些问题源于算法泛化
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
【Qualcomm】高通SNPE框架简介、下载与使用 Jackilina_Stone 人工智能 Qualcomm SNPE
目录一高通SNPE框架1SNPE简介2QNN与SNPE3Capabilities4工作流程二SNPE的安装与使用1下载2Setup3SNPE的使用概述一高通SNPE框架1SNPE简介SNPE（SnapdragonNeuralProcessingEngine），是高通公司推出的面向移动端和物联网设备的深度学习推理框架。SNPE提供了一套完整的深度学习推理框架，能够支持多种深度学习模型，包括Pytor
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
深度学习篇---昇腾NPU&CANN 工具包 Atticus-Orion 上位机知识篇图像处理篇深度学习篇深度学习人工智能 NPU 昇腾 CANN
介绍昇腾NPU是华为推出的神经网络处理器，具有强大的AI计算能力，而CANN工具包则是面向AI场景的异构计算架构，用于发挥昇腾NPU的性能优势。以下是详细介绍：昇腾NPU架构设计：采用达芬奇架构，是一个片上系统，主要由特制的计算单元、大容量的存储单元和相应的控制单元组成。集成了多个CPU核心，包括控制CPU和AICPU，前者用于控制处理器整体运行，后者承担非矩阵类复杂计算。此外，还拥有AICore
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
目标检测中的NMS算法详解
好的，我们来详细解释一下目标检测中非极大值抑制（Non-MaximumSuppression,NMS）的相关概念和计算过程。1.为什么需要NMS？问题：目标检测模型（如FasterR-CNN,YOLO,SSD等）在推理时，对于同一个目标物体，通常会预测出多个重叠的、不同置信度（confidencescore）的候选边界框（BoundingBoxes）。直接输出所有这些框会导致：结果冗余：同一个物体
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
NumPy-@运算符详解 GG不是gg numpy numpy
NumPy-@运算符详解一、@运算符的起源与设计目标1.从数学到代码：符号的统一2.设计目标二、@运算符的核心语法与运算规则1.基础用法：二维矩阵乘法2.一维向量的矩阵语义3.高维数组：批次矩阵运算4.广播机制：灵活的形状匹配三、@运算符与其他乘法方式的核心区别1.对比`np.dot()`2.对比元素级乘法`*`3.对比`np.matrix`的`*`运算符四、典型应用场景：从基础到高阶1.深度学习
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
解决 Python 包安装失败问题：以 accelerate 为例
在使用Python开发项目时，我们经常会遇到依赖包安装失败的问题。今天，我们就以accelerate包为例，详细探讨一下可能的原因以及解决方法。通过这篇文章，你将了解到Python包安装失败的常见原因、如何切换镜像源、如何手动安装包，以及一些实用的注意事项。一、问题背景在开发一个深度学习项目时，我需要安装accelerate包来优化模型的训练过程。然而，当我运行以下命令时：bash复制pipins
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
python+springboot+vue的音乐系统 QQ_511008285 python spring boot vue.js django flask node.js php
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
基于 Python 的图书管理系统（源码）
摘要：本论文详细阐述了利用Python语言开发一个简易图书管理系统的过程。该系统具备图书信息录入、删除、修改、查询以及借阅管理等核心功能，可有效提升图书管理的效率与便捷性。通过阐述系统的需求分析、设计思路、代码实现及测试过程，展示了Python在小型管理系统开发中的应用潜力，为相关领域的软件开发提供了有益参考。关键词：Python编程；图书管理系统；数据结构；代码实现一、引言（一）研究背景随着数字
如何使用Python实现交通工具识别
如何使用Python实现交通工具识别文章目录技术架构功能流程识别逻辑用户界面增强特性依赖项主要类别内容展示该系统是一个基于深度学习的交通工具识别工具，具备以下核心功能与特点：技术架构使用预训练的ResNet50卷积神经网络模型（来自ImageNet数据集）集成图像增强预处理技术（随机裁剪、旋转、翻转等）采用多数投票机制提升预测稳定性基于置信度评分的结果筛选策略功能流程用户通过GUI界面选择待识别图
【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔（四） Superstarimage 文献随笔材质神经网络人工智能扩散模型
AnevaluationofSVBRDFPredictionfromGenerativeImageModelsforAppearanceModelingof3DScenes输入3D场景的几何和一张参考图像，通过扩散模型和SVBRDF预测器获取多视角的材质maps，这些maps最终合并成场景的纹理地图集，并支持在任意视角、任意光照条件下进行重新渲染。样例图如下：在当前时代的技术背景下，生成与几何匹配
超越RAG的搜索革命！分层框架让AI像专家团队一样深度思考 Python_金钱豹人工智能深度学习网络知识图谱大数据
❝一句话概括：与其训练一个越来越大的“六边形战士”AI，不如组建一个各有所长的“复仇者联盟”，这篇论文就是那本“联盟组建手册”。（原论文题目见文末，点击阅读原文可直接跳转至原文链接，Publishedonarxivon03Jul2025,byRenminUniversityofChina）*第一阶段：核心思想概览**论文的动机*在面对“未来的家庭娱乐会是什么样？”或“结合最新的财报和市场趋势，分析
YOLOv11 技术详解：架构优化与性能提升代码老y YOLO 架构目标跟踪
YOLOv11是目标检测领域中一个备受瞩目的新版本，它在保持实时性的同时，显著提升了检测的准确性和效率。本文将深入探讨YOLOv11的架构改进、性能优化以及它在不同应用场景中的表现。一、架构改进（一）C3K2块YOLOv11引入了C3K2块，这是对之前版本中CSP（CrossStagePartial）块的增强。C3K2块使用不同的核大小（例如3x3或5x5）和通道分离策略来优化更复杂特征的提取。这
YOLO11 目标检测从安装到实战
前言YOLO（YouOnlyLookOnce）系列是目标检测领域的经典算法，凭借速度快、精度高的特点被广泛应用。最新的YOLO11在模型结构和性能上进一步优化，本文将从环境搭建到实战应用，详细讲解YOLO11的使用方法，适合新手快速上手。一、环境准备1.系统要求操作系统：Windows10/11、Ubuntu20.04+、欧拉系统等硬件：CPU可运行，GPU（NVIDIA）可加速（推荐，需支持CU
Python OpenCV教程从入门到精通的全面指南【文末送书】一键难忘 python opencv 开发语言
文章目录PythonOpenCV从入门到精通1.安装OpenCV2.基本操作2.1读取和显示图像2.2图像基本操作3.图像处理3.1图像转换3.2图像阈值处理3.3图像平滑4.边缘检测和轮廓4.1Canny边缘检测4.2轮廓检测5.高级操作5.1特征检测5.2目标跟踪5.3深度学习与OpenCVPythonOpenCV从入门到精通【文末送书】PythonOpenCV从入门到精通OpenCV(Ope
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
第八周 tensorflow实现猫狗识别降花绘 365天深度学习 tensorflow系列 tensorflow 深度学习人工智能
本文为365天深度学习训练营内部限免文章（版权归K同学啊所有）**参考文章地址：[TensorFlow入门实战｜365天深度学习训练营-第8周：猫狗识别（训练营内部成员可读）]**作者：K同学啊文章目录一、本周学习内容:1、自己搭建VGG16网络2、了解model.train_on_batch（）3、了解tqdm，并使用tqdm实现可视化进度条二、前言三、电脑环境四、前期准备1、导入相关依赖项2、
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路
AI在垂直领域的深度应用：医疗、金融与自动驾驶的革新之路一、医疗领域：AI驱动的精准诊疗与效率提升1.医学影像诊断AI算法通过深度学习技术，已实现对X光、CT、MRI等影像的快速分析，辅助医生检测癌症、骨折等疾病。例如，GoogleDeepMind的AI系统在乳腺癌筛查中，误检率比人类专家低9.4%；中国的推想医疗AI系统可在20秒内完成肺部CT扫描分析，为急诊救治争取黄金时间。2.药物研发传统药
SPGAN: Siamese projection Generative Adversarial Networks 这张生成的图像能检测吗优质GAN模型训练自己的数据集人工智能生成对抗网络计算机视觉深度学习神经网络算法
简介简介：该论文针对传统GANs中鉴别器采用硬边际分类导致的误分类问题，提出了基于Siameseprojection网络的SPGAN方法。主要创新点包括：（1）设计Siameseprojection网络来测量特征相似性；（2）提出相似特征对抗学习框架，将相似性测量融入生成器和鉴别器的损失函数；（3）通过相似特征对抗学习，鉴别器能最大化真实图像和生成图像特征的差异性，生成器能合成包含更多真实图像特征
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

『论文阅读|利用深度学习在热图像中实现无人机目标检测』

利用深度学习在热图像中实现无人机目标检测

摘要

1 引言

1.1 小物体检测

1.2 物体检测中的模型组合

1.3 热图像处理

2 提出的模型

2.1 预测头数量

2.2 骨干网络优化

2.3 Transformer encoder 模块

2.4 使用滑动窗口和注意力进行卷积

2.5 训练和运行过程

3 结果

3.1 数据集

3.2 评估指标和平台

3.3 评估结果

4 结论

你可能感兴趣的:(深度学习,目标检测,论文,论文阅读,深度学习,无人机)