阳阳的小笔记本

灵感论文精读《End-to-End Multi-Person Pose Estimation with Transformers》

整理论文《End-to-End Multi-Person Pose Estimation with Transformers》

论文结构
- 框架结构
论文观点
实现方法
- 模型结构
- - 模型分析
  - 视觉特征编码器（Visual Feature Encoder）
  - 姿态解码器（Pose Decoder）
  - 关节解码器（Joint Decoder）
  - 损失函数（Loss Functions）
  - - 对象关键点相似度损失（OKS loss）
    - 热图损失（Heatmap loss）
    - 总体损失（Overall loss）
实验结果
论文结论

论文结构

框架结构

Abstract --> Introduction -->Related Work -->Methodology -->Experiments --> Conclusion --> Acknowledgments --> References

论文观点

本文章提出了一个基于Transformers的完全端到端多人姿态估计框架，称为PETR。该方法通过将姿态估计定义为一个分层集预测问题，将人实例和细粒度身体关节定位相结合。给定多个随机初始化的姿态查询，姿态解码器学习推理对象的关系，并在全局图像上下文基础上估计一组实例感知的姿态。然后，设计一个关节解码器来探索不同关节之间的结构关系，并进一步在更精细的水平上优化全身姿态。

与现有的单阶段方法相比，PETR设计了分层解码器，可以分层地处理与目标关键点最相关的特征，很大程度上克服了特征错位问题，通过注意机制捕获人实例和运动关节之间的关系。
PETR基于端到端查询的框架是通过二分图匹配策略学习的，避免了启发式标签分配，消除了NMS后处理的需要。

实现方法

模型结构

图1. PETR整体结构图

如图1所示，所提出的框架由三个关键模块组成:视觉特征编码器（Visual Feature Encoder）、姿态解码器（Pose Decoder）和关节解码器（Joint Decoder），其中

视觉特征编码器（Visual Feature Encoder）用于细化从骨干网络中提取的多尺度特征图
姿态解码器（Pose Decoder）用于预测多个全身姿态，
关节解码器（Joint Decoder）用于进一步细化关节级别的全身姿态。

模型分析

上图模型中，C3到C5是从骨干网中提取的多尺度特征图（如ResNet50）。视觉特征编码器（Visual Feature Encoder）以平面化的图像特征为输入，对其进行细化。给定N个姿态查询和改进的多尺度特征标记（multi-scale feature tokens），姿态解码器（Pose Decoder）并行预测N个全身姿态。在此之后，附加的关节解码器（Joint Decoder）将每个分散的姿态（即每个姿态的运动关节）作为参考点，并将细化后的姿态作为最终结果输出。K是每个实例的关键点数量（例如，在COCO数据集中K = 17）。
例如：
给定一个图像 $I∈\mathbb{R}^{H×W×3}$ ，我们从主干的后三个阶段(例如ResNet)中提取多尺度特征图 $C_3$ 、 $C_4$ 和 $C_5$ ，其步幅分别为8、16和32。通过空间全连接(FC)层将多尺度特征图投影到256通道的特征图上，然后将其平展为特征标记（feature tokens） $C'_3$ , $C'_4$ 和 $C'_5$ 。 $C'_i$ 是 $L_i × 256$ ，式中 $L_i = h/2^i× w/2^i$ 。
接下来，使用连接的特征标记（feature tokens） [ $C'_3$ , $C'_4$ , $C'_5$ ] 作为输入，视觉特征编码器(Visual Feature Encoder)输出经过细化的多尺度特征令牌 $F∈\mathbb{R} ^{L×256}$ ，其中 $L = L_3 + L_4 + L_5$ 为特征标记（feature tokens）总数。然后，利用N个随机初始化的姿态查询，在全局图像上下文下直接推理N个全身姿态(及其相应的置信度分数)。最后，我们将每个全身姿态分散到一系列身体关节中，并采用关节解码器（Joint Decoder）进一步细化它们。

视觉特征编码器（Visual Feature Encoder）

相对于多头自注意编码器来说，由于可变形注意层的计算复杂度较低，因此采用可变注意模块来实现特征编码器可以合并和细化多尺度特征图。每个编码器层包括一个多尺度可变形注意模块（multi-scale deformable attention module）和一个前馈网络(FFN)。为了识别每个特征标记所处的特征级别，除了位置嵌入之外，我们还添加了等级嵌入（scale-level embedding）。在我们的视觉特征编码器中，有6个可变形编码器层按顺序堆叠。在此之后，我们可以得到细化的多尺度视觉特征记忆F。

姿态解码器（Pose Decoder）

在姿态解码器中，目标是在全局图像上下文(即特征记忆F)下推理一组全身姿态。类似于视觉特征编码器，由于其效率，我们使用可变形注意力模块来构建我们的姿态解码器。具体来说，给定N个随机初始化的姿态查询 $Q_{pose}∈\mathbb{R}^{N×D}$ ，姿态解码器输出N个全身姿态 ${[P_i]}^N_{i=1}∈\mathbb{R}^{N×2K}$ ，其中 $P_i = {[(x^j _i, y^j_i)]}^K_{j=1}$ 表示第i个人的K个关节坐标，D表示查询嵌入的维数。

图2.Pose Decoder网络结构

姿态解码器的详细结构如图2所示。首先，查询嵌入（query embeddings）被输入到自注意模块（pose-to-pose attention）中，用于相互交互。然后每个查询通过可变形的交叉注意模块（feature-to-pose attention）从多尺度特征存储器（the multi-scale feature memory）F中提取特征。有K个参考点，作为我们可变形交叉注意模块中全身姿势的初始位置，随后，实例感知的查询特征（the instance-aware query features）被输入到多任务预测头（the multi-task prediction heads）中。分类头（the classification head）通过线性投影层(FC)预测每个对象的置信度分数。姿态回归头（The pose regression head）使用隐藏大小为256的多层感知器(MLP)预测K个参考点的相对偏移量。在我们的姿态解码器中依次应用了三个解码器层。

我们不再只使用最终的解码器层来预测姿态坐标，而是利用所有的解码器层来逐步估计姿态坐标。具体来说，每一层都是根据前一层的预测来改进姿势。形式上，给定由 $(d - 1)$ 个解码器层预测的规范化位姿 $P_{d−1}$ ，第d个解码器层将该位姿细化为
$P_d=σ(σ^{-1}(P_{d-1}+ΔP_d)$
其中 $ΔP_d$ 是第d层的预测偏移量， $σ$ 和 $σ^{−1}$ 分别表示sigmoid函数和逆sigmoid函数。这样， $P_{d−1}$ 作为第d阶解码器层交叉注意模块的新参考点。初始参考点 $P_0$ 是一个随机初始化的矩阵，在训练过程中与模型参数共同更新。因此，渐进变形交叉注意模块可以处理与目标关键点最相关的视觉特征，自然地克服了特征错位的问题。

关节解码器（Joint Decoder）

图3.Joint Decoder网络结构

如图3所示，我们提出了关节解码器来探索关节之间的结构关系，并进一步细化关节层面的全身姿态。我们使用可变形的注意力模块来构建我们的关节解码器，就像在姿态解码器中一样。具体来说，给定K个随机初始化的关节查询 $Q_{joint}∈\mathbb{R}^{K×D}$ ,关节解码器将前一个姿态解码器预测的每个全身姿态的关节位置作为初始参考点，然后进一步细化关节位置。注意，所有的姿态都可以并行处理，因为它们在关节解码器中是相互独立的。
关节查询（ joint queries）首先通过一个自注意模块(joint-to-joint attention)相互交互，然后在一个可变形的交叉注意模块(feature-to-joint attention)中提取视觉特征。随后，关节回归头（joint regression head）通过应用多层感知器（MLP）预测2-D关节位移 $Δ J = (Δ x ， Δ y)$ 。与姿态解码器类似，关节坐标是逐步细化的。形式上，设 $J_{d−1}$ 为第 $(d - 1)$ 个解码器层预测的归一化关节坐标，第d个解码器层预测的关节坐标为 $J_d = σ(σ^{−1}(J_{d−1})+ ΔJ_d)$ ，其中 $J_0$ 为前一个姿态解码器预测的姿态关节位置。

损失函数（Loss Functions）

使用基于集的匈牙利损失，对每个真实姿态强制进行唯一的预测。我们的姿态解码器的分类头使用了相同的分类损失函数(记为 $L_{cls}$ )。此外，我们在姿态解码器和关节解码器中分别采用L1损失(记为Lreg)和OKS损失(记为Loks)作为姿态回归头和关节回归头。

对象关键点相似度损失（OKS loss）

最常用的L1损失对于小姿态和大姿态具有不同的尺度，即使它们的相对误差相似。为了缓解这个问题，我们建议额外使用对象关键点相似度(OKS)损失，它可以表述为:

$P_i-P_i^* \Vert$ 是第i个预测关键点与ground-truth 1之间的欧氏距离， $v_i$ 是ground-truth的可见性标志， $s$ 是对象尺度， $k_i$ 是控制下降的perkeypoint常数。如上所示，OKS损失由人实例的规模标准化与关键点的重要性相等。

热图损失（Heatmap loss）

我们使用辅助热图回归训练实现快速收敛。我们从视觉特征编码器的 $C_3$ 输出中收集特征标记，并将标记重塑为原始的空间形状。其结果用 $FC_3∈\mathbb{R}^{(H/8)×(W/8)×D}$ 表示。我们使用可变变压器编码器来生成热图预测。然后，我们计算了预测热图和真实热图之间焦点损失的变体(记为Lhm)。注意，热图分支只用于辅助训练，在推理中被丢弃。

总体损失（Overall loss）

形式上，我们模型的总体损失函数可以表述为:

其中， $λ_1、λ_2、λ_3$ 分别为损失权值。

实验结果

论文结论

你可能感兴趣的:(灵感论文精读,深度学习,计算机视觉,transformer,视觉检测,人工智能)

AI 生成 PPT 网站介绍与优缺点分析 KL_lililli 人工智能 powerpoint
随着人工智能技术不断发展，利用AI自动生成PPT已成为提高演示文稿制作效率的热门方式。本文将介绍几款主流的AIPPT工具，重点列出免费使用机会较多的网站，并对各平台的优缺点进行详细分析，帮助用户根据自身需求选择合适的工具。1.免费及免费试用机会较多的网站1.1Tome网址：Tome–TheAIassistantforsales简介：Tome是一款专注于AI助力讲故事与演示制作的工具，用户只需输入简
机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
AI算力要变天了？一文搞懂ASIC和GPU asicgpuai芯片
近期，全球股市的动荡中，ASIC和GPU这两个科技股概念突然变得火热，引起了市场的高度关注。博通作为ASIC的代表，股价一路猛涨，而英伟达作为GPU的代表，股价却一路下跌。这是否意味着AI算力市场即将变天？随着人工智能技术的飞速发展，AI算力的重要性日益凸显。从早期的简单模型训练到如今的大规模语言模型如ChatGPT等的出现，对算力的需求呈爆发式增长。01那什么是ASIC和GPU？ASIC：定制化
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
算力租赁：人工智能时代的“水电煤”革命——以NVIDIA 4090为例解读下一代算力解决方案算法工程gpu
引言：当AI算力需求遇上“算力饥渴症”2023年，ChatGPT仅用2个月突破1亿用户，StableDiffusion让普通人秒变艺术家，但背后是单次训练消耗超10万GB内存、千亿级参数的恐怖算力需求。当全球AI企业陷入“算力饥渴症”时，一种名为算力租赁的创新模式正以每年37%的增速（MarketsandMarkets数据）重塑行业格局。本文将深度解析这一革命性服务，并聚焦搭载NVIDIARTX4
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
redis过期删除、内存淘汰、双写一致性---java 皮卡兔子屋 #redis redis java mybatis
过期删除Redis的缓存失效不会立即删除，Redis的过期删除策略是选择「惰性删除+定期删除」这两种策略配和使用。惰性删除策略的做法是，不主动删除过期键，每次从数据库访问key时，都检测key是否过期，如果过期则删除该key。定期删除策略的做法是，每隔一段时间「随机」从数据库中取出一定数量的key进行检查，并删除其中的过期key。内存淘汰Redis提供了8种不同的数据淘汰策略，默认是noevict
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
目前常用的机器视觉工具库总结，选一个适合自己的机器视觉库才是最好的。 yuanpan 计算机视觉图像处理 ai AI编程
以下是常用机器视觉工具的总结，包括它们的特点、优点、缺点和是否付费：1.Halcon特点：由MVTec公司开发，专注于工业机器视觉。提供强大的图像处理、模式匹配、OCR和3D视觉功能。优点：高性能，适合复杂的工业应用。提供图形化编程界面（HDevelop），用户友好。支持多种硬件设备（如相机、采集卡）。缺点：付费：价格较高，适合企业级用户。开放性较低，定制化能力有限。学习曲线较高，文档复杂。是否付
YOLOv8 改进：添加 AKConv（任意采样形状和任意数目参数的卷积）鱼弦人工智能时代 YOLO
YOLOv8改进：添加AKConv（任意采样形状和任意数目参数的卷积）引言在目标检测领域中，YOLO（YouOnlyLookOnce）系列因其速度和效率而受到广泛关注。为了进一步优化模型性能，可以引入创新的卷积操作，例如AKConv，即“任意采样形状和任意数目参数的卷积”。这种卷积能够灵活地调整采样策略，以更好地适应输入特征。技术背景传统卷积运算在采样位置和参数数量上具有固定性，这限制了其对复杂几
Transformer 架构对比：Dense、MoE 与 Hybrid-MoE 的优劣分析 m0_74825656 面试学习路线阿里巴巴 transformer 架构深度学习
1.LLM基础架构类型DenseTransformerMoE(MixtureofExperts)TransformerHybrid-MoETransformer2.Transformer按照编码方式分类单向自回归模型(如早期GPT系列)双向模型(如BERT)编码器-解码器模型(如BART,T5)DenseTransformerDenseTransformer的优势是什么DenseTransform
利用AI与MySQL提升工业物联网健康监测的智慧水平——构建预测性维护的新纪元墨夶数据库学习资料1 人工智能 mysql 物联网
在工业4.0和智能制造的大背景下，如何确保生产设备的高效稳定运行成为企业竞争力的核心要素之一。传统的事后维修方式已经难以满足现代制造业的需求，而基于人工智能（AI）的预测性维护系统则为这一挑战提供了全新的解决方案。今天，我们将深入探讨如何结合AI技术和MySQL数据库，打造一个智能、高效的工业物联网（IIoT）健康监测平台，助力企业在激烈的市场竞争中脱颖而出。一、为什么选择AI+MySQL？1.A
Open3D 点云DBSCAN聚类算法 MelaCandy 算法聚类 numpy 计算机视觉图像处理 3d
目录一、DBSCAN基本原理二、代码实现2.1关键函数2.2完整代码三、实现效果3.1原始点云3.2聚类后点云Open3D点云算法汇总及实战案例汇总的目录地址：Open3D点云算法与点云深度学习案例汇总（长期更新）-CSDN博客一、DBSCAN基本原理DBSCAN（Density-BasedSpatialClusteringofApplicationswithNoise）是一种基于密度的聚类算法，
UI/UX设计服务行业分析 LPiling ui ux
行业现状UI（用户界面）设计关注用户与产品交互的界面设计，包括软件、应用程序、网站或任何数字产品的视觉和操作元素的集合，旨在提供用户友好的界面，使用户能够轻松地使用产品并实现他们的目标。UX（用户体验）设计则更为宏观，关注用户与产品交互过程中的全部体验，包括使用前、使用中和使用后的感受，目标是优化产品的功能性、可用性、易用性，确保用户在使用产品的过程中有良好的体验。近年来，随着技术的不断进步和用户
密码学，算法在人工智能的实战利用 china—hbaby 人工智能密码学
在人工智能（AI）的快速发展中，数据安全和隐私保护成为了核心议题。密码学，作为保护信息安全的基石，其在AI领域的应用显得尤为重要。本文将探讨密码学在AI中的利用，并提供一些代码示例来展示其实际应用。密码学的概述即常用加密方式密码学（Cryptography）是数学和计算机科学的一个分支，它涉及保护信息的安全性和隐私性。密码学的主要目标是确保信息在传输过程中不被未授权的第三方读取或篡改，以及确保信息
【人工智能时代】-人工智能发展史：1900~2023 xiaoli8748_软件开发人工智能时代人工智能搜索引擎
第一阶段：人工智能发展历史：1900-19591909年西班牙工程师LeonardoTorresyQuevedo发明了“Occultus”，这是一个可以自动执行国际象棋对弈的机器，预示了未来的计算智能。
目标检测领域总结：从传统方法到 Transformer 时代的革新 DoYangTan 目标检测系列目标检测 transformer 人工智能
目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。从最早的传统方法到现如今基于Transformer的先进算法，目标检测的发展经历了多个重要的阶段。本文将详细总结目标检测领域的演进，涵盖传统方法、两阶段检测方法、单阶段检测方法和基于Transform
2024MathorCup数学建模之——MathorCup奖杯”获得者经验思路分享美赛数学建模数学建模
一、经验分享1.工具选择：顺手即可。Matlab和Python都是比较主流的选择，二者的应用场合各有不同。Python在数据分析、深度学习方面的优势愈发明显，而Matlab更适合进行物理仿真和数值计算。不过随着Python社区不断发展，其功能也愈发全面与强大，因此我们比较推荐学有余力的情况下可以更早接触Python。2.模型算法：多多益善。不一定要精通所有的算法，但是手上至少要准备一些常用的算法（
194.HarmonyOS NEXT系列教程之图案锁交互反馈系统详解 harmonyos-next
温馨提示：本篇博客的详细代码已发布到git:https://gitcode.com/nutpi/HarmonyosNext可以下载运行哦！HarmonyOSNEXT系列教程之图案锁交互反馈系统详解效果预览1.交互反馈系统概述1.1反馈类型//反馈类型定义interfaceFeedbackTypes{visual:boolean;//视觉反馈haptic:boolean;//触觉反馈message:
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他