AnZhiJiaShu

Poseur: Direct Human Pose Regression with Transformers 论文阅读笔记

Poseur：使用 Transformer 的直接人体姿态回归

ECCV 2022
论文链接
代码链接

摘要： 本文提出一种直接的、基于回归的方法从单个图像中估计2D人体姿态。本文将姿态估计问题表述为一个序列预测任务（sequence prediction task），并使用Transformer来解决。本文提出的网络无需借助热图这样的中间表示，直接学习从图像到关键点坐标的回归映射。这种方法避免了热图法的许多复杂性。为克服以往回归法中存在的特征错位（feature misalignment ）问题，本文提出了一种注意力机制，自适应地关注与目标关键点最相关的特征，从而大大提高了准确性。更重要的是，本框架是端到端可微分的，且会自然学习利用关键点间的依赖关系。MS-COCO和MPII数据集上的实验结果表明，本文的方法大大改进了姿态估计回归法的sota。更值得注意的是，本文的方法是第一个优于热图法的回归法。

文章目录

Poseur：使用 Transformer 的直接人体姿态回归
1 Introduction
2 Related Work
3 Method
- 3.1 Poseur Architecture
- 3.2 Training Targets and Loss Functions
- 3.3 Inference
4 Experiments
- 4.2 Ablation Study
- 4.3 Extensions: End-to-End Pose Estimation
- 4.4 Main Results
5 Conclusion
6 Additional Results
- 6.1 The Effect of Training Schedules
- 6.2 The Effect of Self-attention
- 6.3 Reducing the Number of Parameters
- 6.4 Computational Cost of EMSDA
- 6.5 Comparing the Performance of Poseur and RLE

1 Introduction

现有的姿态估计方法能分为热图法和回归法。热图法先预测热图或分类分数图，来反映区域中每个像素对应于特定骨架关键点的可能性。目前sota方法使用全卷积网络（FCN）来估计该热图，最终关键点位置估计值对应于热图的强峰值。热图法迄今为止比回归法的精度高，因此目前大多方法都基于热图。但热图法也有缺点：1） GT热图需要手动设计并启发式地调整，noisy不可避免地影响最终结果。2）需要进行后处理操作来查找单个热图中地最大值，这种操作通常是启发式的，不可微的，不能端到端训练。3） FCN预测的热图分辨率通常低于输入图像的分辨率。分辨率降低会导致量化误差，并限制关键点定位的精度。这种量化误差可以通过各种形式的插值来改善，但这会引入一些额外地超参数，且使框架不那么可微，更复杂。
回归法直接将输入图像映射到身体关节坐标，通常使用全连接（FC）预测层。回归法比热图法的pipeline简单得多，因为姿态估计是作为预测一组坐标值的过程来阐述的。基于回归的方法还减少了非极大值抑制、热图生成和量化补偿的需要，并且本质上是端到端可微分的。
基于回归的姿态估计性能较差。造成这种性能缺陷的原因有很多，首先，为了减少最终FC预测层中的参数量，DeepPose 和RLE 等模型采用了全局平均池化来降低FC层之前CNN特征图的分辨率，如图2（b）所示。这种全局平均池破坏了卷积特征映射的空间结构，显著降低性能。其次，如图2（a）所示，一些基于回归的模型（如 DirectPose 和SPM ）未对齐，从而降低了定位精度。最后，回归法只回归人体关节的坐标，没有利用它们之间的结构依赖性。

图2：Poseur 和先前回归法的比较。GAP表示全局平均池。（a）显示了 feature misalignment 问题。（b）显示了关键的空间信息不可避免地会随着GAP而丢失。我们通过（c）的设计缓解了这两个问题。

图1：COCO val set 上，Poseur与不同backbone的热图网络的比较。Baseline是指基于热图的方法。MobileNet-V2和ResNet使用与SimpleBaseline相同的转置卷积头

Transformer 最初是为 sequence-to-sequence 任务设计的，激发我们将单人姿态估计表述为一个序列预测问题。具体而言，我们预测一个 length-K 坐标序列，其中K是一个人的身体关节数。提出了一个简单而新颖的回归的姿态估计框架：Poseur。
如图3所示，将一个 encoder CNN编码的特征图作为输入，Transformer 预测K个坐标对，这样做，Poseur能减轻回归法的缺陷，首先，它无需全局平均池来降低特征维度（参见RLE）。其次，Poseur利用 cross-attention 注意力机制消除了 backbone 特征和预测间的 misalignment。第三，由于self-attention 模块应用于整个关键点queries，因此 transformer 自然会捕获关键点间的结构化依赖关系。最后，如图1 所示，Poseur在多种 backbone 上优于热图法，对于使用低分辨率表示的backbone，如MobileNet V2和ResNet，的改进更显著。结果表明，Poseur可以部署于具有低分辨率表示的fast backbone，而性能没有大幅下降，这是热图法难以实现的。
我们主要的贡献如下：

我们提出了一个基于Transformer的轻量级框架：Poseur，直接进行人体姿态回归，可以和使用低分辨率表示的backbone很好地结合。例如，在COCO val set上，基于ResNet-50的Poseur的FLOP减少了49%，且的性能优于超过基于热图的SimpleBaseline5.0 AP。
Poseur显著提高了回归法的性能，达到了与 sota 热图法相当的性能。例如，在COCO val set，使用ResNet-50 backbone，它在先前最好的回归法（RLE）的基础上改进了4.9 AP，在COCO test-dev set 上，使用HRNet-W48，它超过先前最好的热图法UDPPose 1.0 AP。
我们提出的框架易于扩展到 end-to-end pipeline，无需 manual crop 操作，例如，我们将Poseur集成到端到端可训练的Mask R-CNN中，可以克服热图法的许多缺点。在这种端到端设置中，在COCO val set 上，使用HRNet-W48 backbone 我们的方法比先前最好的端到端自上而下方法PointSet Anchor 高3.8AP。

2 Related Work

Heatmap-based pose estimation. 尽管热图法性能良好，但其具有不可微的 decoding pipeline 和由于特征图的下采样导致的量化误差。

Regression-based pose estimation. RLE 是一种基于极大似然估计和流模型的回归法方法。RLE是第一个将回归法的性能提升到与热图法相当水平的方法。然而，它是在由 heatmap loss 预训练的 backbone 上训练的。

Transformer-based architectures. Transformer已成功应用于姿态估计任务。TransPose 和HRFormer 通过将Transformer encoder 应用于backbone 来增强 backbone；TokenPose 通过将图像分割成 patch 并应用 class-token，以 ViT-style fashion 设计姿态估计网络，从而使姿态估计更易于解释。这些方法都基于热图，并使用沉重的transformer encoder来提高模型容量。相反，Poseur是一种具有轻量级Transformer decoder的回归方法。因此，Poseur的计算效率更高，性能更好。
PRTR利用Transformer中的 encoder-decoder 结构执行姿态回归。PRTR基于DETR，即，它使用匈牙利匹配策略来查找 non class-specific queries 和gt 关节间的二部匹配。它带来了两个问题：1）计算量大；2）每个实例的冗余queries。相反，Poseur可以缓解这两个问题，同时实现更高的性能。

3 Method

图3：Poseur的架构。该模型通过将（a）backbone与（b）Keypoint encoder 和（c）Query decoder 相结合，直接并行预测关键点坐标序列。（d）残差对数似然估计RLE。（e）uncertainty score 。

3.1 Poseur Architecture

姿态估计器Poseur的目标是从裁出的单人图像中预测 K个人体关键点坐标。如图2（c）所示，我们方法的核心思想是用 query 表示人体关键点，即每个query 对应一个人体关键点。 queries 被输入到deformable attention模块中，该模块自适应地关注与 query/keypoint 最相关的图像特征。通过这种方式，一个特定关键点的信息能被汇总并编码到单个 query 中，该 query 之后用于回归关键点坐标。因此，RLE（如图2（b）所示）中的全局平均池化导致的空间信息丢失问题能被很好的解决。
具体而言，在Poseur框架中（如图3所示），backbone 上添加了两个主要组件：一个 keypoint encoder 和一个 query decoder。输入图像先被backbone编码为密集特征图，然后FC层，预测粗糙的关键点坐标，用作一组粗糙的 proposals。proposal coordinates 表示为 $\hat{µ}_f∈ R^{K×2}$ ，然后，这些 proposals 初始化 keypoint encoder中的 keypoint-specific query $Q∈R^{K×C}$ （其中C是embedding dimension）。最后，来自backbone和Q的特征图被送到 query decoder ，以获取关键点的最终特征，每个特征被送到线性层，以预测相应的关键点坐标。此外，与以往简单回归关键点坐标并应用L1损失进行监督的方式不同，Poseur根据 RLE 预测反映每个位置出现GT的概率分布，并通过最大化 GT 位置的概率来监督网络。具体而言，Poseur（θ）预测一个位置参数 $\hat{µ}_q$ 和一个 scale 参数 $\hat{b}_q$ ，用于shift 和 scale 由一个流模型Φ生成的分布（参见第3.2节）， $\hat{µ}_q$ 是分布的中心，可视为预测的关键点坐标。

Backbone. 我们的方法适用于CNN（例如ResNet、HRNet）和Transformer backbone（例如HRFormer）。给定backbone，提取 multi-level 特征图，然后将其输入到 query decoder 中，同时，在 backbone 的最后阶段进行全局平均池操作，然后用FC层回归粗糙关键点坐标 $\hat{µ}_f$ （归一化为[0,1]）和相应的scale parameter $\hat{b}_f$ ，并由第3.2节介绍的残差对数似然估计（RLE）进行监督。

Keypoint encoder. keypoint encoder 用于初始化 query decoder 的每个query Q。为更好地初始化 query，在 keypoint decoder 中将两个keypoint属性（location和category）编码到 query中。具体而言，首先，对于位置属性，我们使用 fixed positional encodings 对粗糙的x-y关键点坐标 $\hat{µ}_f$ 进行编码，遵循ViT 将x-y坐标转换为 sine-cosine positional embedding。获得的tensor表示为： $\hat{µ}^∗_f ∈ R^{K×C}$ ，其次，对于类别属性，K个可学习的 vectors $Q_c∈ R^{K×C}$ ，称为 class embedding，用于分别表示K个不同的类别。最后，初始的queries $Q_z∈ R^{K×C}$ 是通过positional embedding 和 class embedding的逐元素添加融合位置和类属性生成的，即 $Q_z=Q_c+\hat{µ}^∗_f$ 。
然而， $\hat{µ}_f$ 只是一个粗糙的proposal，在推理过程中有时会出错。为使我们的模型对错误的proposal 更健壮，我们引入了一个query增强过程：noisy reference points sampling strategy，仅在训练期间使用，该策略的核心思想是模拟粗糙 proposals $\hat{µ}_f$ 出错的情况，并强制解码器用错误的proposals定位正确的关键点。具体而言，在训练期间，我们构造了两种类型的关键点queries：第一种类型的关键点 queries 用proposals $\hat{µ}_f$ 初始化；第二种类型的关键点 queries 用 normalized random 坐标 $\hat{µ}_n$ （noisy proposal）初始化。然后，在接下来的训练过程中同等处理这两种类型的queries。我们的实验表明，用 noisy proposal $\hat{µ}_n$ 训练decoder 网络可以提高其对推理阶段由粗糙 proposals $\hat{µ}_f$ 引入的错误的鲁棒性。注意，在推理过程中，不使用随机初始化的关键点query。

Query decoder. Query decoder中，query 和特征图主要用于模块化关键点和输入图像之间的关系。如图3所示，decoder 遵循典型的 Transformer-decoder 范式，其中 decoder 中有N个相同的层，每个层由self-attention、cross-attention 和前馈网络（FFN）组成。query Q按顺序遍历这些模块，并生成一个 updated Q 作为下一层的输入。与DETR一样，self-attention 和FFN分别是 multi-head self-attention 模块和MLPs。对于cross-attention，我们基于Deformable DETR 提出的MSDA，提出了一种高效多尺度可变形注意力（efficient multi-scale deformable attention ：EMSDA）模型。与MSDA类似，在EMSDA中，每个 query 都通过给定参考点周围的 sampling offset（一对坐标，稍后将介绍），学习从特征图中采样相关特征；然后，通过注意力机制总结采样特征以更新query。与MSDA不同，MSDA将线性层应用于整个特征图，因此效率较低，我们发现仅将线性层用于双线性插值后的采样特征就足够了。实验表明，后者性能相当且效率更高。具体而言，EMSDA可以写成：

$Q_q∈ R^C，\hat{p}_q∈ R^2,\{x^l\}^L_{l=1}$ 是第 q个输入 query vector、第 q 个query的参考点 offset 和 backbone得到的 l-th level特征图的偏移量；x 中每个特征向量的维数为C。 $head_i$ 代表第 i 个注意力head。L、 M和S分别表示 decoder 中使用的特征图级别数、注意力头数和每级特征图的采样点数。 $A_{i,l,q,s}∈ R^1$ 和 $p_{i,l,q,s}∈ R^2$ 分别表示第 i 头部、第 l 级别、第 q query、第s采样点的注意力权重和采样offset；query 特征 $Q_q$ 送入线性投影以生成 $A_{i,l,q,s} 和 ∆p_{i,l,q,s}$ 。 $A_{i,l,q,s}$ 满足限制： $\sum_{l=1}^L\sum_{s=1}^SA_{i,l,q,s}=1$ 。 $Φ_l(·)$ 是将 $\hat{p}_q$ 转换为 l-th level 坐标系的函数。 $x^l(Φ_l(\hat{p}_q) + ∆p_{i,l,q,s})$ 表示采样双线性插值特征图 $x_l$ 上位于 offset $(Φ_l(\hat{p}_q) + ∆p_{i,l,q,s})$ 的 feature vector。 $W^o∈R^{C×C} 和 W_v^i∈R^{C×(C/M)}$ 是两组可训练的权重。通过在 $Q_q$ 上应用线性层，参考点 $\hat{p}_q$ 在每个解码器层的最后更新。注意，FC输出 $\hat{µ}_f$ 被用作初始 query $Q_z$ 的参考点。
综上所述，不同关键点间的关系通过自注意力模块建模，输入图像和关键点间关系通过 EMSDA 模块建模。值得注意的是，EMSDA解决了全连接回归中的特征错位（feature misalignment）问题。

3.2 Training Targets and Loss Functions

根据RLE，我们计算一个概率分布 $P_{Θ,Φ}(x|I)$ 来反映 GT 出现在输入图像 I 上的位置 x 的概率，其中θ是Poseur的参数，Φ是流模型的参数。如图3(d) 所示，流量模型 $f_Φ$ 通过将一个初始分布 $¯ z \sim N (0, I)$ 映射为一个zero-mean 复杂分布 $x ∼ G_Φ(¯x)$ 来反映输出与GT值µg的偏差。给G(¯x)加上一个zero-mean 的拉普拉斯分布 L(¯x) 来获得 $P_Φ(¯x)$ 。回归模型 θ 预测了分布中心 $\hat{µ}$ 和 scale $\hat{b}$ 。最后，分布 $P_{Θ,Φ}(x|I)$ 建立在 $P_Φ(¯x)$ 的基础上，通过将 x shift 和rescal为 x，x = ¯x · ˆσ + ˆµ。请读者参考 RLE 了解更多细节。
与RLE 不同，我们仅使用 proposal (ˆµf , ˆbf )进行粗略预测。然后，通过上述基于 query 的方法更新该预测，以生成改进的估计值( ˆ µq, ˆ bq)。粗糙的 proposal (ˆµf , ˆbf ) 和 query decoder 预测的 ( ˆ µq, ˆ bq)都使用极大似然估计（MLE）进行监督。MLE的学习过程优化了模型参数，以使观测到的GT值µg 可能性最大。FC predictions (ˆµf , ˆbf ) 的 loss定义如下：

其中，θf和Φf分别是 backbone 和流模型的参数。类似地，与 query decoder preditions (ˆµq, ˆbq)分布相关的loss定义为：

其中，θq和Φq分别是 query 解码器和另一个流模型的参数。最后相加两损失函数得总损失：

λ是一个用于平衡两个损失的常数，默认λ=1。

3.3 Inference

Inference pipeline. 在推理阶段，Poseur 为每个关键点预测 (ˆµq, ˆbq)，ˆµq表示预测的关键点坐标，ˆbq用于计算关键点置信度score。

Prediction uncertainty estimation. 对于基于热图的方法，例如SimpleBaseline，每个关键点的预测分数与边界框分数相结合，以提高最终人体实例分数：

其中 $s^{inst}$ 是实例的最终预测分数； $s^{bbox}$ 是人体检测器预测的边界框分数， $s^{kp}_i$ 是关键点检测器预测的第 i 个关键点分数，K是每个人的总关键点数。以往大多数基于回归的方法忽略了关键点得分的重要性，因此，相较于热图法，回归法通常具有较高的召回率，较低的精度。考虑相同的 well-trained Poseur模型，加上关键点得分显著减少了假阳性数量，带来4.7AP的提升（74.AP vs 70.0AP），而且两种模型的平均召回率（AR）几乎相同。
我们的模型预测了每个人体关键点在图像坐标上的概率分布。我们将第i 个关键点预测分数 $s^{kp}_i$ 定义为关键点落入区域 ([ˆµi − a, ˆµi + a]) 的概率，即:

其中，a是控制 µ-adjacent 间隔大小的超参数，ˆµi 是Poseur 预测的相应关键点的坐标。实际上，在推理阶段运行正则化模型会增加更多的计算成本。我们发现，通过使用 query decoder predictions (ˆµq, ˆbq) shift 并 re-scal zero-mean Laplace distribution L(¯x)可以获得相当的性能，因此，概率密度函数可以改写为：

其中，ˆµi是拉普拉斯分布的中心和预测的关键点坐标，^bi是Poseur预测的scale参数。最后， $s^{kp}_i$ 可以写成：

注意，x轴和y轴上的分数 $s^{kp}_i$ 将分别计算，然后通过乘法运算合并。

4 Experiments

4.2 Ablation Study

表1：COCO 2017 val set 上 Poseur的消融实验。“Ours”：使用主干末端的全卷积层回归粗糙的proposal ˆµf；“Noisy Reference Points”：在keypoint encoder 中应用 noisy reference points sampling strategy；“Res-i”：ResNet的第i级特征图；“Nd”：解码器层数

表2：在COCO val set上通过改变 backbone 和输入分辨率与热映射图法进行比较。“SimBa”：SimpleBaseline。对于（a），输入分辨率为256×192，decoder 层数为5。对于（b），使用ResNet-50作backbone，decoder 层数为3。

4.3 Extensions: End-to-End Pose Estimation

表3：COCO val set上 end-to-end top-down 法的比较，†表示flipping 和 multi-sacle testing。Reg：基于回归的方法；HM：基于热图的方法

4.4 Main Results

表4：MPII val set上的比较([email protected])。SimBa：SimpleBaseline。Reg：回归法；HM：热图法

表5：COCO val set上sota法的比较。输入大小和GFLOPs是在自上而下的单人姿态估计设置下计算的。除非另有规定，否则 decoder 层数设为6。“3 Dec”：3个解码器层。

表6:COCO test-dev set上自顶向下方法的比较。在各种情况下，Poseur超越热图法。输入分辨率为384×288。

5 Conclusion

我们提出了一种新的基于Transformers的姿态估计框架Poseur，它大大提高了基于回归的姿态估计的性能，并绕过了热图法的缺点，如不可微的后处理和量化误差。MS-COCO 和 MPII上大量实验结果表明，Poseur在回归法和热图法中都能达到sota性能。

6 Additional Results

6.1 The Effect of Training Schedules

表1：COCO val set上训练schedule的影响

6.2 The Effect of Self-attention

表2：COCO val set上自注意力模块的影响

图2：左肩关键点 query 间自注意力权重的可视化。点表示关键点。线条描述了不同关节间的注意力权重。线条越粗，表示注意力越大

图1：截断（truncations）的定性比较。基于热图的方法（如Mask R-CNN）只能预测边界框内的关键点，而Poseur可以预测边界框外的关键点

6.3 Reducing the Number of Parameters

表3：COCO val set上参数缩减

6.4 Computational Cost of EMSDA

表4:COCO val set上EMSDA和MSDA的比较。“GFLOPs（Dec.）”：解码器的计算成本

6.5 Comparing the Performance of Poseur and RLE

表5:COCO val set上RLE和Poseur的比较。“Mem. Consumption”：训练阶段一幅图像的内存消耗

6.6 Verifying the Effect of Keypoint Encoder and Query Decoder in Poseur 略
6.7 The Explanation of the Positional Encoding in Keypoint Encoder 略
6.8 Robustness to Truncation 略

和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
基于opencv的鱼群检测和数量统计识别鱼群密度带界面
完整项目点文末名片查看获取一、项目简介本项目旨在通过计算机视觉技术，实现对视频中鱼类数量的自动检测与计数。利用OpenCV库进行图像处理，包括背景减除、形态学操作、轮廓检测等步骤，最终在视频帧中标记出鱼类并统计其数量。该系统可广泛应用于水产养殖、生态监测等领域，有助于提高工作效率和数据准确性。二、环境准备在开始项目之前，需要确保以下环境和工具已安装：Python：推荐使用Python3.6及以上版
目标跟踪领域经典论文解析 ♢.＊目标跟踪人工智能计算机视觉
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、JAVA、PYTHON与SAP的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！目标跟踪是计算机视觉领域的一个
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
基于均值偏移算法的动态目标跟踪研究 Zoiny_楠算法均值算法目标跟踪
摘要：目标跟踪技术是计算机视觉领域中重要研究课题之一,在人类生活、军事侦察、工业生产、医疗诊断、交通管理等多方面,都有广泛的应用,研究目标跟踪对人类生活、工程应用等具有现实的指导意义。在基于视觉的目标跟踪算法中,经典的Mean-Shift算法以其理论科学有效、操作简单易实现,跟踪性能较好等优势,一直是众多学者研究的热点。可算法也存在着许多缺陷。例如目标模型中混有背景信息的干扰,给目标定位带来了偏差
day39 心落薄荷糖 Python训练营 python
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
【图像处理入门】12. 综合项目与进阶：超分辨率、医学分割与工业检测小米玄戒Andrew 图像处理：从入门到专家图像处理人工智能深度学习算法 python 计算机视觉 CV
摘要本周将聚焦三个高价值的综合项目，打通传统算法与深度学习的技术壁垒。通过图像超分辨率重建对比传统方法与深度学习方案，掌握医学图像分割的U-Net实现，设计工业缺陷检测的完整流水线。每个项目均包含原理解析、代码实现与性能优化，帮助读者从“技术应用”迈向“系统设计”。一、项目1：图像超分辨率重建（从模糊到清晰的跨越）1.技术背景与核心指标超分辨率（SR）是通过算法将低分辨率（LR）图像恢复为高分辨率
Densenet模型花卉图像分类深度学习乐园分类数据挖掘人工智能
项目源码获取方式见文章末尾！600多个深度学习项目资料，快来加入社群一起学习吧。《------往期经典推荐------》项目名称1.【基于CNN-RNN的影像报告生成】2.【卫星图像道路检测DeepLabV3Plus模型】3.【GAN模型实现二次元头像生成】4.【CNN模型实现mnist手写数字识别】5.【fasterRCNN模型实现飞机类目标检测】6.【CNN-LSTM住宅用电量预测】7.【VG
基于AFM注意因子分解机的推荐算法深度学习乐园深度学习实战项目深度学习科研项目推荐算法算法机器学习
关于深度实战社区我们是一个深度学习领域的独立工作室。团队成员有：中科大硕士、纽约大学硕士、浙江大学硕士、华东理工博士等，曾在腾讯、百度、德勤等担任算法工程师/产品经理。全网20多万+粉丝，拥有2篇国家级人工智能发明专利。社区特色：深度实战算法创新获取全部完整项目数据集、代码、视频教程，请进入官网：zzgcz.com。竞赛/论文/毕设项目辅导答疑，v：zzgcz_com1.项目简介项目A033基于A
深度学习实战：基于嵌入模型的AI应用开发 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络人工智能深度学习 ai
深度学习实战：基于嵌入模型的AI应用开发关键词：嵌入模型（EmbeddingModel）、深度学习、向量空间、语义表示、AI应用开发、相似性搜索、迁移学习摘要：本文将带你从0到1掌握基于嵌入模型的AI应用开发全流程。我们会用“翻译机”“数字身份证”等生活比喻拆解嵌入模型的核心原理，结合Python代码实战（BERT/CLIP模型）演示如何将文本、图像转化为可计算的语义向量，并通过“智能客服问答”“
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现 AI大模型应用之禅人工智能数学基础计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于OpenCv的图片倾斜校正系统详细设计与具体代码实现1.背景介绍1.1图像处理的重要性在当今数字时代,图像处理技术在各个领域都扮演着重要角色。无论是在计算机视觉、模式识别、医学影像、遥感探测还是多媒体处理等领域,图像处理都是不可或缺的核心技术。通过对图像进行预处理、增强、分割、特征提取等操作,可以从图像中获取有价值的信息,为后续的分析和决策提供支持。1.2图像倾斜问题及其影响在实际应用中,由于
卷积神经网络（Convolutional Neural Network, CNN）不想秃头的程序神经网络语音识别人工智能深度学习网络卷积神经网络
卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专门用于处理图像、视频等网格数据的深度学习模型。它通过卷积层自动提取数据的特征，并利用空间共享权重和池化层减少参数量和计算复杂度，成为计算机视觉领域的核心技术。以下是CNN的详细介绍：一、核心思想CNN的核心目标是从图像中自动学习层次化特征，并通过空间共享权重和平移不变性减少参数量和计算成本。其关键组件包括：卷积层（
ResNet（Residual Network）不想秃头的程序神经网络语音识别人工智能深度学习网络残差网络神经网络
ResNet（ResidualNetwork）是深度学习中一种经典的卷积神经网络（CNN）架构，由微软研究院的KaimingHe等人在2015年提出。它通过引入残差连接（SkipConnection）解决了深度神经网络中的梯度消失问题，使得网络可以训练极深的模型（如上百层），并在图像分类、目标检测、语义分割等任务中取得了突破性成果。以下是ResNet的详细介绍：一、核心思想ResNet的核心创新是
P25：LSTM实现糖尿病探索与预测 ?Agony lstm 人工智能 rnn
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊一、相关技术1.LSTM基本概念LSTM（长短期记忆网络）是RNN（循环神经网络）的一种变体，它通过引入特殊的结构来解决传统RNN中的梯度消失和梯度爆炸问题，特别适合处理序列数据。结构组成：遗忘门：决定丢弃哪些信息，通过sigmoid函数输出0-1之间的值，表示保留或遗忘的程度。输入门：决定更新哪些信息，同样通过sigmoid函数控制更新
Python训练营打卡——DAY16（2025.5.5） cosine2025 Python训练营打卡 python 开发语言机器学习
目录一、NumPy数组基础笔记1.理解数组的维度(Dimensions)2.NumPy数组与深度学习Tensor的关系3.一维数组(1DArray)4.二维数组(2DArray)5.数组的创建5.1数组的简单创建5.2数组的随机化创建5.3数组的遍历5.4数组的运算6.数组的索引6.1一维数组索引6.2二维数组索引6.3三维数组索引二、SHAP值的深入理解三、总结1.NumPy数组基础总结2.SH
【机器学习&深度学习】反向传播机制
目录一、一句话定义二、类比理解三、为什重要？四、用生活例子解释：神经网络=烹饪机器人4.1第一步：尝一口（前向传播）4.2第二步：倒着推原因（反向传播）五、换成人工智能流程说一遍六、图示类比：找山顶（最优参数）七、总结一句人话八、PyTorch代码示例：亲眼看到每一层的梯度九、梯度=损失函数对参数的偏导数十、类比总结反向传播（Backpropagation）是神经网络中训练过程的核心机制，它就像“
人脸识别算法赋能园区无人超市安防升级智驱力人工智能算法人工智能边缘计算人脸识别智慧园区智慧工地智慧煤矿
人脸识别算法赋能园区无人超市安防升级正文在园区无人超市的运营管理中，传统安防手段依赖人工巡检或基础监控设备，存在响应滞后、误报率高、环境适应性差等问题。本文从技术背景、实现路径、功能优势及应用场景四个维度，阐述如何通过人脸识别检测、人员入侵算法及疲劳检测算法的协同应用，构建高效、精准的智能安防体系。一、技术背景：视觉分析算法的核心支撑人脸识别算法基于深度学习的卷积神经网络（CNN）模型，通过提取面
Python编程：使用Opencv进行图像处理
【参考】https://github.com/opencv/opencv/tree/4.x/samples/pythonPython使用OpenCV进行图像处理OpenCV(OpenSourceComputerVisionLibrary)是一个开源的计算机视觉和机器学习软件库。下面将从基础到高阶介绍如何使用Python中的OpenCV进行图像处理。一、安装首先需要安装OpenCV库：pipinst
【Python深度学习】零基础掌握Pytorch Pooling layers nn.MaxPool方法 Mr数据杨 Python 深度学习 python 深度学习 pytorch
在深度学习的世界中，MaxPooling是一种关键的操作，用于降低数据的维度并保留重要特征。这就像是从一堆照片中挑选出最能代表某个场景的那张。PyTorch提供了多种MaxPooling层，包括nn.MaxPool1d、nn.MaxPool2d和nn.MaxPool3d，它们分别适用于不同维度的数据处理。如果处理的是声音信号（一维数据），就会用到nn.MaxPool1d。而处理图像（二维数据）时，
阅读笔记(2) 单层网络:回归 a2507283885 笔记
阅读笔记(2)单层网络:回归该笔记是DataWhale组队学习计划（共度AI新圣经：深度学习基础与概念）的Task02以下内容为个人理解，可能存在不准确或疏漏之处，请以教材为主。1.从泛函视角来看线性回归还记得线性代数里学过的“基”这个概念吗？一组基向量是一组线性无关的向量，它们通过线性组合可以张成一个向量空间。也就是说，这个空间里的任意一个向量，都可以表示成这组基的线性组合。函数其实也可以看作是
【深度学习解惑】如果用RNN实现情感分析或文本分类，你会如何设计数据输入？云博士的AI课堂大模型技术开发与实践哈佛博后带你玩转机器学习深度学习深度学习 rnn 分类人工智能机器学习神经网络
以下是用RNN实现情感分析/文本分类时数据输入设计的完整技术方案：1.引言与背景介绍情感分析/文本分类是NLP的核心任务，目标是将文本映射到预定义类别（如正面/负面情感）。RNN因其处理序列数据的天然优势成为主流方案。核心挑战在于如何将非结构化的文本数据转换为适合RNN处理的数值化序列输入。2.原理解释文本到向量的转换流程：原始文本分词建立词汇表词索引映射词嵌入层序列向量关键数学表示：词嵌入表示：
10个基于Python的计算机视觉实战项目云博士的AI课堂基于Python计算机视觉 python 计算机视觉机器视觉人工智能
10个基于Python的计算机视觉实战项目，涵盖多个领域和应用场景，每个项目均附有GitHub地址、概述、解决的问题及应用场景：1.PCV图像处理与计算机视觉库GitHub地址:jesolem/PCV概述:提供计算机视觉基础算法的Python实现，包括图像分割、直方图均衡化、图像增强等。解决的问题:简化图像处理流程，支持快速实现算法原型。应用场景:学术研究、教学实验、图像预处理任务。2.基于朴素贝
Pytorch模型安卓部署 python&java pytorch 人工智能 python
Pytorch是一种流行的深度学习框架，用于算法开发，而Android是一种广泛应用的操作系统，多应用于移动设备当中。目前多数的研究都是在于算法上，个人觉得把算法落地是一件很有意思的事情，因此本人准备分享一些模型落地的文章(后续可能分享微信小程序部署，PyQt部署以及exe打包，ncnn部署，tensorRT部署，MNN部署)。本篇文章主要分享Pytorch的Android端部署。看这篇文章的读者
人工智能-基础篇-5-建模方式（判别式模型和生成式模型）
机器学习包括了多种建模方式，其中判别式建模（DiscriminativeModel）和生成式建模是最常见的两种。这两种建模方式都可以通过深度学习技术来实现，并用于创建不同类型的模型。简单来说：想要创建一个模型，依赖需求需要合适的建模方式来创建这个模型。通常建模方式主要分为两大类。一类是判别式模型，针对输入数据给出特定的输出。如：判断一张图片是猫还是狗，直接学习“猫”和“狗”的特征差异（如耳朵形状、
PyTorch教程：LSTM语言模型的动态量化技术解析怀灏其Prudent
PyTorch教程：LSTM语言模型的动态量化技术解析tutorialsPyTorchtutorials.项目地址:https://gitcode.com/gh_mirrors/tuto/tutorials前言在深度学习模型部署过程中，模型大小和推理速度是两个至关重要的考量因素。PyTorch提供的动态量化技术能够在不显著影响模型准确率的前提下，有效减小模型体积并提升推理速度。本文将深入解析如何对
【机器学习】数学基础——张量（傻瓜篇）一叶千舟深度学习【理论】机器学习人工智能
目录前言一、张量的定义1.标量（0维张量）2.向量（1维张量）3.矩阵（2维张量）4.高阶张量（≥3维张量）二、张量的数学表示2.1张量表示法示例三、张量的运算3.1常见张量运算四、张量在深度学习中的应用4.1PyTorch示例：张量在神经网络中的运用五、总结：张量的多维世界延伸阅读前言在机器学习、深度学习以及物理学中，张量是一个至关重要的概念。无论是在人工智能领域的神经网络中，还是在高等数学、物
后端开发实习生简历迭代的5个版本，希望能帮你找到实习今天不coding 简历实习后端 Java 大厂暑期实习
后端开发实习生简历迭代的5个版本，希望能帮你找到实习1.0研究生开学时写的第一份简历，主要是对本科做的项目的一些总结。本科主要是以深度学习的项目为主+比赛，开发的技术学的比较少，后端的项目也没有做过。但是凭此找到了一份算法的实习。当时研一还是想走算法工程师的。后面觉得自己不适合，就放弃了。2.0经历过几个月的算法实习和论文折磨之后，决定走后端开发岗了，选择Java为主语言，在B站大学做了一个项目，
【机器学习实战】Datawhale夏令营2：深度学习回顾城主_全栈开发机器学习机器学习深度学习人工智能
#DataWhale夏令营#ai夏令营文章目录1.深度学习的定义1.1深度学习＆图神经网络1.2机器学习和深度学习的关系2.深度学习的训练流程2.1数学基础2.1.1梯度下降法基本原理数学表达步骤学习率α梯度下降的变体2.1.2神经网络与矩阵网络结构表示前向传播激活函数反向传播批处理卷积操作参数更新优化算法正则化初始化2.2激活函数Sigmoid函数:Tanh函数:ReLU函数(Rectified
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
大模型量化需要重新演唱大模型量化
大模型量化是一种优化技术，旨在减少深度学习模型的内存占用和提高推理速度，同时尽量保持模型的精度。量化通过将模型中的浮点数权重和激活值转换为较低精度的表示形式来实现这一目标。以下是关于大模型量化的详细知识：目录1.量化基础1.1量化定义1.2量化优势1.3量化挑战2.量化方法2.1量化类型2.2量化粒度2.3量化算法3.量化实践3.1量化流程3.2量化工具4.量化案例4.1BERT量化4.2GPT-
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl