xiaoweiyuya

论文阅读|Dark

Distribution-Aware Coordinate Representation for Human Pose Estimation

参考：人体姿态2019（八）Distribution-Aware Coordinate Representation for Human Pose Estimation_Raywit的博客-CSDN博客

论文笔记_人体姿态估计：DARK - 知乎 (zhihu.com)

Abstract

Introduction

our contrubutions:

Coordinate regression

Heatmap regression

Methodlogy

3.1 Coordinate Decoding

The standard coordinate decoding method 标准的坐标解码方法

Our coordinate decoding method

Heatmap distribution modulation

总结

3.2. Coordinate Encoding

3.3. Integration with State-of-the-Art Models

Experiments

4.1. Evaluating Coordinate Representation

Coordinate decoding 坐标解码

Coordinate encoding 坐标编码

Input resolution

Generality

Complexity

4.2. Comparison to Coordinate Regression

Evaluation on MPII

4.3. Comparison to State-of-the-Art Methods

4.4. COCO Keypoints Detection Challenge

Conclusion

Abstract

虽然热图是人体姿势估计的实际标准坐标表示，但尚未深入研究。这项工作填补了这个空白。
- 本文发现将预测的热图解码为原始图像空间中的最终关节坐标的过程对于性能的重要性出人意料。本文进一步探讨了标准坐标解码方法的设计局限性，提出了一种更具原则性的分布感知解码方法
- 此外，通过生成无偏/精确的热图来改进标准坐标编码过程（即将GT坐标转换为热图）
将两者结合起来，提出了一种新的分布感知的关键点坐标表示Distribution-Aware coordinate Representation of Keypoints (DARK) 方法。
作为一个与模型无关的插件，DARK为现有的人体姿势估计模型带来了显著的性能提升。
此外，DARK在2019年ICCV COCO关键点挑战赛中获得第二名。

Introduction

对于热图标签表示，一个主要的障碍是，计算成本是输入图像分辨率的二次函数，阻止CNN模型处理典型的高分辨率原始图像数据。为了在计算上负担得起，一个标准策略（见图1）是在输入人体姿势估计模型之前，通过数据预处理程序将所有具有任意大分辨率的人物边界框图像降到预先设定的小分辨率。

*图1：人体姿态估计系统的流水线。为了提高效率，通常在原始的人物检测边界框和地面真实热图监督上进行分辨率降低。因此，该模型在低分辨率图像空间中运行，大大降低了模型推理的代价。因此，在测试时，需要进行相应的分辨率恢复，以获得原始图像空间中的联合坐标预测。

为了预测关节在原始图像坐标空间中的位置，在热图预测之后，需要恢复分辨率，转换回原始坐标空间。最后的预测被认为是激活最大的位置。称这个过程为坐标解码，从热图到坐标。
- 值得注意的是，在上述分辨率降低过程中会引入量化误差。为了缓解这个问题，在现有的坐标解码过程中，通常根据从最高激活到次高激活的方向执行手工移位操作。
与当前研究的重点是设计更有效的CNN结构相比，本文揭示了坐标表示对模型性能的重要作用，远比预期的重要得多。
本文致力于研究包括编码和解码在内的关节点坐标表示问题。此外，本文认识到热图分辨率是阻碍使用较小的输入分辨率进行更快的模型推断的一个主要障碍。（当输入分辨率从256×192降低到128×96时，在COCO验证集上，HRNet-W32的模型性能从74.4%显著下降到66.9%，但模型推理代价从7.1 GFLOPs 下降到1.8 GFLOPs）
鉴于所发现的坐标表示的重要性，进行了深入的调查，并认识到一个关键的局限性在于坐标解码过程。
本文提出了一个原则性的分布感知表示方法，以更精确的关键点定位在sub-pixel精度。
- 具体地说，它是通过基于泰勒展开的分布近似来综合考虑热图激活的分布信息。
- 此外，观察到生成GT热图的标准方法存在量化误差，导致监督信号不精确和模型性能较差。为了解决这个问题，提出生成无偏热图，允许高斯核集中在sub-pixel位置。

our contrubutions:

提出了Distribution-Aware coordinate Representation of Keypoints (DARK) ，主要包括两部分
- 基于泰勒展开的坐标解码
- 无偏sub-pixel中心坐标编码
现有的人体姿态估计方法可以无缝地从DARK中受益，不需要任何修改
在COCO和MPII上实现了最佳单模型精度。
通过DARK，可以使用更小的输入图像分辨率，在小幅度性能下降的情况下，大幅提高模型推理效率，因此可根据嵌入式AI场景的要求，方便低延迟和low-energy应用。

在人体姿态估计中，通常有两种常见的坐标表示设计：coordinate 和 heatmap 。这两种方法都被用作现有方法中的回归目标，将在下面分别进行介绍。

Coordinate regression

直接以坐标作为模型的输出，更直观。但只有少数现有的方法采用这种设计。一个合理的解释是，这种表示缺乏空间和上下文信息。由于关节位置的内在视觉模糊，使得人体姿态模型的学习具有极大的挑战性。

Heatmap regression

热图表示很好地解决了上述限制。它最早是在[30]中引入的，并迅速成为最常用的坐标表示法。通常，主流的研究重点是设计网络体系结构，以便更有效地回归热图监控。代表性的设计改进包括顺序建模[12，2]、接受域扩展[32]、位置投票[16]、中间监督[20、32]、成对关系建模[4]、树结构建模[8、35、7、26、29]、分层上下文学习[37]、金字塔剩余学习[34]、级联金字塔学习[6]、知识引导学习[22]、主动学习[18]、对抗性学习[5]、去卷积上升和保持高分辨率表示[25]。

与以往的工作不同，我们研究的是人体姿态估计中的热图表示问题，这是文献中一个很大程度上被忽视的观点。我们不仅揭示了分辨率降低在热图使用过程中的巨大影响，而且提出了一种原则性的坐标表示方法来显着提高现有模型的性能。至关重要的是，我们的方法可以在不更改模型设计的情况下无缝集成。

Methodlogy

我们考虑了人体姿态估计中坐标表示的问题，包括编码和解码。目的是预测给定输入图像中的关节坐标。为此，我们需要学习从输入图像到输出坐标的回归模型。在模型训练和测试期间，热图通常被用作坐标表示。具体来说，我们假设可以访问一组训练图像。为了促进模型的学习，我们将关节的标记ground-truth坐标编码为热图作为有监督学习的目标。在测试过程中，我们需要将预测的热图解码为原始图像坐标空间中的坐标。

在下文中我们首先描述解码过程，着重于对现有标准方法的局限性分析和提出解决方案。然后，我们进一步讨论并解决编码过程的局限性。最后，我们描述了现有人体姿态估计方法与所提出的方法的融合。

3.1 Coordinate Decoding

被认为是模型测试管道中一个微不足道的组成部分，正如我们将要展示的那样，坐标解码被证明对于人体姿态估计是最重要的性能贡献者之一。具体来说，它是将每个单个关节的预测热图转换为原始图像空间中的坐标的过程。假设热图有相同的空间大小作为原始图像，我们只需要找到最大激活的位置作为联合坐标预测。然而，上述解释往往并非如此

相反，我们需要用特定于样本的无约束因子将热图上采样到原始图像分辨率。这涉及到亚像素定位问题。在介绍我们的方法之前，我们首先回顾了现有姿态估计模型中使用的标准坐标解码方法。

The standard coordinate decoding method 标准的坐标解码方法

标准坐标译码方法是根据模型性能来设计的[20]。具体地说，给定训练模型预测的热图h，我们首先识别最大(M)和第二最大(S)激活的坐标。然后将关节位置预测为:

其中 $\left \| \cdot \right \|_{2}$ 定义了向量的大小。这意味着预测是在热图空间中最大激活向第二最大激活移动0.25像素（即sub-pixel）。原始图像中的最终坐标预测计算如下：

其中λ是resolution redution radio 分辨率降低率。

*备注：

在公式1中，亚像素移动的目的是补偿图像分辨率下采样的量化效果。 也就是说，预测热图中的最大激活不对应于关节在原始坐标空间中的精确位置，而只对应于粗位置。正如我们将展示的那样，这种变化出人意料地带来了显著的性能提升（表1）。这可能部分地解释了为什么在模型测试中它经常被用作标准操作。有趣的是，据我们所知，没有具体的工作深入研究这种操作对人体姿态估计性能的影响。因此，它的真正意义从未在文献中得到真正的认识和报道。虽然这种标准方法在设计中缺乏直觉和解释，但没有进行专门的调查以改进。我们通过提出一种移位估计方法来填补空白，最终在人体姿态估计中有更高的准确度。

Our coordinate decoding method

我们的坐标解码方法探索了预测热图的分布结构，以推断潜在的最大激活。这与标准方法有很大的不同，上面依赖于手工设计的偏移预测。

具体来说，为了获得准确的位置在亚像素的程度，我们假设预测的热图遵循二维高斯分布，与 ground-truth 热图相同。因此，我们将预测的热图表示为：

X是预测热图中的一个像素， $\mu$ 是对应于要估计的关节位置的高斯平均值（中心）。协方差 $\sum$ 是一个对角矩阵，与坐标编码中使用的矩阵相同：

$\sigma$ 是两个方向的标准偏差。

为了降低逼近难度，我们使用对数将原来的指数形式G变换为二次形式P，以便于推理，同时保持原来的最大激活位置为：

我们的目标是估算μ。作为分布中的极值点，众所周知，位置μ处的一阶导数满足以下条件：

为了探索这种情况，我们采用泰勒定理，形式上，我们用在预测热图的最大活跃度m处求值的泰勒级数(直到二次项)来近似激活P(μ)：

$D^{''}(m)$ 表示在m处计算的P的二阶导数（即Hessian），表示为:

选择m近似μ的直觉是，它代表了一个接近μ的很好的粗略联合预测。μ是最后选取的点的坐标。

结合公式678，获得：

其中 $D^{''}(m)$ 和 $D^{'}(m)$ 可以根据热图有效地估计。一旦得到μ，我们还将应用公式2重建原始图像空间中的坐标。

*备注：与仅考虑热图中的第二个最大激活的标准方法相比，本文所提出的坐标解码充分探索了热图分布统计，以更准确地揭示潜在的最大值。理论上，我们的方法是在一个训练监督一致的假设（热力图服从高斯分布）下基于近似分布。重要的是，它在计算上是非常有效的，因为它只需要计算每个热图一个像素位置的一阶导数和二阶导数。因此，现有的人体姿态估计方法可以很容易地受益于没有任何计算成本障碍。

Heatmap distribution modulation

由于所提出的坐标译码方法是基于高斯分布假设的，因此我们有必要检查这一条件的满足程度。我们发现，通常情况下，人体姿势估计模型预测的热图与训练热图数据相比并不呈现良好的高斯结构。如图3(A)所示，热图通常在最大激活附近呈现多个峰。这可能会对我们的解码方法的性能造成负面影响。为了解决这个问题，我们建议预先调整热图分布。

具体地说，为了符合我们方法的要求，我们建议使用与训练数据具有相同变化的高斯核K来平滑热图h中的多个峰的影响，形式为:

$\circledast$ 表示卷积操作。为了保持原始热图的大小，缩放 $h^{'}$ ,使其最大激活等于h,通过以下转换：

其中max（）和min(）返回输入矩阵的最大值和最小值。在我们的实验分析中，验证了这种分布调制进一步改善了我们的坐标译码方法的性能(表3)，由此产生的视觉效果和定性评价如图3(B)所示

总结

我们在图2中总结了我们的坐标解码方法。具体来说，一共涉及三个步骤：
(a) Heatmap distribution modulation 热图分布调制（式10，11）
(b) Distribution-aware joint localisation by Taylor expansion at sub-pixel accuracy通过泰勒展开在sub-pixel精度下进行分布感知联合定位（式3-9）
(c) Resolution recovery to the original coordinate space分辨率恢复到原始坐标空间（式2）

所有这些步骤都不需要很高的计算成本，因此能够作为现有模型的有效插件。

3.2. Coordinate Encoding

上一节讨论了基于分辨率降低的坐标解码问题。 坐标编码也有相同的限制。具体来说，标准坐标编码方法是从将原始人的图像下采样到模型输入大小中。因此，在生成热图之前，需要对ground-truth联合坐标进行相应的变换。

形式上，我们用g=(u，v)表示关节的ground-truth坐标，分辨率降低表示为：

$\lambda$ 是下采样因子，为了便于内核生成，通常对 $g^{'}$ 进行量化：

其中quantise()指定一个量化函数，常用选项包括floor、ceil和round。

随后，以量化坐标 $g^{''}$ 为中心的热图可以通过以下方式合成：

其中(x，y)指定热图中的像素位置，σ表示固定的空间方差。

显然，由于量化误差(图4)，以上述方式生成的热图是不准确和有偏差的，这可能会引入次优的监督信号，并导致模型性能下降，特别是对于本文提出的精确率坐标编码而言。

为了解决这个问题，我们只需将热图中心放置在表示精确ground-truth坐标的非量化位置g。我们仍然应用等式（14）但用 g'代替 $g^{''}$ 。我们将演示这种无偏热图生成方法的好处（表3）。

*图4：标准坐标编码过程中的量化误差图示。蓝点表示关节的精确位置(g‘)。对于基于floor的坐标量化，引入了误差(由红色箭头指示)。其他量化方法也有同样的问题。

3.3. Integration with State-of-the-Art Models

DARK能与现存的热力图姿态估计模型融合。不对之前的方法做任何改变。特别是，在训练过程中，唯一的变化是基于精确的关节坐标生成的ground-truth热图数据。在测试时，我们将HRNet等任何模型预测的热图作为输入，并在原始图像空间中输出更精确的关节坐标。在整个生命周期中，我们保持现有模型与原始设计一样完整。这使得我们的方法的通用性和可伸缩性最大化。

Experiments

Datasets： 我们使用两个受欢迎的人体姿态估计的数据集，COCO和 MPII 。

Implementation details:对于模型训练，我们使用了Adam优化器。对于HRNet[25]和SimpleBaseline[33]，我们遵循了与原著相同的lr和epoch。对于沙漏网络[20]，基本学习速率微调到2.5e-4，并在90和120epoch衰减到2.5e-5和2.5e-6。epoch的总数是140。我们在实验中使用了三种不同的输入大小(128×96、256×192、384×288)。我们采用了与文献[25]相同的数据预处理方法.。

4.1. Evaluating Coordinate Representation

作为这项工作的核心问题，首先考察了坐标表示对模型性能的影响，并将其与输入图像分辨率(大小)联系起来。在本试验中，我们默认使用HRNet-W32[25]作为骨骼模型，128×96作为输入大小，并在COCO验证集上报告精度结果。

Coordinate decoding 坐标解码

我们评估了坐标解码的效果，特别是移位操作和分布调制。使用了传统的偏置热图。在这个测试中，我们比较了提议的分布感知移位方法与不移位（即直接使用最大激活位置）和标准移位（等式（1））。我们在表 1 中进行了两个主要观察：(i) 标准移位提供了高达 5.7% 的 AP 准确度提升，这是非常有效的。据我们所知，这是文献中首次报道的有效性分析，因为以前的研究很大程度上忽略了这个问题。这揭示了坐标解码对人体姿态估计的前所未有的重要性。 (ii) 尽管标准解码方法获得了巨大的收益，但所提出的模型进一步将 AP 得分提高了 1.5%，其中分布调制给出了 0.3%，如表 2 所示。这验证了我们解码方法的优越性。

Coordinate encoding 坐标编码

我们测试了坐标编码的有效性。我们将提议的无偏编码与标准有偏编码以及标准和我们的解码方法进行了比较。我们从表 3 中观察到，无论坐标解码方法如何，我们具有准确内核中心的无偏编码都带来了积极的性能余量。 特别是，在这两种情况下，无偏编码始终贡献超过 1% 的 AP 增益。这表明坐标编码的重要性，这再次被先前的调查所忽视。

Input resolution

我们通过测试一些不同的大小来检验输入图像分辨率/大小的影响，认为它是与模型推理效率相关的一个重要因素。我们比较了我们的DARK模型(HRNet-W32作为主干)和原来的HRNet-W32模型，使用有偏的热图监督进行训练，使用标准转移进行测试。从表4我们得到了一系列的观察结果：(A)随着输入图像尺寸的减小，正如预期的那样，模型性能持续下降，而推理成本明显下降。(B)在DARK的支持下，模型性能损失可以得到有效的缓解，特别是在输入分辨率很小的情况下(即非常快的模型推理)。这便于在低资源设备上部署人体姿势估计模型，这是新兴的嵌入式人工智能非常需要的。

Generality

除了最先进的HRNet，我们还测试了另外两个具有代表性的人体姿态估计模型在不同的CNN架构下：SimpleBaseline[33]和HourGlass[20]。表5中的结果表明，在大多数情况下，DARK可以显著提高现有模型的性能。这表明了DARK的普遍用处。我们在图5中显示了定性评价。

Complexity

我们在HRNet-W32中以128 × 96的输入大小测试了我们的方法对推理效率的影响。在一台具有一个 i9-7920X CPU 和一个 Titan V GPU 的机器上，运行速度从 360 fps 降低到 320 fps。高效的python环境，即下降11%。因此，DARK的额外成本相当实惠。我们相信基于原生编程语言（例如 C/C++）的版本可以进一步加快推理速度。

4.2. Comparison to Coordinate Regression

Evaluation on COCO

我们将我们的DARK方法与表现最好的G-RMI[23]、IPR[27]、CPN[6]、CFN[13]RMPE[11]、SimpleBaseline[33]和HRNet[25]进行了比较。表7显示了COCO测试设备上最先进的方法和DARK的精度结果。在这项测试中，我们使用了来自[25]的人物检测结果。结果表明：(1)在输入大小为384×288的情况下，HRNet-W48的DARK精度最高，不需要额外的模型参数，增加的成本很小。具体地说，与最好的竞争对手(具有相同输入大小的HRNet-W48)相比，DARK进一步提高了AP 0.7%(76.2-75.5)。与最有效模型(IPR)相比，DARK(HRNet-W32)实现了2.2%(70.0-67.8)的AP增益，而只需要16.4%(1.8/11.0GFLOPS)的执行开销。这些都表明了DARK在现有模型上的优势和灵活性，无论是在精度上还是在效率上都是如此。

Evaluation on MPII

我们在 HRNet-W32 中以 128 × 96 的输入大小测试了我们的方法对推理效率的影响。在一台具有一个 i9-7920X CPU 和一个 Titan VGPU 的机器上，运行速度从 360 fps 降低到 320 fps。高效的python环境，即下降11%。因此，DARK的额外成本相当实惠。我们相信基于原生编程语言（例如 C/C++）的版本可以进一步加快推理速度

4.3. Comparison to State-of-the-Art Methods

我们在 MPII 验证集上比较了 DARK 和 HRNet-W32。表 8 中的比较显示了我们的方法相对于最佳竞争对手的一贯性能优势。在更严格的精度测量 [email protected] 下，DARK 的性能裕度更加显着。请注意，MPII 提供的训练数据比 COCO 小得多，这表明我们的方法可以泛化不同的训练数据大小。

4.4. COCO Keypoints Detection Challenge

我们参加了ICCV 2019 COCO KEYPOINTS挑战赛，以建议的DUCK为主要方法，为了提高性能，我们使用了DARK模型的系综。表9显示，对于多人姿态估计，我们的方法在测试开发集合上获得了78.9%的AP，在测试挑战集合上获得了76.4%的AP。这使我们在本次挑战赛中获得第二名。有关更多详细信息，请读者参阅我们的技术报告[9]。

Conclusion

我们首次系统地研究了在无约束图像中人体姿态估计的坐标表示（包括编码和解码）的大部分被忽视但重要的问题。我们不仅重新揭示了这个问题的真正意义，而且提出了一种新颖的分布感知坐标表示（DARK），用于更具判别性的模型训练和推理。作为即用型插件组件，现有最先进的模型可以无缝地从我们的 DARK 方法中受益，而无需任何算法调整，成本可忽略不计。除了从经验上证明坐标表示的重要性之外，我们还通过在两个具有挑战性的数据集上使用广泛的当代模型进行广泛的实验来验证 DARK 的性能优势。我们还提供了一系列深入的组件分析，以深入了解我们模型公式的设计原理。

语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
目标检测：从基础原理到前沿技术全面解析随机森林404 计算机视觉目标检测人工智能计算机视觉
引言在计算机视觉领域，目标检测是一项核心且极具挑战性的任务，它不仅要识别图像中有什么物体，还要确定这些物体在图像中的具体位置。随着人工智能技术的快速发展，目标检测已成为智能监控、自动驾驶、医疗影像分析等众多应用的基础技术。本文将全面介绍目标检测的基础概念、发展历程、关键技术、实践应用以及未来趋势，为读者提供系统性的知识框架。第一章目标检测概述1.1目标检测的定义与重要性目标检测（ObjectDet
【LangChain编程：从入门到实践】LangChain与其他框架的比较 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【LangChain编程：从入门到实践】LangChain与其他框架的比较1.背景介绍1.1人工智能发展现状在当今时代，人工智能(AI)已经成为科技领域中最热门和最具革命性的话题之一。随着计算能力的不断提升和算法的持续优化,AI系统正在不断扩展其应用范围,包括自然语言处理、计算机视觉、决策系统等各个领域。1.2LangChain概述在这种背景下,LangChain作为一个新兴的AI框架应运而生。L
PHP接单涨薪系列（九）之计算机视觉实战：PHP+Stable Diffusion接单指南（2025高溢价秘籍）攻城狮凌霄 PHP PHP接单涨薪 AI php 计算机视觉 stable diffusion
案例场景某电商公司使用本方案后，产品图制作成本降低90%，广告转化率提升35%，单月节省设计费用超¥80,000。本文将彻底解密如何用PHP+AI视觉技术接取高单价设计外包，让你在竞争激烈的市场中脱颖而出！一、视觉设计市场的AI革命1.1传统设计vsAI设计设计任务传统流程AI流程需求沟通初稿设计反复修改最终交付AI生成微调即时交付2025年设计市场数据对比：指标传统设计AI设计提升幅度单图制作时
纹理贴图算法研究论文综述点云SLAM 算法图形图像处理算法纹理贴图计算机图形学计算机视觉人工智能虚拟现实（VR）纹理贴图算法综述
纹理贴图（TextureMapping）是计算机图形学和计算机视觉中的核心技术，广泛应用于三维重建、游戏渲染、虚拟现实（VR）、增强现实（AR）等领域。对其算法的研究涵盖了纹理生成、映射、缝合、优化等多个方面。1.引言纹理贴图是指将二维图像纹理映射到三维几何表面上，以增强模型的视觉真实感。传统方法主要关注静态几何模型上的纹理生成与映射，而近年来，随着多视角图像重建、RGB-D扫描、神经渲染的发展，
ConvNeXT：面向 2020 年代的卷积神经网络
摘要视觉识别的“咆哮二十年代”始于VisionTransformer（ViT）的引入，ViT很快取代了ConvNet，成为图像分类任务中的最新最强模型。然而，vanillaViT在应用于目标检测、语义分割等通用计算机视觉任务时面临困难。HierarchicalTransformer（如SwinTransformer）重新引入了若干ConvNet的先验知识，使Transformer成为实用的通用视觉
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别
PyTorch实战：从零构建CNN模型，轻松搞定MNIST手写数字识别大家好！欢迎来到我的深度学习博客！对于每个踏入计算机视觉领域的人来说，MNIST手写数字识别就像是编程世界的“Hello,World!”。它足够简单，能够让我们快速上手；也足够完整，可以帮我们走通一个深度学习项目的全流程。之前我们可能用Keras体验过“搭积木”式的快乐，今天，我们将换一个同样强大且灵活的框架——PyTorch，
计算机视觉中的Transformer：ViT模型详解与代码实现 AI大模型应用工坊计算机视觉 transformer 人工智能 ai
计算机视觉中的Transformer：ViT模型详解与代码实现关键词：计算机视觉、Transformer、ViT、自注意力机制、图像分块摘要：传统卷积神经网络（CNN）统治计算机视觉领域多年，但2020年一篇《AnImageisWorth16x16Words:TransformersforImageRecognitionatScale》的论文打破了这一格局——它将NLP领域的Transformer
《YOLO11的ONNX推理部署：多语言多架构实践指南》空云风语 YOLO 人工智能深度学习目标跟踪人工智能计算机视觉 YOLO
引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。想象一下，自动驾驶汽车需要实时准确地检测出道路上的车辆、行人、交通标志；智能安防系统要快速识别出监控画面中的异常行为和可疑人员；工业生产线上，需要精准检测产品的缺陷；医疗影像分析中，辅助医生检测病变区域。这些场景都对目标检测技术的准
【CVPR2024】计算机视觉|即插即用|DFAM:marine！不懂DFAM，别说你会做水下动物分割！
论文地址：http://arxiv.org/pdf/2404.04996v1代码地址：https://github.com/Drchip61/Dual_SAM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要本研究提出了一种新颖的特征学习框架，名为**Dual-SAM，用于高性能的海洋动物分割
Python与Dlib库实现人脸技术实战西域情歌
本文还有配套的精品资源，点击获取简介：本项目详细说明了如何使用Python结合Dlib库实现人脸检测、识别、数量检测和距离检测。利用Dlib提供的机器学习算法和计算机视觉功能，包括HOG特征检测、级联分类器、面部特征向量模型和关键点预测等，项目能够快速准确地在图像中检测和识别人脸。此外，还介绍了如何统计图像中的人脸数量以及如何计算人脸之间的距离。通过实际代码资源，开发者能够掌握实时人脸技术的应用，
视觉表征和多模态融合一只齐刘海的猫语言模型
视觉表征和多模态融合是当前人工智能领域的研究热点，特别是在计算机视觉和自然语言处理的交叉领域。视觉表征是指将图像或视频信息转化为模型可以处理的向量形式，而多模态融合则是将不同类型的数据（如视觉、文本、音频等）进行整合，以实现更全面、准确的信息理解和处理。视觉表征(VisualRepresentation)目的：将图像或视频数据转化为深度学习模型可以理解的特征向量。方法：卷积神经网络(CNN)：传
从0到1掌握OpenCV！Python图像处理实战全解析（附代码+案例）小张在编程 Python学习 opencv python 图像处理
引言你有没有想过，手机里的美颜滤镜如何精准识别五官？监控摄像头如何在人流中锁定可疑目标？医学影像软件如何从CT片中快速标注病灶？这些“神奇操作”的背后，往往藏着一个低调的“图像处理神器”——OpenCV。作为Python生态中最受欢迎的计算机视觉库，它用一行行代码将抽象的像素点变成可操作的“数字画布”。今天，我们就从最基础的图像读写开始，手把手带你解锁OpenCV的“十八般武艺”，从图像处理小白变
目标检测在国防和政府的应用实例 MzKyle 计算机视觉目标检测人工智能计算机视觉
一、目标检测技术概述目标检测是计算机视觉的核心任务，通过算法对图像/视频中的物体进行识别与定位，当前主流技术包括：经典算法：YOLO系列（实时性强）、FasterR-CNN（精度高）、SSD（平衡速度与精度）技术升级：结合深度学习（CNN、Transformer）、多模态融合（视觉+红外+雷达）、边缘计算实时处理二、国防领域核心应用实例（一）军事侦察与监控系统无人机侦察与目标识别应用场景：战术无人
VLA模型
一介绍在机器人领域，视觉-语言-动作(VLA)模型的发展经历了显著的演变，这得益于计算机视觉和自然语言处理领域的进步。VLA模型代表了一类旨在处理多模态输入的模型，整合了来自视觉、语言和动作的信息。这些模型对于实现具身智能至关重要，使机器人能够理解物理世界并与之互动。以下是VLA模型发展的时间线：早期阶段：计算机视觉和自然语言处理的集成大约在2015年开始，随着视觉问答(VQA)系统的出现。这些系
Random Erasing：计算机视觉的「隐形斗篷」——遮挡艺术的对抗学习革命星光银河深度学习-代表性技术主题 /概念层面计算机视觉学习人工智能 cnn 神经网络深度学习
当ImageNet冠军模型在真实世界的遮挡面前崩溃时（识别准确率骤降38%），中科院自动化研究所2017年提出的RandomErasing技术以一纸惊艳了学界。这种在图像中随机挖洞的简单操作，让ResNet-50在Partial-iNaturalist数据集上抗遮挡能力提升4.2倍，错误率降低59%，揭示了模型鲁棒性的深层密码。️遮挡困境：视觉模型的阿喀琉斯之踵图像识别鲁棒性演化史时代技术Imag
AI人工智能与自动驾驶的协同创新模式 AI大模型应用之禅人工智能自动驾驶机器学习 ai
AI人工智能与自动驾驶的协同创新模式关键词：人工智能、自动驾驶、协同创新、深度学习、计算机视觉、传感器融合、决策系统摘要：本文深入探讨了人工智能与自动驾驶技术的协同创新模式。我们将从基础概念出发，逐步分析AI如何赋能自动驾驶系统，涵盖感知、决策和控制三大核心模块。文章将通过生动的比喻解释复杂技术原理，展示实际代码实现，并探讨未来发展趋势和挑战。通过这篇文章，读者将全面理解AI与自动驾驶如何相互促进
基于 OpenCV 的图像 ROI 切割实现
一、引言在计算机视觉领域，我们经常需要处理各种各样的图像数据。有时候，我们只对图像中的某一部分区域感兴趣，例如在一张人物照片中，我们可能只关注人物的脸部。在这种情况下，将我们感兴趣的区域从整个图像中切割出来，不仅可以节省计算量，还能提高程序的运行速度。这就是我们所说的ROI（RegionofInterest，感兴趣区域）切割。二、ROI切割的原理2.1图像数据的存储在使用OpenCV进行图像读取时
【Python】车牌自动识别幽兰的天空 Python python opencv
实现车牌自动识别（LicensePlateRecognition,LPR）是计算机视觉和深度学习领域中的一个常见任务。用Python和OpenCV，结合其他深度学习库，可以建立一个简单的车牌识别系统。以下是一个基于这两者的基本实现思路和示例代码。实现步骤环境准备：安装必要的库：bashpipinstallopencv-pythonopencv-python-headlessnumpypillowp
Python和OpenCV实现车牌识别的毕业设计案例媛源啊
本文还有配套的精品资源，点击获取简介：本项目通过Python和OpenCV库，实现了一个实用的车牌识别系统，包含图像捕获、预处理、车牌定位、车牌分割和字符识别等步骤。系统提供了一键运行的完整代码，使学生能够快速掌握计算机视觉和深度学习应用。遇到的挑战和解决方案也进行了讨论，比如光照变化、车牌角度不一致和污损的处理，以及数据增强技术和模型参数优化。1.车牌识别系统的基本理论和应用1.1车牌识别的背景
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

论文阅读|Dark

Abstract

Introduction

our contrubutions:

Related Work

Coordinate regression

Heatmap regression

Methodlogy

3.1 Coordinate Decoding

The standard coordinate decoding method 标准的坐标解码方法

Our coordinate decoding method

Heatmap distribution modulation

总结

3.2. Coordinate Encoding

3.3. Integration with State-of-the-Art Models

Experiments

4.1. Evaluating Coordinate Representation

Coordinate decoding 坐标解码

Coordinate encoding 坐标编码

Input resolution

Generality

Complexity

4.2. Comparison to Coordinate Regression

Evaluation on MPII

4.3. Comparison to State-of-the-Art Methods

4.4. COCO Keypoints Detection Challenge

Conclusion

你可能感兴趣的:(人体姿态估计,计算机视觉)