xiaoweiyuya

论文阅读|POET

POET:End-to-End Trainable Multi-Instance PoseEstimation with Transformers

Abstract

Introduction

Transformers in vision and beyond

Pose estimation

The POET model

POET architecture

CNN backbone

Encoder-Decoder transformer

Pose prediction head

Training loss

Experiments

COCO keypoint detection challenge

Implementation details

Qualitative results定性结果

Quantitative evaluation定量结果

Analysis

Transformer attention

Learned Centers

Visibility

Decoder Analysis

Conclusions

Abstract

我们通过将卷积神经网络与transformer相结合，提出了一种用于多实例姿态估计的新端到端可训练方法。我们将来自图像的多实例姿态估计转化为一个直接集合预测问题。受最近使用transformer进行端到端可训练对象检测工作的启发，我们使用transformer的encoder-decoder架构和二部匹配方案来直接回归给定图像中所有个体的姿势。我们的模型称为 POse Estimation Transformer (POET)，使用一种新的基于集合的全局损失进行训练，该损失由关键点损失、关键点可见性损失、中心损失和类别损失组成。 POET 推理检测到的人与完整图像上下文之间的关系，以直接并行预测姿势。我们表明，POET 可以在具有挑战性的 COCO 关键点检测任务上实现高精度。据我们所知，该模型是第一个端到端可训练的多实例人体姿态估计方法。

Introduction

从单一图像中进行多人姿态估计，即预测每个人身体部位的位置，是计算机视觉的一个重要问题。姿态估计有广泛的应用，从医疗保健和生物学的行为测量到虚拟现实和人机交互。

多人姿态估计可以看作是一个层次化的集合预测任务。一个算法需要预测所有个体的身体部位，并将它们正确地分组归类为人体。由于这一过程的复杂性，目前的方法由多个步骤组成，并不是端到端可训练的。基本上，Top-down和Bottom-up的方法是主要的方法。Top-down方法首先基于目标检测算法预测所有个体的位置(bounding boxes)，然后使用单独的网络预测每个裁剪个体的所有身体部位的位置。Bottom-up方法首先预测所有身体部位，然后将它们分组为个体。然而，这两种方法要么需要后处理, 要么需要两个不同的网络。这促使人们寻求端到端解决方案。

受最新的基于Transformer的目标检测体系结构DETR的启发，我们提出了一种新颖的端到端可训练的多实例姿态估计方法。POse Estimation Transformer(POET)是第一个端到端用于多实例姿态估计的模型，不需要像自上而下方法那样进行后处理或使用两个网络。POET无需任何后期处理就能预测所有人类姿势，并通过一个新颖但简单的损失函数进行训练，它允许预测的和groundtruth之间的人体姿势二部图匹配。我们的方法在难度较大的COCO关键点挑战上取得了出色的结果，特别是对于图像中占比较大的人体，即使在更高的空间分辨率下也比基线模型表现得更好(图1)。

Transformers in vision and beyond

Transformer被引入机器翻译，并极大地提高了语言任务中的深度学习模型的性能。它们的架构本质上允许建模和发现数据中的远程交互。其用途最近已经扩展到语音识别、自动定理证明和许多其他任务。在计算机视觉中，不管是结合CNN使用还是作为CNN的替代，Transformer都取得了巨大的效果。值得注意的是，Visual Transformer (ViT)在纯Transformer模型的图像识别任务上展示了最先进的性能。在其他可视化任务中，如文本到图像，已经显示了出色的结果，例如DALL-E。

最近，Carion等人开发了一种新的端到端模式，用于用Transformer检测视觉对象，这一任务以前需要两阶段方法或后处理。这种方法，即DETR，将目标检测定义为一个结合了二部图匹配损失的集合预测问题。DETR是一种优雅的解决方案，然而，该模型需要较长的训练时间，并且在小对象上表现得相对较差。这些问题通过进一步的工作得到了缓解; Deformable DETR提出了一种多尺度注意变形模型multi-scale Deformable Attention Module，针对不同尺度只关注feature map中的一定数量的点，从而减少了训练时间，提高了小目标检测性能。Sun等人（Rethinking Transformer-based Set Prediction for Object Detection）去掉了Transformer解码器，并将来自CNN Backbone的特征输入到特征金字塔网络(27)。

重要的是，端到端的方法已经成功应用于许多复杂的预测任务，如语音识别或机器翻译，但多实例姿态估计中仍缺乏端到端的预测方法。

Pose estimation

多人姿态估计可分为自顶向下(Top-down)和自底向上(Bottom-up)两种。Top-down方法基于Bounding box用单独的网络定位个体(目标检测网络)，再预测每个个体的每个身体部位的位置（单人姿态识别网络)。Bottom-up方法首先预测所有身体部位，然后通过部分亲和场(part affinity fields, OpenPose[9])、成对预测(pairwise predictions [10] [11] [14] [35] [36])、复合场(composite fields [13] [16])或关联嵌入(associative embeddings,[12] [15])将其分组。无论是Top-down还是Bottom-up的方法，都需要后处理步骤或两个不同的神经网络(用于定位然后进行姿态估计)。

最新的（最先进）方法是完全卷积和预测关键点热图。最近，Yang等人提出了TransPose（2021ICCV），这是一种Top-down的方法用于预测热图，是CNN backbone + Transformer Encoder的结构。Transformer还用于(单个)人体的3D姿势和mesh重建，在Human3.6M上达到了最先进的水平(End-to-end human pose and mesh reconstruction with transformers)。扩展这项工作，我们在 DETR (17) 的基础上提出了一种端到端的可训练姿态估计方法，用于直接将姿态输出为向量（没有热图）的多个实例。为了将姿态估计转换为层次化集合预测问题，我们采用了 Center-Net (36) 和 Single-Stage Multi-Person Pose Machines (14) 的姿态表示。

The POET model

POET的整体架构如图2所示，我们的工作和DETR密切相关，并在根本上将该目标检测框架扩展到多实例姿态估计。与DETR一样，POET由两个主要成分组成:

一种基于transformer的架构，可以并行预测一组人体姿势；
一组预测损失的集合，它是类、关键点坐标和可见性的简单子损失的线性组合。

为了将多实例姿态估计作为一个集合预测问题，我们将每个个体的姿态表示为中心（质量）以及每个身体部分的相对偏移量。每个身体部位都可以被遮挡或可见。 POET 被训练直接输出包含中心、相关身体部位以及（二进制）身体部位可见性指标的向量（图 2b）。

*图注：a): POET combines a CNN backbone and a transformer to directly predict the pose of multiple humans.

b):每个姿势被表示为一个向量包括中心 $(x_{c},y_{c})$ ，每个身体部位i的相对偏移量 $(\Delta x_{i} ,\Delta y_{i} )$ 和它的可见性 $v_{i}$ .

c):POET 通过最接近groundtruth姿势的预测的二部图匹配进行端到端训练，然后反向传播损失。

POET architecture

POET 架构包含三个主要元素：提取输入图像特征的 CNN 主干、编码器-解码器transformer和输出估计姿势集的前馈网络 (FFN) 头。

CNN backbone

CNN backbone的输入为一组图像 $I\in \mathbb{R}^{B\times 3\times H\times W}$ ，B是batch size，3个颜色通道，图像尺寸为（H,W）。通过几个计算和下采样步骤，CNN生成了低分辨率的feature map $F\in \mathbb{R}^{B\times C\times H/S\times W/S}$

其中S是stride步长，详情在实验部分

Encoder-Decoder transformer

编码器-解码器Transformer模型遵循标准Transformer架构。Encoder和decoder都由6个层组成，每个层有8个attention head。该Encoder利用CNN Backbone的输出特征，通过1×1卷积降低其通道维数。这个下采样后的张量沿着空间维度折叠为一维，为multi-head机制希望提供序列化的输入。我们为Encoder输入添加一个固定位置编码(fixed positional encoding)，因为Transformer架构是排列不变的，若不添加位置信息则会忽略图像的空间结构。

相比之下，解码器的输入embeddings是可学习的位置编码，我们称之为对象查询（object queries）。由于排列不变性，这些queries必须不同，解码器才能产生不同的结果。它们和编码器输出相加作为解码器的输入。解码器将queries转换为output embeddings，然后输入到姿态预测头(pose prediction head)中，并独立解码为最终的姿态集和类标签。因此，每个query都可以搜索一个object/instance，并预测其姿态pose和类class。我们将object queries的数量N设置为25，因为这大约比COCO数据集中的一张图像中出现的最大人类数量高两倍。借助编码器和解码器中的self-attention，网络能够利用它们之间的成对关系(pairwise relationship)对所有对象进行全局推理，同时利用整个图像作为上下文信息。这个Transformer解码器(以及DETR(17)中的解码器)与原始公式的不同之处在于每一层的N个对象的并行解码，与Vaswani等人(Attention is all you need, 18)使用的自回归模型形成对比。

Pose prediction head

最终的姿态估计由一个带有ReLU激活的3层感知器和一个线性投影层(FFN head)进行。该头部输出中心坐标、相对于中心的所有身体部位的位移以及单个向量中每个身体部位的可见性得分(图2b)，线性层使用softmax函数输出类标签。因此，我们将中心和偏移量归一化到图像大小。

Training loss

为了并行预测所有人体姿态，网络用最优匹配后的损失进行训练，该损失是在找到预测值与真实值的最优匹配后对个体进行求和后计算出来的。因此，我们的损失必须根据类别(class)、关键点坐标(keypoint coordinates)及其可见性(visibilities)进行相应的评分，生成匹配，然后优化多实例特定姿势的损失。

对于每一个实例i，在groundtruth当中，我们将中心计算为所有可见关键点的质心（例如COCO），包含没有注释的人可见性设置为0。对于实例i的groundtruth的向量然后是 $[x_{c},y_{c},\Delta x_{1},\Delta y_{1},v_{1},\Delta x_{2},\Delta y_{2},v_{2}...,\Delta x_{n},\Delta y_{n},v_{n}]$ ，中心是 $(x_{c},y_{c})$ ，每个bodypart i的偏移量是 $(\Delta x_{i},\Delta y_{i})$ 和它的可见度 $v_{i}$ 。

为了增加损失函数的可读性，将这个向量分为 $y_{i}=(c_{i},C_{i},Z_{i},V_{i})$ ，包含了目标的类别标签（人/非目标） $c_{i}$ ，中心坐标 $C_{i}=(x_{c},y_{c})$ ，相对姿势 $Z_{i}=[\Delta x_{1},\Delta y_{1},\Delta x_{2},\Delta y_{2},...,\Delta x_{n},\Delta y_{n}]$ （距中心Ci的相对关节位移）和一个二元可见性的向量 $V_{i}=[v_{1},v_{1},v_{2},v_{2},...,v_{n},v_{n}]$ 对图像中的所有关节进行编码，无论它是否可见。

然后将网络中对实例i的预测定义为 $\hat{y}_{i}=(\hat{p}(c_{i}),\hat{C}_{i},\hat{Z}_{i},\hat{V}_{i})$ ，其中 $\hat{p}(c_{i})$ 对于类别 $c_{i}$ 的预测概率， $\hat{C}_{i}$ 是预测中心， $\hat{Z}_{i}$ 是预测姿势， $\hat{V}_{i}$ 是预测的可见性。注意网络不能预测人体中心的可见性。

接下来，用y来表示姿势的groundtruth集合， $\hat{y}=\left \{ \hat{y}_{i} \right \}_{i=1}^{N}$ 表示N个预测集，在这里y是图像中用非对象填充的人类集合。我们将 Ground-truth $y_{i}$ 与索引为 σ(i) 的预测之间的成对匹配成本定义为：

$L_{pose}$ 是姿势特定成本，我们将会在下面定义，它涉及中心，身体部位以及它们的可见性的成本。

然后根据匈牙利算法，找到具有最低匹配成本的二部匹配的最优解。

一旦得到最佳匹配，我们可以计算所有匹配对的匈牙利损失。与匹配成本一样，它包含一个对姿势进行评分的损失部分，它是一个线性组合，用于计算相对关键点坐标之间的差异的 L1 loss、中心坐标的 L2 loss和可见性的 L2 loss，具有超参数λL1， λL2 和 λctr：

因此， $\circ$ 代表逐点相乘，这三个损失是根据batch内的人的数量来归一化的。

最终的损失为匈牙利损失，其是类别预测的对数似然函数的负值和上述定义的关键点特定损失的线性组合，对于最优分配 $\hat{\sigma }$ 的所有对来说，损失如下：

COCO数据集中的图像只包含少量的带注释的人，为了解释这种类不平衡，我们对所有non-objects对数概率项的权重降低了10倍。

Experiments

COCO keypoint detection challenge

我们在复杂的COCO关键点估计挑战(29)上对POET进行了评估，说明了定性结果，并表明它达到了良好的性能(特别是对于体型较大的人)，然后我们证明它优于我们基于已建立的自下而上方法训练的基线方法，该方法使用具有相同主干的关联嵌入 (12, 45)。然后，我们分析了架构的不同方面和损失。最后，我们讨论了挑战和未来的工作。

Implementation details

在关键点损失中使用以下超参数设置训练所有POET模型： $\lambda _{L_{1}}=4,\lambda _{L_{2}}=0.2,\lambda _{ctr}=0.5$ ，transformer的初始学习率设置为 $10^{-4}$ ，CNN Backbone为 $10^{-5}$ ，权重衰减到 $10^{-4}$ ，使用AdamW，dropout=0.1，并使用Xavier初始化(47)对其进行初始化。对于编码器，我们选择了不同步长s的ResNet50，模型分别称为POET-R50和POET-DC5-R50(当使用扩张卷积的C5级(将步幅从32减少到16)。在主干的最后阶段用扩张代替步幅将特征分辨率提高了两倍，但同时计算成本也增加了相同的因素。

在训练期间，我们通过应用从 (−25,+25) 度均匀绘制的旋转、随机裁剪、水平翻转和粗略丢弃 (48) 来增加数据，每个概率为 0.5。此外，我们调整图像的大小，使最短边落在 [400,800] 范围内，最长边最多为 1,333。我们将预测槽的数量 N 设置为 25，因为 COCO 图像中的最大关键点注释人类数量为 13。

我们进行了两组不同的实验：

（1）训练从 ImageNet 权重初始化的 POET 以与当前最先进的模型进行比较；

（2）训练多个模型以及基线模型，由MMPose的COCO关键点挑战预训练权重来初始化。

为了与最先进的模型进行比较，我们对POET-R50以batch size=6 在两个NVIDIA V100 gpu上进行300个epoch的训练(因此总batch size为12)，学习速率在200个epoch之后下降10倍，在250个epoch之后再次下降10倍。在这种设置中，一个epoch大约需要一个小时。图4和图6可以看到COCO-val上mAP的损失曲线和演化。

*图注： POET-R50在训练时期不同损失部分的变化(公式4)。实线对应于训练损失，虚线对应于验证损失(在COCO数据集上)。

*图注：在经过300个epochs训练的POET-R50的COCO验证集上的mAP演化, 与最先进的模型进行比较。学习速率在200和250个epochs后下降

Qualitative results定性结果

当我们用公式 4 中的损失以及交叉验证的超参数训练 POET-R50 时，我们发现类、关键点、可见性和中心损失减少了（图 4）。然后，我们检查了测试图像上的预测是否准确。图 3 描绘了 POET-R50 在 COCO-val 示例图像上的预测。此外，我们绘制了失败案例并得出结论，POET 可以成功解决多实例姿态估计的问题。

*上面一行：正确示例下面一行：错误示例

Quantitative evaluation定量结果

首先，为了量化性能，我们计算了学习过程中的 mAP，发现它达到了高性能（图 6）。接下来，我们将我们的结果与 COCO test-dev 上最先进的方法进行比较（表 1）。我们将这些方法分为自上而下和自下而上的方法，并在没有多尺度测试或额外训练数据的情况下报告数字，以便进行公平比较。我们发现 POET-R50 与其他自下而上的大型人类 ( $AP_{L}$ ) 方法相比表现具有竞争力，但对中小型人类的表现较低。

*图注：与 COCO test-dev 上最先进的模型进行比较。请注意，大多数模型在提取特征时使用 4 （或更小）的整体步幅，而 POET 使用 32 步幅，因此特征图要小得多，这会损害 $AP_{M}$ 的性能。然而，关于 $AP_{L}$ ，它可以与最先进的模型竞争。（感觉除了参数少一点完全不不过Higherhrnet等，也比不过TransPose）

我们推断这是由于所有strong models中编码器的步幅较大（例如≥4，见表1），这导致输入到transformer的空间分辨率较差。 Transformers 在输入维度上以二次方 O((H·W/S2)2) 进行缩放，因此增加步幅的成本很高。为了展示我们方法的强大潜力，与以前的方法相比，我们接下来将 POET 与具有 ResNet backbones 的基线模型（以及不同的步幅）进行比较。

我们选择Associative Embedding (AE)(12,45)作为模型进行比较，因为该方法被证明是一种强大的自底向上方法，在目前是最先进的方法高分辨率主干HigherHRNet(15)中应用。我们创建基线模型，使用相同的预训练ResNet Backbone，输入图像大小和类似的数据增强。

我们将 AE 的 ResNet 主干的整体步幅从 4 变为 32，以确保两种方法接收相同的特征维度作为输入。表 2 显示了基线和 POET 模型的 COCO-val 上的 AP 和 AR 值。 POET 大大优于基线方法（步幅相同），并且（步幅为 16）即使步幅为 4 也优于基线模型，这证明了 Transformer 头部适合学习图像中的多个姿势，即使来自低分辨率特征图（图 1）。未来的工作应该集中在寻找超参数来训练 POET 以更小的步幅，这可能会大大提高性能。

Analysis

Transformer attention

为了更好地理解编码器和解码器在transformer架构中的作用，我们在样本图像上描绘了注意力图（图 5）。我们发现，Transformer 的编码器关注每个人，而解码器特别关注每个人看似最可区分的部分，即他的脸。

*图注：a) 以红色突出显示的编码器自注意参考点。编码器在本地照顾每个人。 b) 预测个体的解码器注意力分数。解码器处理人类最可区分的部分，即面部区域。图片来自 COCO 验证集。

Learned Centers

有趣的是，POET 学习头部左侧的人体中心（图 7）。我们假设头部是人体最容易区分的部分，因此将中心放在它旁边有助于作为预测身体其他部分的参考点。事实上，当通过在训练损失中增加中心损失的权重(方程3)，来强制模型学习的中心更接近人类质心时，POET很容易学会预测质心，但不能正确地学习关键点。

*图注：左图:在一个示例图像中，每个身体部位的预测中心(红色)和相对偏移量作为多个个体的蓝色向量。右:预测中心相对于ground truth中心的相对偏移量的散点图和平面直方图(用Bounding box对角线归一化)。大多数数据点位于第二象限，这表明POET-R50确实学到了偏向于左上方的偏置

Visibility

损失公式还使模型学习每个关键点的可见性以及位置。但是，用于 COCO 关键点检测挑战的指标没有考虑预测的可见性。我们发现 POET 准确地预测了每个预测的身体部位的相应可见性（图 8）。

Decoder Analysis

我们通过查看解码每个阶段的预测来分析 Transformer 解码器及其层的作用。我们发现平均性能在 3-5 个解码器层后趋于稳定（图 9）。

Conclusions

我们提出了 POET，这是一种基于卷积编码器、Transformers 和二分匹配损失的新型姿态估计方法，用于直接集合预测。我们的方法在困难的 COCO 关键点挑战中取得了很好的结果，并且是第一个端到端可训练的方法。 POET 的灵感来自最近的 DETR (17)，它使用转换器处理对象识别和全景分割。

目前，POET还没有达到最先进的性能，但我们希望它能激发未来的研究来解决这些挑战。类似地，与POET相比(见表1),DETR在小物体上的表现更差，只能达到最先进性能的80% 。POET和DETR的一个主要限制是收敛速度慢，并且需要大量的内存，这使得高分辨率Backbone的实验成本很高，而这对于精确的姿态估计是很重要的。但我们的方法很简单，可以应用于任何经过端到端训练的Backbone进行多实例姿态估计。

Java与机器学习的邂逅：Weka框架入门指南墨夶 Java学习资料1 java 机器学习数据挖掘
在这个数据驱动的时代，机器学习已经成为各行业创新和优化的关键技术。而Java，作为一门成熟且广泛应用的编程语言，在企业级应用开发中占据着重要地位。将二者结合起来，利用Java实现机器学习算法，不仅可以充分发挥其强大的生态系统优势，还能为开发者提供一个高效、稳定的开发环境。今天，我们将带您走进Java与机器学习的世界，探索如何使用Weka这一著名的机器学习库来开启您的智能之旅。Weka简介及其优势什
机器学习基础：从数据到智能的入门指南
一、何谓机器学习在我们的日常生活中，机器学习的身影无处不在。当你打开购物软件，它总能精准推荐你可能喜欢的商品；当你解锁手机，人脸识别瞬间完成；当你使用语音助手，它能准确理解你的指令。这些背后，都离不开机器学习的支撑。机器学习是一门让计算机能够从数据中学习并改进的学科。随着传感器技术的飞速发展，我们身边充满了各种传感器，如手机中的摄像头、麦克风，交通监控中的传感器等，它们收集了海量的数据。这些数据就
Datawhale X 魔塔 Ai夏令营 --深度学习基础
一、局部极小值与全局极小值全局极小值：在损失函数的整个定义域内，损失值最小的点。这是我们在训练深度学习模型时希望找到的点，因为它代表着模型的最佳性能。局部极小值：在损失函数的一个局部区域内，损失值达到最小，但在整个函数定义域内可能不是最小的。当优化算法陷入局部极小值时，它可能会误以为已经找到了全局最优解，从而停止搜索。局部极小值的检测两种直观的方法来检测局部极小值：可视化方法：对于低维问题，我们可
深度学习模块实践手册（第十二期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
56、Ghost模块论文《GhostNet:MoreFeaturesfromCheapOperations》1、作用：Ghost模块是一种轻量级的特征提取模块，旨在通过廉价操作生成更多特征图，减少计算量的同时保持模型性能。传统卷积神经网络在生成特征图时存在大量冗余计算，Ghost模块通过将特征图生成过程分解为两个步骤，有效减少了计算复杂度，特别适合移动端和嵌入式设备部署。2、机制Ghost模块的机
DETR革命：目标检测的Transformer时代加油吧zkf 目标检测 YOLO python 开发语言人工智能图像处理
《DETR从0到1：目标检测Transformer的崛起》为什么会有DETR？在深度学习目标检测发展史上，2014~2019年几乎被基于卷积神经网络（CNN）的检测器统治：两阶段：FasterR-CNN、MaskR-CNN单阶段：YOLO、SSD、RetinaNet这些检测器虽然效果强大，但背后依赖：✅Anchor（先验框）✅NMS（非极大值抑制）✅特征金字塔、手工设计问题：结构复杂、调参困难、不
深度学习模块实践手册（第十一期）加油吧zkf 目标检测目标检测模块解析与实践深度学习人工智能计算机视觉目标检测 python
46、缩放点积注意力模块论文《AttentionIsAllYouNeed》1、作用：缩放点积注意力（ScaledDot-ProductAttention）是Transformer模型的核心组件，旨在解决序列建模中长距离依赖关系捕捉的问题。传统的循环神经网络（RNN）在处理长序列时存在梯度消失或爆炸的问题，且并行性较差。该模块通过计算查询（Query）、键（Key）和值（Value）之间的相似度，实
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
大模型算法工程师技术路线全解析：从基础到资深的能力跃迁 Mr.小海大模型算法数据挖掘人工智能机器学习深度学习机器翻译 web3
文章目录大模型算法工程师技术路线全解析：从基础到资深的能力跃迁一、基础阶段（0-2年经验）：构建核心知识体系与工程入门数学与机器学习基础编程与深度学习框架NLP与Transformer入门二、进阶阶段（2-4年经验）：深化模型技术与工程落地能力大模型预训练与微调技术预训练原理：数据与任务的协同设计微调工具：参数高效适配与工程优化对齐实践：价值观优化与实证效果分布式训练与框架工具并行策略：多维度协同
Go与Python在数据管道与分析项目中的抉择：性能与灵活性的较量真智AI 人工智能 python go
你正在设计一个全新数据管道或启动一个分析项目，此时你或许正在思考该选择Python还是Go。五年前，这甚至不是个值得讨论的问题——你会毫不犹豫地选择Python，故事到此为止。然而，近年来Go在数据领域，尤其是在数据基础设施和实时处理方面，正逐渐被更多人采用。实际上，这两种语言都已在现代数据技术栈中找到了各自的定位。Python依然非常适合机器学习和数据分析，而Go则逐步成为高性能数据基础设施的首
Python爬虫实战：从新浪财经爬取股票新闻的完整实现 Python爬虫项目 python 爬虫开发语言数据分析 php
第一部分：爬虫概述1.1什么是爬虫？爬虫是指通过程序模拟浏览器的行为，自动化地抓取网络上的数据。通过爬虫技术，能够从各种网站上提取信息，广泛应用于数据采集、数据分析、机器学习等领域。1.2新浪财经简介新浪财经是中国最大的财经信息平台之一，提供股票、基金、债券、外汇等多方面的财经新闻和数据。在股票领域，新浪财经提供了大量的股票行情、实时数据、新闻报道等信息，因此爬取新浪财经的股票新闻对于投资分析和决
AI 智能运维，重塑大型企业软件运维：从自动化到智能化的进阶实践 AI、少年郎人工智能运维自动化
一、引言：企业软件运维的智能化转型浪潮在数字化转型加速的背景下，大型企业软件架构日益复杂，微服务、多云环境、分布式系统的普及导致传统运维模式面临效率瓶颈。AI技术的渗透催生了智能运维（AIOps）的落地，通过机器学习、大模型、智能Agent等技术，实现从"人工救火"到"智能预防"的范式转变。本文结合头部企业实践，解析AI在运维领域的核心应用场景、技术架构及未来趋势，特别针对基础运维中流程重构、技术
Spring AI 概述与功能简介 drebander AI 编程 spring 人工智能 java
SpringAI是一个由Spring团队开发的开源框架，旨在为人工智能（AI）和机器学习（ML）提供一个成熟且高效的开发平台。它将Spring生态系统的设计理念应用于AI开发，尤其强调模块化、可移植性以及简洁的集成。SpringAI提供了丰富的功能，涵盖从AI模型的调用到与数据库的集成等多个方面，帮助开发者构建和管理AI驱动的应用程序。1.SpringAI背景SpringAI的背景源于Spring
在二分类任务中如何处理包含中文的类别特征 Dush32 分类数据挖掘人工智能机器学习数据分析
在机器学习中，处理类别特征（CategoricalFeatures）是常见的任务，特别是在中文数据中，很多类别特征如省份、城市等都是字符串类型。如何将这些类别变量转换为模型可以理解的数值格式，是每个数据科学家都必须面对的挑战。在这篇文章中，我们将探讨两种常见的类别特征编码方法：astype('category')和LabelEncoder，并比较它们在二分类任务中的效果。我们以“省份”这一类别特征
基于用户画像的商品推荐系统 Dush32 机器学习人工智能 python 推荐算法
随着人工智能和大数据技术的进步，产品推荐系统成为了现代广告与电商平台中不可或缺的部分。通过深度挖掘用户的行为数据，能够为广告主提供精准的用户画像，从而更高效地推荐相关产品，提升购买转化率。本项目基于科大讯飞AI营销云大赛的赛题，目的是利用用户画像进行产品推荐，预测用户是否会购买相应商品。我们使用了机器学习的二分类模型，通过分析用户的性别、年龄、常驻地、机型等信息，来判断用户的付费行为。项目目标：本
【深度学习-Day 36】CNN的开山鼻祖：从LeNet-5到AlexNet的架构演进之路吴师兄大模型深度学习入门到精通 python pytorch 开发语言人工智能 CNN 深度学习大模型
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
AI原生应用领域多租户的技术架构剖析 AI天才研究院 AI-native 架构人工智能 ai
AI原生应用领域多租户技术架构深度剖析元数据框架标题：AI原生应用多租户技术架构：从隔离性到智能化的分层设计与实践关键词：AI原生应用、多租户架构、数据隔离、模型共享、云原生租户管理摘要：本文系统解析AI原生应用场景下多租户技术架构的核心设计逻辑，覆盖从数据层到模型层的全栈隔离与共享机制。通过第一性原理推导，结合云原生、机器学习生命周期管理（MLOps）等技术范式，提出包含租户上下文管理、动态资源
Python爬虫实战：批量下载小红书笔记图片的全流程技术解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫笔记开发语言音视频 github
1.引言：为什么要爬取小红书笔记图片小红书作为新兴的生活方式分享平台，聚集了大量高质量原创笔记内容，涵盖时尚、美妆、旅游、美食等多领域。笔记中的图片往往是内容的核心，批量下载小红书笔记图片，有助于：内容归档与备份数据分析与用户行为研究图像识别与机器学习训练电商推广及内容再加工但小红书对内容保护做得较好，爬取难度较高，需要结合多技术手段突破。2.小红书平台特点与爬取难点动态加载与API接口多变：页面
人脸识别实战：使用Python OpenCV 和深度学习进行人脸识别(2)
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新Python全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课
【机器学习】必会降维算法之：独立成分分析（ICA） Carl_奕然机器学习算法人工智能
独立成分分析（ICA）1、引言2、独立成分分析（ICA）2.0引言2.1定义2.2应用场景2.3核心原理2.4实现方式2.5算法公式2.6代码示例3、总结1、引言小屌丝：鱼哥，最近胡塞武装很哇塞啊。小鱼：你什么时候开始关注军事了？小屌丝：这…还用关注吗？都上新闻了。小鱼：嗯，那你知道胡塞武装为什么这么厉害吗？小屌丝：额…当然是光脚不怕穿鞋的。小鱼：…你可真是…小屌丝：真是啥？小鱼：一个字，自己体会
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用青云交大数据新视界 Java 大视界 java 大数据机器学习情绪分析智能投资多源数据
Java大视界--Java大数据机器学习模型在金融市场情绪分析与投资策略制定中的应用）引言：正文：一、金融情绪数据的立体化采集与治理1.1多模态数据采集架构1.2数据治理与特征工程二、Java机器学习模型的工程化实践2.1情感分析模型的深度优化2.2强化学习驱动的动态投资策略三、顶级机构实战：Java系统的金融炼金术四、技术前沿：Java与金融科技的未来融合4.1量子机器学习集成4.2联邦学习在合
TensorFlow深度学习实战——DCGAN详解与实现盼小辉丶深度学习 tensorflow 生成对抗网络
TensorFlow深度学习实战——DCGAN详解与实现0.前言1.DCGAN架构2.构建DCGAN生成手写数字图像2.1生成器与判别器架构2.2构建DCGAN相关链接0.前言深度卷积生成对抗网络(DeepConvolutionalGenerativeAdversarialNetwork,DCGAN)是一种基于生成对抗网络(GenerativeAdversarialNetwork,GAN)的深度学
【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂！告别模糊，精准分割，视觉新高度！爆改模型计算机视觉人工智能
论文地址：https://arxiv.org/pdf/2408.12879代码地址：https://github.com/Linwei-Chen/FreqFusion关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为
【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
基于cnn和resnet和mobilenet对比实现驾驶员分心检测深度学习乐园 cnn 人工智能神经网络
演示效果及获取项目源码点击文末名片本项目旨在通过深度学习技术，结合卷积神经网络（CNN）模型、ResNet模型和MobileNet模型，实现对驾驶员分心行为的自动检测。我们通过训练这些模型来识别不同的驾驶员分心行为，包括如发短信、通话、喝水等行为。使用的数据集包含驾驶员行为的图片，并且针对每个行为标注了相应的标签（例如"正常驾驶"、"右手发短信"等）。MobileNetV2是Google于2018
Lecture 5：Training versus Testing 薛家掌柜的
回顾一下前四个Lecture，Lecture1讲的是找一个使得（也就是），Lecture2讲的是使得，Lecture3讲的是机器学习的分类，Lecture4讲的是让。那么，我们就有两个核心问题需要解决了。我们如何保证尽可能地靠近？我们如何使得足够小？而在这两个问题里面，假设集大小又扮演着什么样的角色？应该多大呢？如果是一个很小的，能够满足，但是可选的假设又太少了。如果是一个很大的，可选的假设很多，
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
使用 C++ 和 OpenCV 进行表面划痕检测 whoarethenext c++opencv 开发语言划痕检测
使用C++和OpenCV进行表面划痕检测在工业自动化生产中，产品表面的质量控制至关重要。划痕作为一种常见的表面缺陷，其检测是许多领域（如金属、玻璃、塑料制造）质量保证流程中的一个关键环节。本文将介绍如何使用C++和强大的计算机视觉库OpenCV来实现一个基本的表面划痕检测算法。核心思路划痕通常在图像中表现为具有以下一个或多个特征的区域：高对比度的线性结构：划痕区域的像素强度通常会与其周围背景有明显
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found

论文阅读|POET

Abstract

Introduction

Related Work

Transformers in vision and beyond

Pose estimation

The POET model

POET architecture

CNN backbone

Encoder-Decoder transformer

Pose prediction head

Training loss

Experiments

COCO keypoint detection challenge

Implementation details

Qualitative results定性结果

Quantitative evaluation定量结果

Analysis

Transformer attention

Learned Centers

Visibility

Decoder Analysis

Conclusions

你可能感兴趣的:(人体姿态估计,计算机视觉,深度学习,机器学习)