愤怒的potato

论文笔记--3D Human Pose Estimation with Spatial and Temporal Transformers（用空间和时间变换器进行三维人体姿势估计）

用空间和时间变换器进行三维人体姿势估计

摘要

Transformer架构已经成为自然语言处理中的首选模型，现在正被引入计算机视觉任务中，如图像分类、物体检测和语义分割。然而，在人类姿势估计领域，卷积架构仍然占主导地位。在这项工作中，我们提出了PoseFormer，这是一种纯粹的基于变换器的方法，用于视频中的三维人体姿势估计，不涉及卷积架构。受视觉变换器最新发展的启发，我们设计了一个空间-时间变换器结构，以全面模拟每一帧内的人体关节关系以及跨帧的时间相关性，然后输出中心帧的精确三维人体姿势。我们在两个流行的标准基准数据集上对我们的方法进行了定量和定性的评估。Human3.6M和MPI-INF-3DHP。广泛的实验表明，PoseFormer在这两个数据集上都取得了最先进的性能。

1. 简介

人体姿态估计（HPE）的目的是定位关节，并从图像和视频等输入数据中建立一个身体代表（如骨架位置）。HPE提供了人体的几何和运动信息，可以应用于广泛的领域（如人机交互、运动分析、医疗保健）。目前的工作一般可分为两类：（1）直接估计方法，和（2）二维到三维的提升方法。直接估计方法[31, 29]从二维图像或视频帧中推断出一个三维人体姿态，而不需要立即估计二维姿态的表现。二维到三维的提升方法[25, 5, 43, 38]从中间估计的二维姿态推断出三维人体姿态。受益于最先进的二维姿态检测器的卓越性能，二维到三维提升方法通常优于直接估计方法。然而，这些二维姿态到三维的映射并不简单；由于深度模糊和遮挡，各种潜在的三维姿态可以从同一个二维姿态中产生。为了缓解这些问题并保持自然的一致性，最近的许多工作都将视频的时间信息整合到他们的方法中。例如，[25，5]利用时间卷积神经网络（CNN）来捕捉来自相邻帧的全局依赖性，[33]利用递归架构达到类似的效果。然而，这些架构的时间相关性窗口都是有限的。基于CNN的方法通常依赖于扩张技术，它本身具有有限的时间连通性，而递归网络主要被限制在简单的顺序关联上。
最近，transformer [37]由于其效率、可扩展性和强大的建模能力，已经成为自然语言处理（NLP）的事实上的模型。由于transformer的自注意力机制，跨长输入序列的全局相关性可以被明显地捕获。这使得它成为一个特别适合序列数据问题的架构，因此自然可扩展到三维HPE。凭借其全面的连接性和表达方式，转化器提供了一个学习更强大的跨帧时间表示的机会。然而，最近的工作[12, 36]表明，转化器需要特定的设计来实现与视觉任务的CNN对应的性能相媲美。具体来说，它们通常需要极大规模的训练数据集[12]，或者如果应用于较小的数据集，则需要增强的数据扩充和正则化[36]。此外，现有的视觉变换器主要限于图像分类[12, 36]、物体检测[4, 50]和分割[41, 47]，但如何利用变换器的力量进行三维HPE仍不清楚。
为了开始回答这个问题，我们首先在二维到三维的提升HPE上直接应用转换器。在这种情况下，我们将给定序列中每一帧的整个二维姿势视为一个标记（图1（a））。虽然这种基线方法在一定程度上是可行的，但它忽略了空间关系的自然区分（关节到关节），把潜在的改进留在了桌面上。对这一基线的自然扩展是将每个二维关节坐标视为一个标记，并提供一个由序列中所有帧的这些关节组成的输入（图1（b））。然而，在这种情况下，当使用长帧序列时，标记的数量会变得越来越大（在三维HPE中，每帧有17个关节，最多可达243帧，标记的数量将是243×17=4131）。由于转化器计算每个标记对另一个标记的直接注意，模型的内存要求接近一个不合理的水平。

图1. 两种基线方法。

因此，作为对这些挑战的有效解决方案，我们提出了PoseFormer，这是第一个用于视频中2D到3D提升HPE的纯transformer网络。PoseFormer直接建立了空间和时间方面的模型，这两个维度都有不同的变换器模块。PoseFormer不仅能在空间和时间元素上产生强大的表征，而且对于长的输入序列不会引起巨大的标记数。在高层次上，PoseFormer只是从一个现成的二维姿势估计器中获取检测到的二维姿势序列，并输出中心帧的三维姿势。更具体地说，我们建立了一个空间变换器模块，对每一帧中的二维关节之间的局部关系进行编码。空间自关注层考虑了二维关节的位置信息，并返回该帧的潜在特征表示。接下来，我们的时间转换模块分析每个空间特征表征之间的全局依赖关系，并生成一个精确的三维姿势估计。
在两个流行的三维HPE基准上进行的实验评估，即Human3.6M[16]和MPI-INF-3DHP[27]，表明PoseFormer在这两个数据集上取得了最先进的性能。我们将我们估计的3D姿势与最先进的方法进行了可视化比较，发现PoseFormer产生了更平滑和更可靠的结果。同时，在消融研究中提供了PoseFormer注意力图的可视化和分析，以了解我们模型的内部工作原理并证明其有效性。我们的贡献有三个方面。

我们提出了第一个基于变换器的纯模型–PoseFormer，用于二维到三维提升类别下的三维HPE。
我们设计了一个有效的空间-时间变换器模型，其中空间变换器模块编码人体关节之间的局部关系，而时间变换器模块捕捉整个序列中跨帧的全局依赖关系。
在没有任何附加条件的情况下，我们的PoseFormer模型在Human3.6M和MPI-INF-3DHP数据集上都取得了最先进的结果。

2. 相关工作

在此，我们特别总结了三维单人单视角HPE方法。直接估计方法从二维图像中推断出三维人体姿态，而不需要立即估计二维姿态表示。二维到三维的提升方法利用二维姿态作为输入来生成相应的三维姿态，这在该领域的最新方法中比较流行。任何现成的二维姿态估计器都可以与这些方法有效兼容。我们提出的方法PoseFormer也遵循二维到三维的提升管道，因此我们将在本节中主要关注此类方法。
二维到三维提升的HPE。二维到三维提升方法利用了从输入图像或视频帧中估计的二维姿势。OpenPose[3]、CPN[6]、AlphaPose[13]和HRNet[35]已经被广泛地用作二维姿势检测器。基于这种中间表征，三维姿态可以用各种方法生成。Martinez等人[26]提出了一个简单有效的全连接残差网络，根据单帧的二维关节位置回归三维关节位置。然而，视频可以提供时间信息以提高准确性和鲁棒性，而不是从单眼图像中估计三维人体姿势[49, 10, 32, 8, 2, 44, 38]。Hossain和Little[33]提出了一个使用长短时记忆（LSTM）单元的循环神经网络，以利用输入序列中的时间信息。一些作品[10, 2, 21]利用空间-时间关系和约束条件，如骨长和左右对称来提高性能。Pavllo等人[32]引入了一个时间卷积网络，通过连续的二维序列的二维关键点估计三维姿势。在[32]的基础上，Chen等人[5]增加了骨骼方向模块和骨骼长度模块，以确保各视频帧的时间一致性，Liu等人[25]利用注意机制来识别重要的帧。然而，以前最先进的方法（如[25，5]）依靠扩张的时间卷积来捕获全局依赖性，这在时间连通性方面有内在的限制。此外，这些工作[25, 5, 33, 32]大多使用简单的操作将关节坐标投射到一个潜在的空间，而没有考虑人体关节的运动学相关性。
三维HPE中的GNNs。当然，人体姿势可以被表示为一个图，其中关节是节点，骨骼是边。图神经网络（GNN）也被应用于二维到三维的姿势提升问题，并提供了很好的性能[9, 45, 24]。Ci等人[9]提出了一个框架，名为局部连接网络（LCNs），它利用完全连接网络和GNN操作来编码局部联合邻域之间的关系。Zhao等人[45]解决了图卷积网络[19]（GCN）操作的一个局限性，特别是如何在节点间共享权重矩阵。引入了语义图卷积操作来学习边的通道权重。
对于我们的PoseFormer，transformer可以被看作是一种图神经网络，具有独特的、通常是有利的图操作。具体来说，transformer编码器模块基本上形成了一个全连接的图，其中边缘权重是使用输入条件、多头自我注意来计算的。该操作还包括节点特征的归一化，一个跨注意力头输出的前馈聚合器，以及残余连接，这使得它能够有效地扩展堆叠层。与其他图操作相比，这样的操作可以说是有利的。例如，节点之间的连接强度是由transformer的自我注意机制决定的，而不是像这个任务中采用的典型的基于GCN的公式那样，通过邻接矩阵预先定义。这使得模型能够灵活地适应每个输入姿势下各关节的相对重要性。此外，转化器的综合缩放和归一化组件可能有利于减轻许多GNN操作变体在许多层堆叠在一起时的过度平滑效应[48]。
视觉transformer。最近，人们对将transformer应用于视觉任务产生了兴趣[17, 14]。Carion等人[4]提出了一个用于物体检测和全景分割的DEtection TRansformer（DETR）。Dosovitskiy等人[12]提出了一个纯粹的变换器架构，即视觉变换器（ViT），它在图像分类上实现了最先进的性能。然而，ViT是在大规模数据集ImageNet-21k和JFT300M上训练的，需要大量的计算资源。然后，一个数据高效的图像转换器（DeiT）[36]被提出，它建立在具有知识提炼功能的ViT之上。对于像HPE这样的回归问题，Yang等人[40]提出了一个转化器网络，Transpose，它只从图像中估计二维姿势。Lin等人[23]在他们的方法METRO（MEsh TRansfOrmer）中结合了CNN和transformer器网络，从单一图像中重建三维姿势和网格顶点。与我们的方法相比，METRO属于直接估计的范畴。另外，METRO忽略了时间上的一致性，这限制了其估计的稳健性。我们的空间-时间变换器架构利用了每一帧的关键点相关性，并保留了视频中的自然时间一致性。

3. 方法

图2. (a) 时间变换器基线。(b) 空间-时间变换器（PoseFormer）架构，由三个模块组成。空间变换器模块用于提取特征，考虑到每个单独骨架的关节关联性。一个时间转换模块，用于学习整个序列的全局依赖关系。一个回归头模块对中心帧的最终三维姿势进行回归。变换器编码器的说明是按照ViT[12]进行的。

我们遵循与[26, 32, 25, 5]相同的视频中3D HPE的2D-3D提升管道。每一帧的二维姿态由一个现成的二维姿态检测器获得，然后将连续帧的二维姿态序列作为估计中心帧三维姿态的输入。与之前基于CNN的最先进的模型相比，我们产生了一个极具竞争力的无卷积变换器网络。

3.1. 时间变换器基线

作为transformer在二维到三维提升中的基准应用，我们将每个二维姿势视为一个输入标记，并采用转换器来捕捉输入之间的全局依赖关系，如图2(a)所示。我们将每个输入标记称为一个patch，与ViT[12]的术语相似。对于输入序列 $X\in R^{f\times \left( J\cdot 2 \right)}$ ， $f$ 是输入序列的帧数， $J$ 是每个二维姿势的关节数，2表示二维空间中的关节坐标。 $\left\{ X^i\in \mathbb{R}^{1\times \left( J\cdot 2 \right)}|i=1,2,...,f \right\}$ 表示每帧的输入向量。补丁嵌入(patch embedding)是一个可训练的线性投影层，将每个patch嵌入到一个高维特征。transformer网络利用位置嵌入(positional embeddings )来保留序列的位置信息。该程序可以被表述为
$Z_0=\left[ X^1E;X^2E;...;X^fE \right] +E_{pos}\ \ \ \ \ \ \ \ \ \ \ \ \ \ \left( 1 \right)$
在通过线性投影矩阵 $E\in \mathbb{R}^{\left( J\cdot 2 \right) \times C}$ 嵌入并与位置嵌入 $E_{pos}\in \mathbb{R}^{f\times C}$ 相加后，输入序列 $X\in \mathbb{R}^{f\times \left( J\cdot 2 \right)}$ 成为 $Z_0\in \mathbb{R}^{f\times C}$ ，其中 $C$ 是嵌入维度。 $Z_0$ 被送到时态变换器编码器(Temporal Transformer Encoder)。
作为变换器的核心功能，自我注意被设计为将输入序列的不同位置与嵌入式特征联系起来。我们的变换器编码器是由多头自我注意块(Multi-head Self Attention blocks )与多层感知器（MLP）块组成的，如[12]。LayerNorm在每个块之前应用，剩余连接在每个块之后应用[39, 1]。
Scaled Dot-Product Attention可以被描述为一个映射函数，它将查询矩阵 $Q$ 、关键矩阵 $K$ 和价值矩阵 $V$ 映射到输出注意力矩阵。 $Q,K,V\in \mathbb{R}^{N\times d}$ ，其中 $N$ 是序列中的向量数， $d$ 是维度。在这个注意力操作中，利用了一个缩放系数来进行适当的归一化，以防止当 $d$ 的大值导致点乘的幅度变大时出现极小的梯度。因此，因此，缩放点积的输出注意可以表示为：
$Attention\left( Q,K,V \right) =Soft\max \left( QK^{\top}/\sqrt{d} \right) V\ \ \ \ \ \ \ \ \ \ \ \left( 2 \right)$
在我们的时间变换器(temporal transformer)中， $d = C$ ， $N = f$ 。 $Q$ 、 $K$ 和 $V$ 是通过线性变换 $W_Q$ 、 $W_K$ 和 $W_V\in \mathbb{R}^{C\times C}$ 从嵌入特征 $Z\in \mathbb{R}^{f\times C}$ 计算出来的。
$Q=ZW_Q,\ K=ZW_K,\ V=ZW_V\ \ \ \ \ \ \ \ \ \ \ \left( 3 \right)$
Multi-head Self Attention Layer(MSA)利用多个head来联合模拟来自不同位置的代表子空间的信息。每个head平行地应用Scaled Dot-Product Attention。MSA的输出将是h个注意力head输出的串联。
$MSA\left( Q,K,V \right) =Comcat\left( H_1,H_2,...,H_h \right) W_{out}\ \ \ \ \ \ \ \ \ \ \ \left( 4 \right)$
$where\ H_i=Attention\left( Q_i,\ K_i,\ V_i \right) ,\ i\in \left[ 1,...,h \right] \ \ \ \ \ \ \ \left( 5 \right)$
考虑到我们的嵌入特征 $Z_0\in \mathbb{R}^{f\times C}$ ，L层的时态变换器编码器(Temporal Transformer Encoder)结构可以表示如下：
$Z_{\ell}^{'}=MSA\left( LN\left( Z_{\ell -1} \right) \right) +Z_{\ell -1},\ \ \ \ \ell =1,2...L\ \ \ \ \ \ \ \ \ \ \ \left( 6 \right)$
$Z_{\ell}=MLP\left( LN\left( Z_{\ell}^{'} \right) \right) +Z_{\ell}^{'},\ \ \ \ \ \ \ \ \ \ell =1,2...L\ \ \ \ \ \ \ \ \ \ \ \left( 7 \right)$
$Y=LN\left( Z_L \right) \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \left( 8 \right)$
其中 $LN\left( \cdot \right)$ 表示层归一化算子（与ViT中相同）。时间变换器编码器由 $L$ 个相同的层组成，编码器输出 $Y\in \mathbb{R}^{f\times C}$ 与编码器输入 $Z_0\in \mathbb{R}^{f\times C}$ 保持相同大小。
为了预测中心帧的三维姿态，编码器输出 $Y\in \mathbb{R}^{f\times C}$ 通过取帧维度的平均值缩减为向量 $y\in \mathbb{R}^{1\times C}$ 。最后，一个MLP模块将输出回归到 $y\in \mathbb{R}^{1\times \left( J\cdot 3 \right)}$ ，这就是中心帧的三维姿势。

3.2. 姿势变换器:空间-时间变换器(PoseFormer: Spatial-Temporal Transformer)

我们观察到，时间变换器基线主要关注输入序列中帧之间的全局依赖关系。补丁嵌入(patch embedding)，一个线性变换，被用来投射关节坐标到一个隐藏的维度。然而，局部关节坐标之间的运动学信息在时间变换器基线中没有得到有力的体现，因为简单的线性投影层不能学习注意力信息。一个潜在的变通方法是将每个关节坐标视为一个单独的patch，并将所有帧的关节作为输入送入转化器（见图1（b））。然而，patch的数量会迅速增加（帧数f乘以关节数J），导致模型的计算复杂性为 $O\left( \left( f\cdot J \right) ^2 \right)$ 。例如，如果我们对每个二维姿势使用81个帧和17个关节，patch的数量将是1377个（ViT模型使用576个patch（输入尺寸=384×384，patch尺寸=16×16））。
为了有效地学习局部联合关联，我们采用了两个分离的transformers，分别用于空间和时间信息。如图2（b）所示，PoseFormer由三个模块组成：空间变换器模块(spatial transformer module)、时间变换器模块( temporal transformer)和回归头模块( regression head module)。
空间变换器模块(Spatial Transformer Module)。空间转换模块是为了从单帧中提取高维的特征嵌入。给定一个具有 $J$ 个关节的二维姿势，我们将每个关节（即两个坐标）视为一个patch，并遵循一般的视觉变换器管道，在所有patch中进行特征提取。首先，我们用可训练的线性投影将每个关节的坐标映射到一个高维度，这被称为空间补丁嵌入。我们将其与可学习的空间位置嵌入[12] $E_{SPos}\in \mathbb{R}^{J\times c}$ 相加，因此第i帧的输入 $X_i\in \mathbb{R}^{1\times \left( J\cdot 2 \right)}$ 成为 $z_{0}^{i}\in \mathbb{R}^{J\times c}$ ，其中 $2$ 表示每一帧的二维坐标， $c$ 是空间嵌入的维度。所得的关节特征序列被送入空间变换器编码器，该编码器应用自我注意机制来整合所有关节的信息。对于第 $i$ 帧，具有 $L$ 层的空间变换器编码器的输出将是 $z_{L}^{i}\in \mathbb{R}^{J\times c}$ 。
时间变换器模块(Temporal Transformer Module)。由于空间变换器模块(spatial transformer module)对每一帧的高维特征进行编码，时间变换器模块的目标是对整个帧序列的依赖关系进行建模。对于第 $i$ 帧，空间变换器 $z_{L}^{i}\in \mathbb{R}^{J\times c}$ 的输出被平铺为向量 $z^i\in \mathbb{R}^{1\times \left( J\cdot c \right)}$ 。然后我们将这些来自 $f$ 个输入帧的向量 $\left\{ z^1,\ z^2,...,\ z^f \right\}$ 连接起来，作为 $Z_0\in \mathbb{R}^{f\times \left( J\cdot c \right)}$ 。在时间变换器模块之前，我们添加可学习的时间位置嵌入[12] $E_{TPos}\in \mathbb{R}^{f\times \left( J\cdot c \right)}$ ，以保留帧的位置信息。对于时间变换器编码器(temporal transformer encoder)，我们采用与空间变换器编码器相同的结构，它由多头自我注意块和 $M L P$ 块组成。时空变换器模块的输出是 $Y\in \mathbb{R}^{f\times \left( J\cdot c \right)}$ 。
回归头(Regression Head)。由于我们使用一连串的帧来预测中心帧的三维姿势，时间变换器模块(temporal transformer module)的输出 $Y\in \mathbb{R}^{f\times \left( J\cdot c \right)}$ 需要被还原为 $y\in \mathbb{R}^{1\times \left( J\cdot c \right)}$ 。我们在帧的维度上应用加权平均运算（用学到的权重）来实现这一点。最后，一个具有 $L a y e r n o r m$ 和一个线性层的简单 $M L P$ 模块返回输出 $y\in \mathbb{R}^{1\times \left( J\cdot 3 \right)}$ ，这是中心帧的预测三维姿势。
损失函数。为了训练我们的时空转换模型，我们应用标准的 $M P J P E$ （平均每关节位置误差）损失来最小化预测姿势和地面真实姿势之间的误差，即
$\mathcal{L}=\frac{1}{J}\sum\limits_{k=1}^J{\lVert p_k-\hat{p}_k \rVert _2}\ \ \ \ \ \ \ \ \left( 9 \right)$

其中 $p_k$ 和 $\hat{p}_k$ 分别是第 $k$ 个关节的地面真相和估计的三维关节位置。

4. 实验

4.1. 数据集和评估指标

我们在两个常用的三维HPE数据集上评估我们的模型，Human3.6M[16]和MPI-INF-3DHP[27]。
Human3.6M[16]是最广泛使用的三维单人HPE的室内数据集。有11位专业演员表演了17个动作，如坐、走、讲电话等。每个主体的视频都是从室内环境中的4个不同角度录制的。这个数据集包含了360万个视频帧，这些视频帧带有由精确的基于标记的运动捕捉系统捕获的三维地面真实注释。按照以前的工作[32, 25, 5]，我们采用相同的实验设置：所有15个动作都用于训练和测试，模型在五个部分（S1, S5, S6, S7, S8）上进行训练，并在两个主体（S9和S11）上进行测试。
MPI-INF-3DHP[27]是一个更具挑战性的3D姿势数据集。它包含了受限的室内场景和复杂的室外场景。有8个演员从14个摄像机视角执行8个动作，涵盖了更多的姿势多样性。MPI-INF-3DHP提供了一个由6个不同场景的主体组成的测试集。我们遵循[22, 5, 38]中的设置。
对于Human3.6M数据集，我们使用最常用的评估指标（MPJPE和P-MPJPE）[46]来评估我们对地面真实三维姿势的估计性能。MPJPE（平均每关节位置误差）被计算为估计的关节和地面真实之间的平均欧氏距离，单位为毫米；我们把MPJPE称为协议1。P-MPJPE是通过对估计的三维姿态和地面实况进行后处理后的MPJPE，它对单个关节的预测失败更为稳健。我们将P-MPJPE称为协议2。
对于MPI-INF-3DHP数据集，我们使用MPJPE、150mm范围内的正确关键点百分比（PCK）[22, 5, 38]，以及曲线下面积（AUC）。

4.2. 实施细节

我们用Pytorch[30]实现了我们提出的方法。两个NVIDIA RTX 3090 GPU被用于训练和测试。在进行实验时，我们选择了三种不同的帧序列长度，即f=9、f=27、f=81。关于帧数与结果的细节将在消融研究中讨论（第4.4节）。我们按照[32, 25, 5]在训练和测试中应用水平翻转的姿势作为数据增强。我们使用Adam[18]优化器对我们的模型进行了130个历时的训练，权重衰减为0.1。我们采用指数学习率衰减计划，初始学习率为2e-4，每个历时的衰减系数为0.98。我们将批次大小设置为1024，并采用随机深度[15]，对变换器编码器层的速率为0.1。对于二维姿势检测器，我们按照[32, 25, 5]在Human3.6M上使用级联金字塔网络（CPN）[7]，并按照[28, 22]将地面真实二维姿势作为MPI-INF-3DHP的输入。

4.3. 与最新技术水平的比较

Human3.6M。我们在表1中报告了测试集（S9和S11）的所有15个动作结果。最后一栏提供了所有测试集的平均性能。按照从二维到三维的提升方法，我们使用CPN网络作为二维姿势检测器，然后将检测到的二维姿势作为输入进行训练和测试。在协议1和协议2下，PoseFormer比我们的基线（即第3.1节中的时间变换器基线）要好很多（6.1%和6.4%）。这清楚地表明了使用空间变换器对每一帧中的关节之间的相关性进行表达式建模的优势。如表1（顶部）所示，PoseFormer在协议1下产生的平均MPJPE最低，为44.3mm。与基于变换器的方法METRO[23]相比，PoseFormer将MPJPE降低了约18%，因为METRO忽略了时间上的一致性，因为三维姿势是由单一图像估计的。对于协议2，我们也获得了最佳的整体结果，如表1（底部）所示。此外，PoseFormer在困难的动作上实现了更准确的姿势预测，如Photo、SittingDown、WalkDog和Smoke。与其他简单的动作不同，这些动作中的姿势变化更快，一些长距离的帧有很强的相关性。在这种情况下，全局依赖性起着重要的作用，而转化器的注意机制则特别有优势。
为了进一步研究我们方法的下限，我们直接使用地面真实的二维姿势作为输入，以减轻由嘈杂的二维姿势数据引起的误差。结果显示在表2中。通过使用干净的二维姿势数据，MPJPE从44.3mm减少到31.3mm，约为29.7%。PoseFormer在9个动作中取得了最佳得分，在6个动作中取得了第二好的得分。与SRNet[43]相比，平均得分提高了约2%。

表1. 使用检测到的二维姿势作为输入，在协议1和2下对Human3.6M的估计三维姿势和地面真实三维姿势之间的平均每关节位置误差的定量比较。上表：协议1（MPJPE）下的结果。下表：协议2（P-MPJPE）下的结果。f表示每种方法使用的输入帧数，∗表示输入的2D姿势由级联金字塔网络（CPN）检测，†表示基于变形器的模型。(红色：最佳；蓝色：次佳)

在图3中，我们还比较了在Human3.6M测试集S11上误差最大的一些单个关节的MPJPE与动作照片。PoseFormer在这些困难的关节上取得了比[32, 5]更好的性能。
MPI-INF-3DHP。表3报告了PoseFormer与其他方法在MPI-INF-3DHP上的定量结果。与Human3.6M相比，这个数据集包含的训练样本较少，而且有些样本来自于室外场景。由于该数据集的序列长度通常较短，我们使用9帧的2D姿势作为我们的模型输入。我们的方法在所有三个评估指标（PCK、AUC和MPJPE）上再次取得了最佳表现。

图3. 在Human3.6M测试集S11的所有帧中，与照片动作的平均联合误差比较。

定性结果。我们还提供了三维估计姿态和地面实况之间的视觉比较。我们在Human3.6M测试集S11上对PoseFormer进行了评估，该测试集是最具挑战性的动作之一（所有方法的MPJPE都很高）。与最先进的方法[5]相比，我们的PoseFormer实现了更准确的预测，如图4所示。

4.4. 消融研究

为了验证PoseFormer各个部分的贡献以及超参数对性能的影响，我们在协议1下用Human3.6M数据集进行了广泛的消融实验。
PoseFormer的设计。我们研究了空间变换器的影响，以及表4中空间和时间变换器的位置嵌入。我们输入9帧CPN检测到的2D姿势（J=17）来预测3D姿势。为了公平地比较每个模块的影响，所有的结构参数都是固定的；空间变换器的嵌入尺寸是17×32=544，空间变换器编码器层的数量是4。对于时间变换器，嵌入尺寸与空间变换器一致（即544），我们也应用4个时间变换器层。为了验证我们的空间-时间设计的影响，我们首先与我们在第3.1节开始的转化器基线进行比较。表4中的结果表明，我们的空间-时间变换器产生了重大影响（从52.5到49.9MPJPE），因为联合相关关系被更有力地模拟了。这也与表1中f=81时的结果（Baseline vs. PoseFormer）一致。接下来，我们评估位置嵌入的影响。我们探索了四种可能的组合：没有位置嵌入，只有空间位置嵌入，只有时间位置嵌入，以及空间和时间位置嵌入。比较这些组合的结果，很明显，位置嵌入提高了性能。通过在空间和时间模块上应用这些东西，达到了最佳的整体效果。

表2. 在协议1（MPJPE）下的Human3.6M数据集上，使用地面真实2D姿势作为输入，估计的3D姿势和地面真实3D姿势之间的平均每关节位置误差的定量比较。(红色：最佳；蓝色：次佳)

图4. 我们的方法（PoseFormer）和Chen等人的SOTA方法[5]在Human3.6M测试集S11上的照片动作的定性比较。绿色箭头强调了PoseFormer明显具有更好结果的位置。

表3. 与以前的MPIINF-3DHP方法的定量比较。最好的分数用粗体字标出。

表4. 对PoseFormer中不同组件的消融研究。评估是在Human3.6M（协议1）上进行的，使用检测到的2D姿势作为输入。(T: 只有时间上的；S-T: 空间-时间上的)

表5. 对PoseFormer中不同结构参数的消融研究。评估是在Human3.6M（协议1）上进行的，使用检测到的二维姿势作为输入。c是空间变换器补丁嵌入维度。LS和LT分别表示空间和时间变换器的层数。

表6. 计算复杂性、MPJPE和推理速度（每秒一帧（FPS））的比较。评估是在协议1下对Human3.6M进行的，使用检测到的2D姿势作为输入。FPS是基于单个GeForce GTX 2080 Ti GPU。

架构参数分析。我们探索各种参数组合，以找到表5中的最佳网络结构。c代表空间变换器中的嵌入特征维度，L表示变换器编码器中使用的层数。在PoseFormer中，空间变换器的输出被压扁，并与时间位置嵌入相加，形成时间变换器编码器的输入。因此，时间变换器编码器的嵌入特征维度是c×J。我们模型的最佳参数是c=32，LS=4，LT=4。
计算复杂性分析。我们在表6中报告了不同输入序列长度（f）下的模型性能、参数总数和每帧估计浮点运算（FLOPs），以及输出帧/秒（FPS）的数量。当序列长度增加时，我们的模型取得了更好的准确性，而参数总数并没有增加很多。这是因为帧数只影响到时间位置嵌入层，它不需要很多参数。与其他模型相比，我们的模型需要的总参数较少，性能也很有竞争力。我们报告了不同模型在单个GeForce RTX 2080 Ti GPU上的推理FPS，遵循[5]中的相同设置。尽管我们模型的推理速度不是绝对最快的，但对于实时推理来说，其速度还是可以接受的。对于完整的3D HPE处理，首先由2D姿势检测器检测2D姿势，然后由我们的方法估计3D姿势。普通二维姿势检测器的FPS通常低于80，这意味着我们模型的推理速度不会成为瓶颈。

图5. 空间变换器中的自我关注的可视化。x轴（水平）和y轴（垂直）分别对应于查询和预测的输出。像素wi,j（i：行，j：列）表示第j个查询对第i个输出的关注权重。红色表示更强的注意力。注意力输出从0到1被规范化。

图6. 时空变换器中自我注意力的可视化。X轴（水平）和Y轴（垂直）分别对应于查询和预测的输出。像素wi,j（i：行，j：列）表示第j个查询对第i个输出的关注权重。红色表示更强的注意力。注意力输出从0到1被规范化。

注意力的可视化。为了通过多头自我注意块来说明注意机制，我们在Human3.6M测试集S11上对一个特定动作（SittingDown）进行了评估，并将来自空间和时间变换器的自我注意图分别可视化，如图5和图6所示。对于空间自我注意图，X轴对应于17个关节的查询，Y轴表示注意力的输出。如图5所示，注意头返回不同的注意强度，这代表了在输入关节之间学到的各种局部关系。我们发现，头3关注的是15和16号关节，也就是右肘和右腕。头5建立了左腿和左臂的连接（4、5、6号关节和11、12、13号关节）。这些关节可以被归类为身体的左侧部分，而头7集中在右侧（关节1、2、3与关节12、13、14）。
对于图6中的时间性自我注意图，X轴对应于81帧的查询，Y轴表示注意的输出。长期的全局依赖性是由不同的注意力头学习的。头3的注意力与中心帧右侧的一些帧（如第58、62和69帧）高度相关。头7捕捉到了第1、20、22、42、78帧的依赖关系，尽管它们的距离很远。空间和时间注意力图表明，PoseFormer成功地模拟了关节之间的局部关系，同时也捕捉到了整个输入序列的长期全局依赖关系。

表7. 对HumanEva测试集的MPJPE评估。FT表示在Human3.6M上使用预训练的模型进行微调。

对小数据集的泛化。之前的工作，如[12]，得出的结论是，在数据量不足的情况下训练的转化器不能很好地进行泛化。我们用我们的模型进行了一个实验，以研究在一个小数据集–HumanEva[34]上的转化器学习能力。与Human3.6M（大于100万帧）相比，它是一个小得多的数据集（小于50K帧）。表7显示了从头开始训练以及在Human3.6M上使用预训练模型进行微调的结果。我们发现，在微调时，性能可以提高很大的幅度，这遵循了以前的观察[12, 36]，即变压器在大规模数据集上预训练时可以表现良好。

5. 总结

在本文中，我们提出了PoseFormer，一种基于纯变换器的方法，用于从二维视频中进行三维姿势估计。空间变换器模块对二维关节之间的局部关系进行编码，时间变换器模块捕捉任意帧之间的全局依赖关系，而不考虑距离。广泛的实验表明，我们的模型在两个流行的三维姿势数据集上实现了最先进的性能。

你可能感兴趣的:(论文笔记,3d,计算机视觉,深度学习,transformer)

AI时代个人财富增长实战指南：从零基础到精通变现的完整路径 A达峰绮人工智能
（本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉（图像视频处理）、数据分析（预测建模）、自动化控制（流程优化）。建议新手首先掌握语言类工具的基础操作，逐步扩展到其他领域。工具操作逻辑通用AI工具通常包含三大核心功能模块：输入界面
【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？努力毕业的小土博^_^ AI算法题库人工智能算法计算机视觉深度学习神经网络
【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？文章目录【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？前言数据级别的多尺度模型架构上的多尺度表示FPN代码示例（PyTorch）说明其他多尺度处理方法总结欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
StyleGaussian: Instant 3D Style Transfer with Gaussian Splatting 于初见月 paper 计算机视觉
AbstractWeintroduceStyleGaussian,anovel3Dstyletransfertechniquethatallowsinstanttransferofanyimage’sstyletoa3Dsceneat10FPS.Leveraging3DGS,StyleGaussianachievesstyletransferwithoutcompromisingitsreal-t
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
Deepseek-R1-Distill-Llama-8B + Unsloth 中文医疗数据微调实战 LuckyAnJo LLM相关 llama python 自然语言处理人工智能
内容参考至博客与Bin_Nong1.环境搭建主要依赖的库(我的版本)：torch==2.5.1unsloth==2025.2.15trl==0.15.2transformers==4.49.0datasets=3.3.1wandb==0.19.62.数据准备-medical_o1_sft_Chinese经过gpt-o1的包含cot(思考过程)的中文医疗问答数据，格式与内容如下:"Question"
搜广推校招面经五十四 Y1nhl 搜广推面经搜索算法 python 推荐算法机器学习人工智能
美团推荐算法一、手撕Transformer的位置编码1.1.位置编码的作用Transformer模型没有显式的序列信息（如RNN的循环结构），因此需要通过位置编码（PositionalEncoding）为输入序列中的每个位置添加位置信息。位置编码的作用是：提供序列位置信息：帮助模型理解输入序列中元素的顺序。保持唯一性和连续性：确保每个位置的位置编码是唯一的，且相邻位置的位置编码是连续的。1.2.位
【面经&八股】搜广推方向：面试记录（十三）秋冬无暖阳° 搜广推等—算法面经面试职场和发展
【面经&八股】搜广推方向：面试记录（十三）文章目录【面经&八股】搜广推方向：面试记录（十三）1.自我介绍2.实习经历问答3.八股之类的问题4.编程题5.反问6.可以1.自我介绍。。。。。。2.实习经历问答挑最熟的一个跟他讲就好了。一定要熟~3.八股之类的问题极大似然估计和贝叶斯估计，区别与联系建议参考这个链接transformer为什么要使用多头关键点在于集成，使语义更加完善圆上随机去三个点，三个
不搞花里胡哨！CMU最新开源：极简风格的LiDAR全景分割+跟踪！ 3Ｄ视觉工坊 3D视觉从入门到精通 3D视觉
来源：3D视觉工坊在公众号「3D视觉工坊」后台，回复「原论文」可获取论文pdf、代码链接添加微信：dddvisiona，备注：三维点云，拉你入群。文末附行业细分群1.笔者个人体会激光雷达全景分割（LPS）一般遵循自下而上的以分割为中心的范式，利用聚类获得对象实例来建立语义分割网络。但是最近CMU&Meta等大佬们重新思考了这种方法，并提出了一个简单而有效的检测中心网络，用于LPS和跟踪。这项工作也
【JavaScript】11-JS高阶技巧 beibeibeiooo JavaScript【已完结】javascript 前端 ecmascript es6
本文介绍JS中的一些高阶技巧。目录1.深浅拷贝1.1浅拷贝1.2深拷贝1.2.1通过递归实现1.2.2lodash/cloneDeep1.2.3JSON.stringify()2.异常处理2.1throw抛异常2.2try/catch捕获异常2.3debugger3.处理this3.1this指向3.1.1普通函数this3.1.2箭头函数的this3.2改变this3.2.1call方法改变3.
【ES6】03-Set + Map beibeibeiooo ES6【已完结】es6 前端 javascript ecmascript
本文介绍两种集合setmap的操作和方法。目录1.Set1.1set基本使用1.2add1.3delete1.4has1.5size1.6set转换为数组1.7拓展运算符1.8for...of1.9forEach1.10set给数组去重2.Map2.1创建map集合2.2set添加元素2.3delete删除元素2.4has2.5size2.6map转换为数组2.7拓展运算符...2.8for...
一步到位！7大模型部署框架深度测评：从理论到DeepSeek R1:7B落地实战人肉推土机人工智能 python
本文在掘金同步发布：文章地址更多优质文章，请关注本人掘金账号：人肉推土机的掘金账号随着大语言模型（LLM）的广泛应用，如何高效部署和推理模型成为开发者关注的核心问题。本文深入解析主流模型部署框架（Transformers、ModelScope、vLLM、LMDeploy、Ollama、SGLang、DeepSpeed），结合其技术原理、优缺点及适用场景，并提供DeepSeekR1:7B的详细部署实
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
cesium 文字避让花归去 cesium javascript 前端 vue.js
token记得换成您自己的！！！申请cesium的token官网【Cesium:ThePlatformfor3DGeospatial】>import*asCesiumfrom'cesium';import{onMounted,reactive,ref,computed,nextTick}from'vue';//地图实例letviewer:any;constshowText=()=>{viewer.
深度学习模型性能全景评估与优化指南 niuTaylor 深度学习人工智能
深度学习模型性能全景评估与优化指南一、算力性能指标体系1.核心算力指标对比指标计算方式适用场景硬件限制TOPS(TeraOperationsPerSecond)每秒万亿次整数运算量化模型推理NVIDIAJetsonNano仅支持FP16/FP32TFLOPS(TeraFLoating-pointOPerationsperSecond)TFLOPS=Cores×FLOPs/Cycle×Frequen
车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统威哥说编程 c#开发语言
车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。实现车牌识别系统的关键步骤包括图像预处理、车牌检测、字符分割、字符识别等。C#中可以通过结合OpenCV、EmguCV、TesseractOCR等工具来实现车牌识别系统。一、所需工具和库EmguCV：这是一个封
探究Three.js中模型移动与旋转的交互逻辑 Front_Yue 3D技术实践指南 javascript three.js 3d
前言Three.js作为一个功能强大的JavaScript3D库，极大地简化了在网页上创建和展示3D图形的过程。它在游戏开发、产品展示、虚拟现实等众多领域都被广泛应用。通过Three.js，开发者能够轻松创建出复杂的三维场景和交互性强的3D应用，为用户带来沉浸式的体验。一、模型移动的交互逻辑实现（一）键盘控制模型移动利用键盘事件来控制模型在三维空间中的位置移动，是一种常见且便捷的交互方式。以下为具
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
强化学习中的深度卷积神经网络设计与应用实例数字扫地僧计算机视觉 cnn 人工智能神经网络
I.引言强化学习（ReinforcementLearning，RL）是机器学习的一个重要分支，通过与环境的交互来学习最优策略。深度学习，特别是深度卷积神经网络（DeepConvolutionalNeuralNetworks，DCNNs）的引入，为强化学习在处理高维度数据方面提供了强大工具。本文将探讨强化学习中深度卷积神经网络的设计原则及其在不同应用场景中的实例。II.深度卷积神经网络在强化学习中的
使用Three.js渲染器创建炫酷3D场景 Front_Yue 3D技术实践指南 javascript three.js 3d
引言在当今数字化的时代，3D图形技术正以其独特的魅力在各个领域掀起波澜。从影视制作到游戏开发，从虚拟现实到网页交互，3D场景以其强烈的视觉冲击力和沉浸式的体验，成为了吸引用户、传达信息的重要手段。而Three.js，作为一款功能强大且广受欢迎的JavaScript3D库，为我们提供了便捷、高效的途径来创建令人炫目的3D场景。本文将深入探讨使用Three.js渲染器创建炫酷3D场景的方方面面，带领读
腾讯云大模型知识引擎与DeepSeek：打造懒人专属的谷歌浏览器翻译插件大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 腾讯云云计算
摘要：随着人工智能技术的飞速发展，越来越多的前沿技术和工具已走入日常生活。翻译工具作为跨语言沟通的桥梁，一直处于技术创新的风口浪尖。本文探讨了腾讯云大模型知识引擎与DeepSeek结合谷歌浏览器插件的可能性，旨在为用户提供一种便捷、高效的翻译体验。通过应用深度学习、自然语言处理和知识图谱技术，该插件不仅能实时翻译网页内容，还能根据上下文进行智能推荐，实现精准的语境转换。本文将详细阐述其设计思路、技
DeepSeek-R1大模型微调技术深度解析：架构、方法与应用全解析大势下的牛马搭建本地gpt 架构 deepseek 微调
1.DeepSeek-R1大模型架构设计与技术特性1.1架构设计DeepSeek-R1作为超大规模语言模型，其核心架构设计包含以下创新：专家混合架构（MoE）采用6710亿参数的混合专家架构（MoE），每个推理过程仅激活370亿参数，实现计算效率与资源利用率的突破性提升。Transformer框架增强基于改进型Transformer架构，结合多头注意力机制（MLA）与动态权重分配技术，优化了长程依
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（二）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（二）5.跨模态检索系统应用场景5.1图文匹配系统的实际应用应用领域具体场景优势电子商务商品图像搜索、视觉购物用户可以上传图片查找相似商品或使用文本描述查找商品智能媒体内容推荐、图片库搜索通过内容的语义理解提供更精准的推荐和搜索社交网络基于内容的帖子推荐理解用户兴趣，提供更相关的内容推荐教育技术多模态教学资源检索教师和学生可以更
PyTorch深度学习框架60天进阶学习计划 - 第28天：多模态模型实践（一）凡人的AI工具箱深度学习 pytorch 学习 AI编程人工智能 python
PyTorch深度学习框架60天进阶学习计划-第28天：多模态模型实践（一）引言：跨越感知的边界欢迎来到我们的PyTorch学习旅程第28天！今天我们将步入AI世界中最激动人心的领域之一：多模态学习。想象一下，如果你的模型既能"看"又能"读"，并且能够理解图像与文字之间的联系，这将为我们打开怎样的可能性？今天我们将专注于构建图文匹配系统，学习如何使用CLIP（ContrastiveLanguage
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
借Kinect 扫描软件 reconstructMe skanect ksan3d learn deep learning 三维重建
[基础技术]3D扫描教程http://bbs.kechuang.org/read/59979楼主#更多发布于：2013-08-2314:48入门级的3D扫描ReconstructMe硬件kinectXBox360不兼容kinectforwindows或者XtionProLive（XtionProLive开发版包装,有Microphone和RGBsensor）有电动转盘更好，win732位或者64位
10.2 如何解决从复杂 PDF 文件中提取数据的问题？墨染辉大语言模型 pdf
10.2如何解决从复杂PDF文件中提取数据的问题？解决方案：嵌入式表格检索解释：嵌入式表格检索是一种专门针对从复杂PDF文件中的表格提取数据的技术。它结合了表格识别、解析和语义理解，使得从复杂结构的表格中检索信息成为可能。具体步骤：表格检测和识别：目标：在PDF页面中准确地定位和识别表格区域。方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面
【css酷炫效果】css酷炫效果100篇合集冰夏之夜影 css 前端
【css酷炫效果】纯CSS实现立体纸张折叠动效缘创作背景动画效果合集【css酷炫效果】实现鱼群游动动态效果【css酷炫效果】纯CSS实现无限旋转加载动画【css酷炫效果】纯CSS实现悬浮放大卡片【css酷炫效果】纯CSS创建流体渐变背景动画【css酷炫效果】纯CSS实现3D翻转卡片动画【css酷炫效果】纯CSS实现文字逐字显现打字效果【css酷炫效果】纯CSS实现霓虹文字呼吸灯效果【css酷炫效果
3090显卡Ktransformer本地部署deepseek R1:70B SIATdog ai
这里写自定义目录标题效果完成视频：配置参考依赖安装安装cuda配置环境下载deepseekR170B下载ktransoformer开始安装运行Web启动常见问题runtimeerrordon'tmatch更新cudaERROR:Failedtobuildinstallablewheelsforsomepyproject.tomlbasedprojects(ktransformers)效果完成视频：
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs