EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid

EMHIFormer:一种增强的多假设交互Transformer,用于视频中三维人体姿态估计

Redirecting

摘要 

单目3D人体姿态估计是一个具有挑战性的任务,因为深度模糊和遮挡。最近的方法利用时空信息,并产生不同的假设来模拟不同的解决方案,以缓解这些问题。然而,这些方法没有充分提取空间和时间信息以及每个假设的关系。为了缓解这些限制,我们提出了EMHIFormer(增强型多假设交互Transformer)模型的3D人体姿势具有更好的性能。详细地说,我们在不同的Transformer层之间建立连接,以便我们的模型能够整合前一层的时空信息,并建立更全面的假设。此外,提出了一个由并联Transformer组成的交叉假设模型,以加强各种假设之间的关系。我们还设计了一个增强的回归头,自适应地调整通道权重,以导出最终的3D人体姿态。在两个具有挑战性的数据集上进行了大量实验:Human3.6M和MPI-INF-3DHP以评估我们的EMHIFormer。结果表明,EMHIFormer在Human3.6M上实现了有竞争力的性能,在MPI-INF-3DHP上实现了最先进的性能。与最接近的对应物MHFormer相比,我们的模型在Human3.6M数据集上比它高0.6% P-MPJPE和0.5% MPJPE,在MPI-INF-3DHP上比它高46.0% MPJPE。

引言

由于缺乏位置信息,二维人体姿态估计只能在像素坐标系下建立人体,不能反映人体关键点与真实的世界的关系。为了解决这一问题,越来越多的科学家和研究人员关注三维人体姿态估计(3D HPE)。单目观察的3D HPE旨在从图像或视频中检测人体的3D关节位置,它可以提供有价值的身体运动和身体交互的表达,这对我们的生活有着巨大的应用,如动作识别[1-3],医疗保健和虚拟现实[4]。因此,3D HPE在生活和科学研究中都具有重要意义。

在计算能力不足的时期,研究人员通常使用惯性测量单元(IMU)传感器[5]、激光雷达传感器[6]和深度相机[7]来获得3D人体姿势。但是IMU和深度相机非常麻烦,无法在日常生活中广泛使用。此外,激光雷达传感器用于估计3D姿态是昂贵的。随着计算机科学和深度学习的发展,越来越多的科学家更喜欢直接利用深度学习算法来开发成像传感器,这是经济有效的。现有工程一般分为两部分:(1)直接估计方法[8,9]和(2)2D到3D提升方法[10-18]。直接估计方法利用图像作为输入以直接推断3D关节而没有任何2D中间表示,而2D到3D提升方法从中间估计的2D姿态推断3D人体姿态。受益于2D HPE的最新进展,2D到3D提升方法正在迅速发展,并且通常优于直接估计方法。然而,映射到3D的这些2D姿态是不适定问题。由于深度模糊性,可以从相同的2D姿态映射各种潜在的3D姿态。为了缓解这个问题并提高估计性能,最近的工作集中在使用来自视频的时间信息来预测3D人体姿态。例如,Chen et al.[12]和Liu et al.[11]利用卷积神经网络从连续视频帧中捕获全局时间连接。然而,这些方法通常取决于核大小和感受野的大小,并且它们自身的时间联系有限。Zeng等人[17]利用卷积神经网络来分割和重组人体,以便更好地概括罕见和不可见的姿势。Hossain等人[18]使用递归网络来达到类似的效果,但它们受到高计算复杂度的限制。

 基于上述调查,在我们的工作中,我们提出了一个基于变换器的网络称为增强多假设交互变换器(EMHIFormer)。我们的框架旨在提高跨层交互能力,加强不同假设之间的联系,并自适应地调整回归头中的信道权重以获得更好的性能。为了实现以上这些,我们提出了跨层多假设生成模块(CMHG),跨假设细化模块(CHR)和增强回归头(ERH)。详细地说,我们的CMHG模块包含级联变压器,它添加了不同块之间的连接,以整合来自前一层的时空信息,并从每个变压器层的输出建立更全面的假设。此外,我们认为不同的假设也包含一些内在的联系,所以我们提出CHR,以建立一个桥梁之间的各种假设之间的并联变压器。此外,我们利用ERH回归最终输出,而不是传统的回归头。我们的ERH包括一个1D卷积层和一个1D增强归一化层。与传统的归一化方法不同,我们不使用层归一化[16]或传统的批量归一化(BN)类方法[19,24],而是使用1D增强批量归一化(EBN),其结合BN和通道注意力,自适应地调整通道权重以输出更好的3D人体姿态。

此外,为了快速收敛和稳定下降,我们提出了一个组合损失,以获得更鲁棒的结果。我们对3D人体姿态估计的贡献可以总结如下:

·为了建立丰富的假设信息,我们提出了一种级联Transformers的CMHG模型,该模型在Transformers层之间增加了桥梁,以整合前一层的时空信息,增强了假设生成能力。

·为了加强各种假设之间的联系,我们设计了CHR模块,通过并行的Transformers建立了对各种假设的访问,以集成不同特征。

·为了适应性地调整信道权重以获得更好的3D姿态,我们设计了ERH,该ERH结合了1d卷积层和EBN,以在每个批次中分配不同的权重。

·为了获得更稳健的结果,我们提出了一种快速收敛和稳定下降的组合损失。

方法

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第1张图片

图1示出了EMHIFormer的概述。通过利用一个off-theself 2D姿态检测器来推断从视频的2D姿态,我们的方法应用一个基于变换器的结构,以充分利用空间和时间信息与多个假设。为此,我们提出了CMHG、CHR和ERH,并利用CHI来完成不同假设之间的信息交互。

1.初步

在我们的工作中,我们采用Transformer结构来回归三维人体姿态估计坐标。接下来,我们简要给予了Transformer的核心部分:多头自注意(MSA)和多层感知器(MLP)。

在MSA中,查询、键和值是输入x∈Rn*d的线性映射值,其中表示序列长度,表示维数。,然后,MSA的过程可以表示为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第2张图片

其中表示注意头的数目,w0∈R n×n是 MSA中的线性投影权值。MLP由两个线性层组成,并且其可以被计算为:

其中是激活函数,1和2是线性层中的两个权重,1和2是两个偏置参数。b1,b2是两个偏置参数

2.跨层多假设生成

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第3张图片

在图1(a)中,我们示出了CMHG的架构,其由级联变压器组成。CMHG不仅能够生成各种假设,而且能够在不同Transformer模块之间搭建桥梁,提取更丰富的信息,增强信息交互。首先提供二维坐标序列作为输入,然后将维数转换为,其中和J分别表示框架数和关节数,其次,我们应用一个可学习的空间位置嵌入来标记二维序列的输入顺序。第三,嵌入的特征被输入到我们的CMHG,以产生丰富的假设。假设存在M个不同的假设、h1个注意力头和L1个CMHG层,则可以公式化为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第4张图片

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第5张图片

然而,这些特征仅包括空间信息并且需要提取时间信息以进一步增强。

3.交叉假设精化

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第6张图片

CHR如图1(b)所示,其由并联的Transformer块组成。与CMHG不同,CHR的目标是将各种假设联系起来,以更好地提取时间维度上的特征。为了加强假设之间的关系,我们建立了一个连接的每一个注意力分数从不同的假设。首先,通过应用全连通层将1嵌入到高维特征。第二,将可学习的时间位置嵌入。第三,将嵌入特征应用于CHR,旨在进一步增强每个假设的表达能力。对于包含M个假设的输出,为了在它们之间交换信息,我们将M假设合并并应用到假设混合MLP(HM_MLP)中以混合它们自己。假设CHR中存在H2个注意头和L2个层,则可以公式化为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第7张图片

 4.交叉假设交互作用

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第8张图片

我们在CHR中引入假设间的连接来改善假设细化中假设间的信息融合,使细化的特征更好。然而,仍然缺乏与假设之间的信息交互的能力。接下来我们使用CHI专门用于假设间信息交互,其架构如图1所示。。它包括多假设交叉注意(MHCA)和HM_MLP。具体地,MH-CA由多个平行的多头交叉注意(MCA)组成,其测量交叉假设特征和MCA的结构之间的相关性,如图所示(右)。与利用不同的键和值作为输入的多重自我注意(MSA)不同,MCA交替地采取不同的假设作为键、查询和值的输入。因此,MH-CA的过程可以计算为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第9张图片

5.增强型回归头

ERH由一维卷积层和一维增强型BatchNorm(EBN)构建,以自适应地调整信道权重以获得更好的3D姿态。传统BN由两部分组成:批量归一化步骤和重加权步骤。将在批归一化步骤中计算各批次的平均值和方差。步骤1可以计算为:

其中和分别表示第B批的平均值和标准偏差,1表示归一化结果。接下来,在步骤2中,设置两个可学习参数和以缩放和移位归一化张量1。最终BN输出 2计算为:

除了上面的传统BN,我们的增强BN结合频道注意力,以调整每个批次的频道特性,如图所示。1(d)。首先,采用一维平均池化1dAVG(·)来捕获全局特征。平均后的结果为3,计算如下:

特别是,与一些主流渠道关注不同,我们没有使用全连接层,而是使用两个可学习的参数1和1来调整每个批次。此外,利用激活函数对调整值作为门。最后,上面的输出作为权重馈送到1。它可以被公式化为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第10张图片

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第11张图片

其中sig(⋅)表示激活函数,∈ R×(⋅)是EBN的输出。然后,通过一维卷积层,我们提取中间帧作为最终结果。

6.损失函数

采用端到端的损耗函数对整个网络进行训练。为了快速收敛和稳定下降,我们提出了一种组合损失,其中包括MPJPE和L1损失。因此,最终损失函数f被定义为:

EMHIFormer: An Enhanced Multi-Hypothesis Interaction Transformer for 3D human pose estimation in vid_第12张图片

实验

实现细节

我们利用来自2D姿态检测器[29]和2D地面实况的2D关键点来判断我们的结构的结果。为了公平比较,我们选择了81帧和351帧的Human3.6M比较我们的方法与其他MPJPE和P-MPJPE下。我们用Amsgrad优化器训练了我们的模型25个时期。初始学习率设置为0.001,收缩因子为0.95,并且每5个时期下降50%以快速收敛。为了保存内存消耗,我们利用了NVIDIA的混合精度训练。特别是,所有实验都是在单个GeForce RTX 3090 GPU(24 G)上使用PyTorch 1.8.0实现的。

结论

提出了一种基于变换器的三维人体姿态估计模型EMHIFormer(Enhanced Multi-Hypothesis Interaction Transformer),该模型通过更丰富的假设整合来推断三维人体坐标。我们在不同的Transformer层之间建立连接,加强多个假设之间的关系,并利用增强的回归头自适应地调整通道权重,以获得更好的3D人体姿势。大量的实验结果表明,我们的模型具有竞争力的性能,三维人体姿态估计。

你可能感兴趣的:(文献,transformer,3d,深度学习)