3D重建论文阅读-CVPR2022(1-2)

MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation.


文章目录

  • MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation.
  • 摘要
  • 一、Introduction
  • 二、相关工作
    • 1.3D Human Pose Estimation.
    • 2.Vision Transformers.
    • 3.Multi-Hypothesis Methods.
  • 三、Multi-Hypothesis Transformer.
    • 3.1 Preliminary
    • 3.2 Multi-Hypothesis Generation.
    • 3.3 Temporal Embedding.
    • 3.5 Cross-Hypothesis Interaction.
    • 3.6 Regression Head.
    • 3.7 Loss Function.
  • 总结


摘要

提示:这里可以添加本文要记录的大概内容:

因为深度信息缺乏和自我遮挡问题,从单目视频估计3D人体姿态是一个非常有挑战的工作。现存的大多数工作都是通过挖掘时空关系来解决上述问题。然而,这些工作都忽略了一个很重要的问题,这个问题是一个多个可行解(即假设)的逆问题。为了解决这些问题,本文提出了一个Multi-Hypothesis Transformer方法,该方法学习了多个可靠的姿态假设的时空表示,为了有效地建模多假设依赖关系,并在假设的特征之间建立强关系,任务被分解为三个阶段:(i)生成多个初始假设表征;(ii)建立自我假设通信模型,将多个假设合并为一个单一的聚合表征,然后将其划分为多个不同的假设;(iii)学习跨假设通信,并聚合多假设特征,合成最终的3D姿势。通过上述过程,最终的表征得到了增强,合成的姿势更精确。实验在两个具有挑战性的数据集进行:Human3.6M和MPI-INF-3DHP。作者已经把代码公开,链接地址为:https://github.com/Vegetebird/MHFormer.


一、Introduction

基于单目视觉的3D 人体姿态估计(HPE–human pose Estimation)是一种基础的视觉任务并且有着广泛的应用,比如动作识别、人机交互和增强/虚拟现实。HPE任务可以分成两个子任务:通过2D姿态检测在2D图像上定位关键点,然后从2D关键点转化到3D空间;尽管该方法取得了不俗的表现,但因为2D表示的自我遮挡和深度模糊,该问题仍然是个固有的病态问题。
为了减轻这些问题,大多数方法聚焦在探究空间和时间关系。他们不是利用了图神经网络基于人体骨骼点的时空图表示来预测人体3D姿态,就是通过纯Transfomer模型的来获取2D动作序列的时空信息。然而,单目视频从2d到3d的提升是一个逆问题,其中存在多个可行的解决方案(即假设),这是由于其不适定的性质,加上缺失的深度。这些方法忽略了这个问题,只估计了一个单一的解决方案,这经常导致不令人满意的结果,特别是当人被严重遮挡时。
最近,针对逆问题提出了几种生成多个假设的方法,多数依赖一对多的映射,它们通常依赖于一对多的映射,即使用共享的特征提取器向现有的体系结构添加多个输出头,而不能建立不同假设的特征之间的关系。这是一个非常重要的缺点,比如提高模型的表达和性能是很重要的,针对三维HPE的模糊逆问题,我们认为首先进行一对多的映射比使用多种中间假设进行多对一的映射更合理,因为这种方式可以丰富特征的多样性,并对最终的三维姿态产生更好的合成。
为了实现这个目的,我们提出了一个单目视频的Transformer-based的方法3D人体姿态估计,称为MHFormer. 关键的洞察力是让模型学习不同姿势假设的时空表征。为了实现这个目的,为了实现这一目标,我们引入了一个三阶段框架,从生成多个初始表示开始,逐步跨它们进行通信,以合成一个更准确的预测,如图2所示。该框架能更有效地模拟多假设依赖关系,同时也能在假设特征之间建立更强的关系。第一阶段,建立多假设生成(MHG)模块,对人体关节的内在结构信息进行建模,生成多个多层次的空间特征;这些特征包含了从浅到深的不同深度的不同语义信息,可以看作是多个假设的初始表征。
接下来,我们提出了两个新的模块来建模时间一致性,并在时间域增强了那些在现有的产生多个假设的作品中尚未探索的粗糙表示。在第二阶段,提出了自我假设细化(Self-Hypothesis refine, SHR)模块来细化每一个单假设特征。SHR由两个新模块组成。第一个块是多假设自我注意(MH-SA),它独立地对单假设依赖建立模型,以构建自我假设通信,使信息在每个假设中传递以增强特征。第二个块是一个假设混合多层感知器(MLP),它在假设之间交换信息。将多个假设合并成一个聚合表示,再将该表示分割成多个发散的假设。

二、相关工作

1.3D Human Pose Estimation.

现存的单视图3D姿势估计方法可以分为两个主要的路线:one-stage方法和 two-stage 方法;One-stage 方法直接infer 3D姿势而 two-stage方法首先获得2D关键点,然将2D姿势检测进而放入2D-3D网络模型来估计3D姿态。SimpleBaseline提出了一个全连接残差网络来提升2D关键点到3D关键点的坐标;Anatomy3D将任务分解为bone的方向和bone的长度预测来保证序列上的时域连续性。尽管使用全卷积结构或基于图的结构的时间相关性取得了很有希望的结果,但这些方法在捕获跨帧的全局上下文信息时效率较低。

2.Vision Transformers.

近年来,具有强大全球自注意机制的Transformer[38]在计算机视觉领域引起了越来越多的研究兴趣。对于基本的图像分类任务,基于标准的Transformer架构直接用于图像序列,因此ViT被提出。对于姿态估计任务,PoseFormer使用一个纯Transformer来获取人体关节相关与时域依赖。Strided Transformer引入基于Transfomer架构的stride卷积来提升一个2D pose序列到一个3D姿态。

3.Multi-Hypothesis Methods.

Jahangiri et al.[13]通过组成模型和解剖约束生成多个与2d关键点一致的3D姿势候选。Wehrbein et al.[41]用归一化流建模了三维位姿假设的后验分布。与这些专注于一对多映射的工作不同,我们首先学习了一对多映射,然后是多对一映射,它允许对不同假设对应的不同特征进行有效建模,从而提高表示能力。

三、Multi-Hypothesis Transformer.

3.1 Preliminary

MSA: 输入x(nxd)被线性映射到一个Q(nxd),Keys K(nxd),values V(nxd),n 表示序列长度,d表示维度:
Attention(Q,K,V) = Softmax(QK^T/sqrt(d))V
MLP: 包括两个线性层,被用于非线性和特征转移:
MLP(x) = Theta( xW1 + b1 ) W2 + b2
Theta表示GELU激活函数,W1(dxdm), W2(dmxd), b1(dm), b2(d)是偏移项。

3.2 Multi-Hypothesis Generation.

在空间领域,我们通过显式设计一个级联的Transformer结构来生成潜在空间不同深度的多个特征来解决逆问题。为此,引入MHG模型对人体关节关系进行建模,并初始化多假设表示

3.3 Temporal Embedding.

3.5 Cross-Hypothesis Interaction.

然后我们通过CHI来模拟多假设特征间的交互作用,CHI包含两个模块:多假设交叉注意(multi-hypothesis cross-attention, MH-CA)和假设混合mlp。

3.6 Regression Head.

在regression Head中,一个线性的transformation层应用于输出ZL3来展示回归结果,进而产生3D姿势序列X(NxJx3),最终,中间帧的3D pose作为最终的输出。

3.7 Loss Function.

损失函数 Mean Squared Error(MSE),用来评测GT数据与估计数据间差距。

总结

提示:这里对文章进行总结:

例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

你可能感兴趣的:(3D重建论文阅读,深度学习,计算机视觉)