CVPR2023新作:3D人体姿态估计II

  1. Title: 3D Human Pose Estimation With Spatio-Temporal Criss-Cross Attention

  2. Affiliation: Hefei University of Technology

  3. Authors: Zhenhua Tang, Zhaofan Qiu, Yanbin Hao, Richang Hong, Ting Yao

  4. Keywords: 3D human pose estimation, spatio-temporal criss-cross attention, transformer-based solutions, structure-enhanced positional embedding

  5. Summary:

  • (1): 该文章的研究背景是3D人体姿态估计。该领域在计算机视觉领域中引起了大量的研究关注,适用于许多应用场景,如人机交互、虚拟现实和运动预测等。

  • (2): 过去的方法通常采用二阶段管道,其中第一阶段使用2D人体姿态检测器提取2D关键点,第二阶段将2D坐标升级到3D空间,但是这种方法在处理过程中缺乏深度先验且存在歧义问题。新方法则是利用transformer结构,但是计算当中会存在大小阶次的问题,特别是在视频序列中,需要跨越整个视频环境。新方法提出了一个Spatio-Temporal Criss-cross attention的块,通过对空间和时间分别进行注意力操作并将它们进行连接,以模拟在同一帧中的关节间交互和在同一轨迹中的关节间交互。以此为基础,提出了一个新的Structure-enhanced Positional Embedding方法。两种方法的实验结果显示,在Human3.6M和MPI-INF-3DHP benchmarks中都有优越的表现。

  • (3): 该论文提出的方法是利用transformer结构进行空间和时间拆分,提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法,结合多个Spatio-Temporal Criss-cross attention的块构成了STCFormer。

  • (4): 该方法在3D人体姿态估计的任务上,在Human3.6M数据集上实现了40.5mm P1 error的表现,是迄今为止最好的表现。这个结果可以支持他们的研究目标。

  1. Methods:
  • (1): 该文章提出了一个新的3D人体姿态估计的方法,称为STCFormer。该方法利用transformer结构对空间和时间进行拆分,并提出了一个新的Spatio-Temporal Criss-cross attention的块和一个新的Structure-enhanced Positional Embedding (SPE)方法。在视频序列中,所提出的方法是基于Spatio-Temporal Criss-cross attention,可以模拟同一帧中和同一轨迹中关节之间的交互。SPE则可以将空间和时间信息编码为结构增强的位置嵌入。STCFormer基于多个Spatio-Temporal Criss-cross Attention的块搭建而成,实现了3D人体姿态估计任务的优异性能,表现优于其他已经发表的方法。

  • (2): 本文方法的优点在于能够利用transformer结构对空间和时间进行拆分,并能够模拟帧内和轨迹内之间的关节交互,在处理动态3D人体姿态估计时具有优势。此外,该方法引入了结构增强的位置嵌入,可以更好地建模人体姿态的结构信息。

  • (3): 实验部分使用了Human3.6M和MPI-INF-3DHP两个数据集与其他方法进行比较,证明了该方法的有效性和优越性。在Human3.6M数据集上,STCFormer实现了40.5mm P1 error的表现,是迄今为止最好的表现。

  • (4): 该文章的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义,并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。

  1. Conclusion:
  • (1): 该篇文章提出的方法对于解决计算机视觉领域中3D人体姿态估计的问题具有重要的意义,并且可以为人机交互、虚拟现实和运动预测等领域的应用提供支持。

  • (2): 创新点:文章提出了一种新的Spatio-Temporal Criss-cross Transformer (STCFormer)方法,将transformer结构应用于3D人体姿态估计,并且引入了新的Spatio-Temporal Criss-cross attention块和Structure-enhanced Positional Embedding (SPE)方法。性能方面:在Human3.6M数据集上实现了40.5mm P1 error的表现,是迄今为止最好的表现。工作量方面:文章没有明确说明工作量,但是新提出的STCFormer具有较高的计算复杂度。

你可能感兴趣的:(计算机视觉,深度学习,人工智能,神经网络)