视频姿态估计:DeciWatch

DeciWatch: A Simple Baseline for 10× Efficient 2D and 3D Pose Estimation解析

  • 摘要
  • 1. 简介
  • 2. Related Work
    • 2.1 高效的人体姿态估计
    • 2.2 Motion Completion(运动补全)
  • 3. Method
    • 3.1 问题定义和概述
    • 3.2 获取采样姿势
    • 3.3 Denoising the Sampled Poses(去噪采样的姿态)
    • 3.4 Recovering the Sampled Poses (恢复采样姿态)
    • 3.5 Loss Function

论文链接:https://arxiv.org/pdf/2203.08713.pdf
论文代码: https://github.com/cure-lab/DeciWatch
项目链接:https://ailingzeng.site/deciwatch
论文出处:2022 ECCV
论文单位:港中文

摘要

  • 本文提出了一个简单的基线框架,用于基于视频的2D/3D人体姿态估计,可以在不降低任何性能的情况下实现10倍的效率提高,称为DeciWatch
  • 与目前估计视频中每帧的解决方案不同,DeciWatch引入了一个简单而有效的采样-降噪恢复框架,该框架仅观察稀疏采样帧,利用人体运动的连续性和轻量级姿态表示。
  • 具体来说,DeciWatch均匀采样少于10%的视频帧进行详细估计,使用高效的Transformer架构对估计的2D/3D姿势进行降噪,然后使用另一个基于Transformer的网络准确恢复其余帧
  • 基于四种数据集的视频人体姿态估计、身体网格恢复任务和高效标记的综合实验结果验证了DeciWatch的效率和有效性。

1. 简介

  • 2D/3D人体姿态估计有许多应用,如监视、虚拟现实和自动驾驶。

  • 文献中提出了各种高性能的基于图像的姿态估计器,但它们都伴随着大量的计算成本。

  • 有两种主要方法可以提高人体姿态估计器的效率,以便它们可以部署在资源稀缺的边缘设备上(例如,智能相机)。

  • (1)提高效率的一种直接方法是设计更紧凑的模型,例如许多轻量级图像级姿态估计器(见图1

你可能感兴趣的:(论文笔记,姿态估计,transformer)