论文阅读练习(12)

《3D human pose estimation in video with temporal convolutions and semi-supervised training》(2018)

摘要

此工作中构建了视频 的3Dpose,可以有效的用一个基于带洞时序卷积的全卷积模型在2D关键点上有效估计3Dpose。同时引进back-projection,一个简单有效的半监督训练方法,不用标签视频数据。首先对无标签数据预测2Dkeypoints,然后估计3Dpose,最后back-project到输入的2Dkeypoints上。在监督数据集上,全卷积模型表现出最好结果,在Human3.6M上平均joint位置误差6mm,降低误差11%。code:https://github.com/facebookresearch/VideoPose3D

问题:从2Dkeypoints估计视频的3Dpose

方法:基于带洞时序全卷集模型和back-projection。

论文阅读练习(12)_第1张图片

论文阅读练习(12)_第2张图片

 

效果:在监督数据集上,全卷积模型表现出最好结果,在Human3.6M上平均joint位置误差6mm,降低误差11%

论文阅读练习(12)_第3张图片

 

《Learning Character-Agnostic Motion for Motion Retargeting in 2D》(2019ACM)

摘要:

分析人体运动是一个计算机视觉和图形学中一个很广的挑战的任务。动画中的应用,从一个performer到另一个的运动重定向。当人在三维空间中移动时,绝大多数人体动作都是使用视频拍摄的,需要2D倒3D的pose和camera重构,之前存在的重定向方法也许已经应用。这篇文章中,提出了一种重新定位视频捕获的方法,用于不同human performers间的运动,而不需要明确地重建3D姿势和/或相机参数。为了实现这个目的,学习直接从一个视频中提取high-level的隐藏动作表示,这个对skeleton几何和相机视角是不变的。核心思想:学习一个网络分解2Dpose的时序序列为三个部分:动作、skeleton、相机视角角度。提取到这些表示后,可以重新组合动作和新的skeleton和相机视角,并解码一个重定向时序序列,与合成数据的GT比较。这个框架已经证明可以稳定捕捉视频中的动作,通过传递3D重构,应用于自然视频中优于现存重定向方法。

问题:从2Dpose学习实现动作重定向。

方法:学习分解2Dpose模型,然后重新组合。

论文阅读练习(12)_第4张图片

论文阅读练习(12)_第5张图片

论文阅读练习(12)_第6张图片

效果:可以稳定捕捉视频中的动作,通过传递3D重构,应用于自然视频中优于现存重定向方法

论文阅读练习(12)_第7张图片

你可能感兴趣的:(论文翻译)