【论文简介】关于深度学习下的人体姿态三维重建(1)

文献

  • 论文的调研
    • 1.End-to-end Recovery of Human Shape and Pose

论文的调研

去年的半个学期基本是在学习一些传统方法下的点云配准重建kinect深度图等等等,新年伊始,开始新的研究方向,利用深度学习去做人体的三维重建,近来调研~

1.End-to-end Recovery of Human Shape and Pose

这是一篇cvpr2018的文章,下载地址:https://arxiv.org/pdf/1712.06584.pdf

  • HMR(human mesh recovery) ,文章采用了端到端的人体姿态和形态的对抗学习网络;
  • 实现了从single RGB imagefull 3D mesh of human body的学习
  • HMR不需要成对的2D-to-3D监督信息,不需要借助中间的2D keypoint deection,而是直接从pixel到mesh;
  • 给定人的bounding box的情况下,可以做到实时;
  • 整体效果图如下:
    【论文简介】关于深度学习下的人体姿态三维重建(1)_第1张图片
    主要内容

background
现有方法大多数利用joint信息,但joint的位置比较稀疏,不能判断完整状态,本文用了更多的keypoints;现有方法大多数是multi-stage的,从estimate 2D joint locations再到estimate 3D model parameters;
本文是直接从image pixel to 3D model;但是这样会有几个挑战:

  • lack of large-scale ground-truth 3D-annoation for in-the-wild image;(现在有准确3D注释的都是受环境限制的)
  • inherent ambiguities in single-view 2D-to-3D mapping;(从2D重建回3D本身具有模糊性)
  • keypoint(本文需要有以下数据集):
    large-scale 2D keypoint annotations of in-the-wild dataset;
    a separate large-scale dataset of 3D mesh of people with many poses
    (这两个是独立的数据集,unpaired)
    所以本文的key contribution:将两个unpaired的数据集,用对抗学习的方式利用起来;

overview of the proposed network
【论文简介】关于深度学习下的人体姿态三维重建(1)_第2张图片

  • encoder: 用来提取图像特征;
  • regression:可迭代3D回归用来获取3D mesh的参数以及相机参数;
  • 得到3D mesh的pose,shape,camera信息后又分成上下两个部分:
    下面:进入判别器D,与大规模3D human body数据集进行比较,判断生成的human body 是否真实。(弱监督方式,使得跟wild dataset相比更合理)
    上面:将得到的3D mesh映射回2D,得到keypoints, 然后与原来image的ground-truth keypoints进行比较,得到一个loss。(强监督方式,使得跟输入image的manifold更接近)

本文还对只有弱监督方式的情况进行了实验,效果也不错。
最后文章还考虑了文章本身带有ground truth 3D information的情况,最终的整体目标函数:

目标函数

  • λ:超参数
  • reproj:上面那路
  • adv:下面那路
  • 3D:有3D ground-truth的情况

related work

1.two-stage estimation

  1. 首先获取到2D joint locations(直接有标注或者用2D pose detector预测得到)
  2. 然后预测3D joint
    locations(regression或者model fitting),常用的是探索learned dictionary of 3D
    skeletons; 这个过程可能limb length是主导,也可能limb propotion,pose, angle是主导;
    two-stage的方法更加鲁棒,但是太依赖2D joints信息,且可能丢失很多图像信息

2.direct estimation
出现了一些带有3D joint locations的数据集:HumanEva,Human3.6M,使得直接学习有了强监督label;
大多数都是用FCN来做的;
很多都没有解决camera,只是估计深度,用平均长度来定义全局的scale;
这类方法的问题是虽然有准确的3D annotation,但是不能适用于真实世界;

你可能感兴趣的:(论文简介)