End-to-end recovery of human shape and pose阅读笔记

本文讲了如何从单张RGB图片重建人体的mesh,这个方法为Human Mesh Recovery(HMR)。

关于从图片或视频重建人体的meshes可以分为两类方法:两阶段法,直接估计法。
两阶段法:
1)用2Dpose检测,预测2D关节位置
2)通过回归分析和model fitting从2D关节去预测3D关节,其公共方法是利用一个学习的3D骨架库。
这些方法为了约束2D-to-3D的固有歧义,用了不同的先验:
1)假定四肢长度,或比例
2)学习一个姿势先验,获得了与姿势独立的关节角度限制。
特点:对于域的转变更鲁棒,过度依赖2D关节点侦测,丢掉了图片的信息。

本文的网络可以潜在的学习关节角度的限制。
直接估计:
可以捕捉真值动作的视频数据集HumanEva, Huam3.6M,提供训练数据,所以3D关节估计就可以变为一个标准的监督学习问题。
1)直接从图像估计,通过深度学习框架
2)优势的方法,全卷积网络
特点:拥有精确的真值3D标记的图片是在可控的环境下得到的,仅仅这些图片训练出的模型不能再真实世界里生成的很好。

本文是从图像像素去估计人体的meshes,并没有进行2D的关节检测。

这个框架的训练可以用paired 2D-to-3D supervision,也可不用。这样设计是因为:1)in-the-wild images缺少大尺度的真值;2)现存的有3D标记的数据是从受约的环境中获取的,在这些数据集上训练的模型对于丰富的图片来讲形成的模型不好。

文章用的训练数据是:1)2D真值标记的in-the-wild images,LSP, LSP-extended MPII and MS COCO ;2)拥有不同外形和姿势3Dmeshes,Human3.6M  and MPIINF-3DHP 。

End-to-end recovery of human shape and pose阅读笔记_第1张图片

 这是其网络结构图,网络框架的工作流程:
 编码器:获得图片的卷积特征
 迭代的3D回归模型:产生3D人体和相机的3D到2D标记的投射
 对抗生成网络:决策,判别3D参数是否是unpaired数据中真实的meshes,相当于弱监督的过程。
 因为3Dmeshes丰富的representation,数据驱动先验(不清楚是什么)可以获取关节角度限制,拟人的约束(身高,重量,骨骼率),包含了模 型的几何先验。
 当真值的3D信息可得,可用中间级损失。目标函数如下

lambda:一个权,控制一下每个目标函数的重要性。
1l:1表示图片的3D真值可得,0表示不可得。

接着文章开始描述不同的L.

投射损失:

迭代的3D回归:因为3Drepresentation包含了旋转信息,一次性回归很难。

THETA(representation),85维,

THETA的初始为所有的THETA的平均(来自于数据集)。残差有图像特征和得到。

投射损失可以让网络产生3D人体可以解释2D的关节位置,但一些其他情况也能最小化投射损失,如像人的3Dbodys和粗略自相交叉的bodys。所以引入判别网络。

为什么用SMPL类型的3Drepresentation?因为可以很精确的知道其潜在空间的意义。
SMPL:

1)可以利用其映像形式去使对抗数据更有效,且稳定训练。
2)文章镜像了SMPL的shape和pose成分,为shape和pose分别训练了一个判别器。pose基于动态树,分解了pose判别器,为每一个关节旋转训练了一个。为了获得关节在动态树的贡献,为所有的旋转学了一个判别器。
每个判别器都是低维的(文中有具体的参数),每个都是小网络,更稳定的训练。所有姿势判别器共享一个旋转矩阵特征空间,仅仅最后的分类器是分开学习的。

共25个判别器,23个关节判别器9维,1个shape判别器10维,1个所有关节判别器。

网络没有遭遇GANs的公共问题,模式坍塌(猜:对抗产生了畸形),因为网络不仅要通过判别器也要最小化二次投射误差。分解也能避免模式坍塌。

End-to-end recovery of human shape and pose阅读笔记_第2张图片

上图为没有对抗先验时产生的效果。

 关于目标函数的优化,也就是L,在每次迭代求时,都要及时Ladv,当完成计算时,才计算Lreproj。

 

 

你可能感兴趣的:(数字人体)