【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019

摘要:简单的神经网络只会记忆训练集中2D 与3D 的拟合坐标,而不会考虑其真正的投影关系。因此本文利用GAN学习3D坐标的同时学习相机参数,通过重投影损失,降低直接估计的过拟合问题。该方法能对未知数据具有很好泛化能力。

一、介绍

模型包含三部分,输入到3D pose输出的生成器,判别3D pose是否合理可行的判别器,以及学习相机参数的NN。其中,判别器不仅记忆了来自数据集的3D pose,还能有效学习到判断合理三维姿态的方法,从而判别出训练集以外生成的3D pose的可行性。

贡献点:

  1. 提出基于重投影的对抗训练方法
  2. 能够实现无2D-3D对应关系和未知相机的弱监督
  3. 模拟相机姿态估计
  4. 利用链式结构(骨长、角度)信息
  5. 模型泛化能力强

二、方法

【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019_第1张图片

1.姿态

(1)输入2D pose,经过两个残差模块(估计是martinez的结构)输入3D pose和相机内参矩阵;

(2)由于Hourglass网络估计的2D pose和Human3.6M数据的不对应,因此对未知的spine点直接置0;

2. 判别器

(1)一层将3D 转换为kcs,动力链式空间,即人体骨骼长度+各个相对角度,实现方法蛮有意思:

3*J的pose矩阵乘以元素为1或0或-1的j*b系数矩阵,使得关节点坐标转换为骨骼长度坐标3*b得到矩阵B;

将矩阵B转置自乘,得到对角线为骨骼长度,非对角为骨骼夹角的KCS矩阵;

(2)另一层直接是3D pose的坐标表示。

  (3) 判别式使用的WGAN的损失

3.相机估计/重投影误差

(1)用NN估计相机参数

(2) 弱相机视角下,相机内参矩阵满足

(3)相机参数损失为

(4)通过重投影误差,实现弱监督

三、实验结果

1.Human3.6M  89.9mm 50.0mm

2.MPI-INF-3DPH 82.5

 

个人总结:

1. KCS和重投影的挺有说服力。

2.弱监督是指什么?W loss没用到真实3D 作为输入吗?

-------补充:在判别器中,使用的非成对3D pose数据。

如图:

【论文阅读】RepNet: Weakly Supervised Training of an Adversarial Reprojection Network for 3D-HPE,CVPR2019_第2张图片

noise是输入的2D pose,经生成器获得估计的3D pose; dis是抽样获得的真实3D pose。

 

你可能感兴趣的:(论文阅读笔记)