【2021-CVPR-3D人体姿态估计】CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild

CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild

题目:《在自然场景下自监督的单目3D姿态估计》

作者

【2021-CVPR-3D人体姿态估计】CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild_第1张图片

来源:CVPR 2021

研究内容:

        单人-单视图-自监督

创新点:

        •提出CanonPose:一种自我监督的方法,通过混合不同视图的姿态,从未标记的多视图图像训练单个图像3D姿态估计器。

        •不需要预先了解场景、3D骨架或摄像机校准。

        •提出直接使用多视角图像,而无需进行任何费力的预处理,如相机校准或多视角几何估计。

        •将来自2D联合估计器的置信度整合到训练管道中。

现有技术

      ①使用带有3D标注的数据集进行处理:利用CNN从图像回归到3D姿态,但会产生问题:对其他场景有限,因此使用交叉数据集和数据增强解决此问题

      ②预训练2D联合检测器(包含2D姿态):直接训练2D检测与3D GT,其产生的问题是不能很好的概括未知pose

        ③弱监督:只需要一个小集合(不需要2D到3D对应关系),现有部分研究包括:

           通过多视角+已知摄像机位置学习到3D POSE;

           使用非成对2D-3D对,学习合理3D POSE分布及属性,并将其推广到不可见的姿态,但其效果一般;

           使用随机将估计的3D姿态投射回2D姿态,由鉴别器根据对抗性训练方法评估

           周期一致性损失:随机投影的2D POSE 提升至3D POSE,与之后定义的相反随机数投影计算(约束随机投影和摄像机旋转轴整合场景知识)

本文框架:

        利用多视图一致性使用一个混合多个权重共享神经网络自监督方式将未标记的2D姿态分解为3D姿态和相机旋转,其中多视图一致:不需要摄像机校准,也适用与未校准相机。

【2021-CVPR-3D人体姿态估计】CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild_第2张图片

        ①2D姿态提升至3D姿态时,以根关节为中心进行归一化,并通过除以它的Frobenius规范进行缩放。这就避免了单眼重建中尺度-深度模糊的问题,预测的3D姿态通过(旋转矩阵R,3D姿态X)旋转到相机坐标系中,旋转矩阵由RRT,旋转角度θ和旋转轴参考矩阵A得到。

        提升网络架构:

【2021-CVPR-3D人体姿态估计】CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the Wild_第3张图片

        ②重投影

           在本文中使用弱透视相机,使用重投影2D姿态 W与输入的2D姿态估计,共同计算重投影损失Lrep

        ③视图一致性

           若直接计算两个3D姿态直接的损失,在输入姿态和3D姿态对应不密切时,无法收敛至可靠值,因此将预测的3D姿态从图像1旋转至图像2

        ④置信度

          不使用2D 热图作为置信度评估方式,本文修改为使用每个关节的热图的最大值(argmax或softamax)作为置信度,同时修改重投影损失函数在原有基础上加上关节热图max作为线性加权,以此可以确保对确定和不确定的数据有着相同的处理方式

        ⑤相机一致性(可选)

        本文不要求摄像机不改变位置和方向,对不同样本的估计混合(将图1相对旋转至图2→R1,2)

数据集:

    (1)具有2DGT和3DGT标注的数据集

             Human 3.6M;MPI-INF-3DHP;

    (2)SkiPose数据集。此数据集表示在捕获标准动作捕捉系统的受限设置中无法执行的活动时出现的所有挑战。它包括在滑雪斜坡上捕捉的户外场景,包括快速运动,一个大的捕获体积和泛倾斜变焦相机,用于测试模型的泛化能力。

     评估方式:

        MPJPE(平均每个关节位置误差)-Protocol Ⅰ和 Protocol Ⅱ;

        PCK(3D正确关键点百分比);

        CPS(正确姿态平分):对所有关节计算平均的欧氏距离,小于阈值Θ,CSP=1;否则为0

你可能感兴趣的:(计算机视觉,人工智能,深度学习)