Hands Deep in Deep Learning for Hand Pose Estimation(DeepPrior)总结

文章链接

摘要

  1. 实验展示使用3D姿势先验能很提高预测精度和可靠性
  2. 提出使用上下文信息解决手指模糊问题
  3. 输入单深度图,将其看作2D图片使用2D卷积网络提取特征预测手势

介绍

  1. 使用瓶颈层方式添加约束(先验)
  2. 不同于之前的许多修正网络,本文取以初始预测点为中心的多个周边区域用于修正,并考虑了区域的大小使用不同的尺度提取特征

关键

  1. 问题描述

    输入单深度图,假设手部是距离摄像机最近的物体裁剪手部区域,归一化, 输入网络,预测3D关节点坐标

  2. 网络结构

    1. 两个简单网络


    2. 多尺度网络结构

      类似Hourglass采用多个下采样生层多尺度图片改善预测准确率

  3. 3D姿势先验

    ​ 不同关节点之间具有强相关性,若有k个关节点,每个关节点共3k个自变量。但由于关节点之间的相关性,可能用更小的维度便可以表示这些关节点。所以本文通过插入瓶颈层,低维表示这些关节点相当于作为先验变相引入约束,而这些约束关系交由网络训练得到。最终在从这些低维表示回归重建3D坐标。

    ​ 其中该瓶颈层参数使用PCA初始化。

  1. 修正网络

    ​ 上下文信息对于修正预测来说至关重要。本文使用以初始预测点为中心的多个尺度区域输入修正网络,其中修正网络结构与上述多尺度结构(c)大致相同。

​ 其中根据区域大小选择合适的卷积/池化核尺寸

​ 最终的网络如下所示,


​ 基于上一次的预测不断修正,迭代数次后输出最终的结果。

你可能感兴趣的:(Hands Deep in Deep Learning for Hand Pose Estimation(DeepPrior)总结)