CrossInfoNet: Multi-Task Information Sharing Based Hand Pose Estimation总结

文章链接

单深度图2D卷积预测手势
1. 将手势估计任务拆分为手掌关节点预测子任务和手指关节点预测子任务，两个子任务之间共享互补有益信息
2. 提出基于2D热图监督训练手部特征提取网络

当前主流方法
1. 直接把深度图当作2D图片使用2D卷积提取特征
2. 将深度图(2.5D)转化为3D体素模型，能大幅度复原3D空间信息，但计算量巨大
多任务共享信息的方式相较于单任务能保留更多固有信息，具有更好的泛化能力
本文基于上述思想，考虑到手掌关节点更为紧凑，决定手部的全局姿态，而手指关节点更为灵活多变，决定手部的局部细节，所以把手掌关节点估计和手指关节点估计分为两个独立的子任务，将两个分支交叉连接，一个分支的噪声对另一个分支来说可能是补充信息，通过交叉连接互换信息，可以改善预测。
2D深度图到3D关节点坐标对应的是一个高度非线性映射，而网络不容易学习这种映射。而且使用热图输出相对于只有一个3D坐标能表明更多关节相关信息。研究表明，输出热图效果比直接回归关节点坐标的效果更好，但是输出热图最终通过取的关节点坐标，不可微分，所以将其作为后处理操作，训练时将真值坐标转化为相应热图作Loss
本文用热图监督训练特征提取网络，并为了保证信息不丢失，将特征图传入下级网络预测3D坐标而不是热图。整个过程是端到端的

为了提取信息，采用了类似Hourglass的结构。
在此模块，热图只用于监督训练，只将特征图T传入下级网络

特征修正模块
1. baseline
  
  分别完善手掌和手指关节点特征信息，再将二者输出concate用于最后3D坐标回归
  
  因为手掌关节点和手指关节点特性、活动空间、范围有较大差异，使用两组参数分别提取它们的特征可能更为有效。
2. New Feature Refinement Architecture
  
  在手掌分支中，输入的初始特征图T也包括了手指的信息，这对于手掌特征提取来说是"噪声"，但对于手指预测分支来说，这些信息是有用的
  1. 惰连接(lazy fusion)
    
    通过某个中间单元汇合再分流的方式(类似HRNet中的Exchange Unit)，没有明确指明子任务之间的关系(互斥 or 互补?)可能会使子任务之间互相干扰
  2. 十字交叉连接
    本文人为的指定了子任务之间的交流方式
    
    注人为指定的关系不一定准确，若数据量足够大，让模型自己学习子任务之间的关系也未尝不可
损失函数

外接几个全连接层得到热图，用于监督训练，但不输入到下级网络
1. 特征提取模块
2. 特征修正模块
1. 回归模块
  
  得到修正手掌、手指特征后，各自连接回归网络分别得到各自的关节点预测值
  
  将手掌、手指特征concate输入到回归网络得到所有的关节点预测值。
  
  分别作三个Loss
2. 总损失

单RTX2080TI 124fps