Learning Pose Specific Representations by Predicting Different Views总结

文章链接

摘要

​ 若已知手部一系列参数(骨骼、尺寸、外形等),那么给定某个手势一个视角的图片,是可以推测该手势另一个视角的图片的。反之,基于两个视角的图片,可以推理出手部的一系列参数。论文基于这一观点,设计网络,使用同手势双视角图片对来训练网络,网络接收一个视角图片为输入,预测一组隐藏参数,再基于这组参数预测输出另一个视角的图片作Loss。这组隐藏参数相当于对手部参数化,并且这组参数是特定于手势的。而全过程无需标注关节点数据。

介绍

  1. 表示某个手势的参数,给定i(j)视角的手势图片()存在一个映射,使得:

    虽然是不同视角的图片,但是同手势,所以手势参数是相同的。

  2. 反之,基于一组手势参数,也应存在逆映射,使得:

  3. 所以基于同手势双视角图片对,有:

    如果i和j相同(即同一图片),那么上述就是一个自编码器,这在当前情况下很难学习手势信息,所以在本文中

关键

  1. 编码-解码结构

    本文仍然使用了基于CNN的编码-解码器结构,为编码器,为解码器。接收为输入,输出隐藏参数。接收为输入,生成另一个视角的图片

  2. 损失函数

其中即距离

  1. 网络结构

需要使用3D关节点标注数据训练,完成手势隐藏参数到3D坐标的映射。

  1. 半监督训练

用有标注和无标注同时训练网路。当使用标注数据时,置为0

其中


你可能感兴趣的:(Learning Pose Specific Representations by Predicting Different Views总结)