RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation

单人pose模型文章,提出了一种基于kinematic structure来辅助模型对关键点进行定位,整体结构如下:RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation_第1张图片
模型是一个仿U-Net结构的网络结构,忽略U-Net的底部,先看下输出,模型会在不同的scale下进行upsample到原图分辨率大小进行heatmap输出,所以是个包含有多个loss的网络结构,重点看下上图中的绿色部分,也即是文章提出的Kinematic Features Updates结构。

Kinematic Features Updates

这个结构相当于是根据先验知识对人体姿态进行建模,然后进行refine的一个过程。文章对关节点连接做了一个定义,如下图所示:RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation_第2张图片
其中每两个连通点之间的线段称之为边,关节点为node,然后对于关节点k来说,它的周围连通点组成的集合为 N ( k ) {N(k)} N(k):在这里插入图片描述
然后对关节点进行更新,根据前面定义好的顺序,关节点k对应的features f k {f_{k}} fk更新方式为:在这里插入图片描述
c k {c_{k}} ck是将features concate起来, h k {h_{k}} hk是kernel size 为1, stride为1,output channels为32的卷积, g k {g_{k}} gk连续四个kernel size为3,stride为1,output channel为32的卷积操作。 λ k {\lambda_{k}} λk是类似resnet shortcut连接的一个可学习权重参数。

kinematic features update相当于根据先验知识,将关键点之间的联系考虑进来,从而能够帮助网络学习到准确的关键点位置信息。

你可能感兴趣的:(RePose: Learning Deep Kinematic Priors for Fast Human Pose Estimation)