Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】

这是一篇14年的关于使用卷积神经网络框架做关节点热力图的一篇文章。该篇文章在以下方面进行了改进。
【相较于改进,我们先要叙述一下不足的地方】

Multi-Resolution Sliding-Window With Overlapping Receptive Fields

Multi-Resolution Sliding-Window With Overlapping Receptive Fields 这种做法,其实相当于是一个窗口在原始图上进行滑动,之后将截取出来的一个个小的区域图片传入到卷积网络中操作。(这里还有一个金子塔的操作,来扩大感受野)如下图所示:

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第1张图片

这种方式,可以较好的定位到关节点热力图的信息,但是对于原始图片会产生重复的卷积操作。(就是因为在窗口滑动的时候,会有重叠信息被划入到下一个区域块中)导致计算量大增。

Efficient Sliding Window Model with Single Receptive Field

(这一段操作根据作者原论文的说法,觉得跟名字有点区别,稍稍提一下,没去看该篇论文)这里的操作,其实非常的简单,他直接将原始图片传进了卷积神经网络,之后进行卷积核的滑窗,来产生 feature map,如下图所示:

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第2张图片

这样做的好处在于减少了计算量,但是也有坏处,因为是在全图上做一个感受野的缩放。那么对于我最后得到的 feature map而言,我关节点热度图的信息(分辨率)会过于的小,以至于会造成定位的偏差。

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation

所以原论文,相当于是在以上的基础上进行了结合改进。作者先提出了一个框架方式:(为了解决在低分辨率卷积是对信息的损失)

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第3张图片

为了使得信息在低分辨率是卷积时候的内容信息缺少,这里的方式是将一张图切分4等分大小,每一份里面的图片区域内容为原始图的缩小。以这种方式来抵消,图片在卷积过程中对信息的缺失。之后再通过,stride等于2的在原始图卷积后feature map中移动,以(1,1),(1,2),(2,1),(2,2)进行相加来进行弥补。(这里卷积出来的 feature map 通过 99512 的卷积后 再进行叠加)【这里对于卷积核的参数,在 3 stages 都是共享的】

P.S: 鄙人水平比较菜,实在算不出究竟如何是的 320 * 240 到 98 * 68

为了加快训练的时间,作者将上述的建构进行了简化:

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第4张图片
Higher-LevelSpatial-Mode

作者在设计完网络之后,对网络之后输出的关节点进行了一个精细处理。因为存在在原始图关节点的热点图输出的时候,存在非正确的关节点热点图信息。之后作者提出了使用MRF(马尔科夫随机场)的操作将那些非正常预测点进行过滤。

本文的另一个贡献在于MRF的构建,对于false positive的一些预测要用MRF来将其去掉,本篇论文能够学习先验模型和整个图结构

1、将每个身体part和自己,周围的部位相连接,构建全连接图
2、heatmap提供每个部位的unary potential,pair-wise potential通过卷积算出来
3、部位A的条件概率是

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第5张图片

在实际实施过程中,作者将分布变成能量函数来处理,避免配分函数Z的估计,最终使用的函数形式是:

Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】_第6张图片

在上面的图中,W11经过softplus变成W,b11经过Softplus变成b,然后在方框内计算和积,参考公式即可。映射到log空间,使整个数值更加稳定,具体的网络实现如下,为了能够覆盖最大的部位偏移,例如肩膀和轴的距离,作者采用大的卷积核,卷积核大小是128x128,作者采用ffT加速

在训练上作者先训练前面特征图的提取,再训练MRF的部分,最后合起来训练.

【参考资料】

  1. https://blog.csdn.net/u013548568/article/details/79004996

你可能感兴趣的:(Joint Training of a Convolutional Network and aGraphical Model for Human Pose Estimation【解读】)