Stacked Hourglass Networks人体姿势估计-论文笔记

1 简介

本文依据《Stacked Hourglass Networks for Human Pose Estimation》翻译总结。

Stacked Hourglass:
(1) 一个最终姿势的估计是需要理解整个身体的。所以最好是图片不同尺度的识别。Stacked Hourglass对所有尺度下的特征都处理,以便更好的捕获关于身体的各种空间关系。
(2) 仅关注RGB图片的单个人姿势的关键点定位。
(3) 没有使用unpolling和deconv 层,使用的是simple nearest neighbor upsampling 和skip 连接进行top-down处理。
(4) 多个hourglass模块的堆叠。重复bootom-up、top-down推断。

Stacked Hourglass预测案例如下,各个关键点(脖子、肘、手腕、膝盖、脚踝)的热图,然后整合成姿势估计。
Stacked Hourglass Networks人体姿势估计-论文笔记_第1张图片

2 网络结构

2.1 单个Hourglass的设计

单个hourglass结构如下图所示,是对称的。卷积和max 池化层处理特征到非常低的分辨率。在生成最低分辨率后,网络开始上采样和跨尺度特征的结合。
Stacked Hourglass Networks人体姿势估计-论文笔记_第2张图片

2.2 残差模块

在上一节图中的每个立方体是一个残差模块,如下图所示。残差模块输出256特征。
Stacked Hourglass Networks人体姿势估计-论文笔记_第3张图片

2.3 带有中间监督的堆叠hourglass

我们堆叠了很多hourglass,重复bootom-up、top-down推断,容许评估整个图片的初始估计和特征。

这种方法的一个关键是中间热图的预测,在这儿我们引入了一个loss。即中间监督学习。

中间监督的过程详见下面右图,最后的加号处理三部分内容,第一部分是上一个hourglass的输出,第二部分是本hourglass的输出,第三部分是中间热图经过1*1卷积后的输出。这三部分相加后作为单个hourglass的输出。
Stacked Hourglass Networks人体姿势估计-论文笔记_第4张图片

3 实验结果

可以看到我们的模型在FLIC数据肘、手腕上的pck(percentage of correct keypoints)的分数都最高。
Stacked Hourglass Networks人体姿势估计-论文笔记_第5张图片

在MPII数据上分数也很高,如下图:
Stacked Hourglass Networks人体姿势估计-论文笔记_第6张图片

3.1 堆叠效果

如下图,分别是2、4、8的堆叠hourglass的结果,可以看到橙色的堆叠8个的pck结果最好。

Stacked Hourglass Networks人体姿势估计-论文笔记_第7张图片

你可能感兴趣的:(人工智能,图像处理,深度学习)