《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记

参考代码:HRNet

1. 概述

导读:这篇文章聚焦人体关键点检测任务中高分辨率特征的学习表达,现有的特征表达方式一般采取分辨率从高到低的演化路径,这篇文章中为了保持高分辨率特征的作用(分辨率越高关键点定位自然越准确),在网络的pipeline中保持与原始输入尺寸一致的特征图,通过逐步添加低分辨率平行分支并与其它分辨率互连的形式构造一种新的特征提取方式。这样的方式带来的好处也是显而易见的,极大提升了文章在COCO与MPII人体关键点检测任务检测精度(直观感觉相应的内存/FLOPS会增加很多,实际上比较之后其实并不是)。

对于人体关键点检测的backbone部分之前也有对应的改进工作,比如对称出现的low-to-high,VGG/ResNet网络后面几层使用膨胀卷积等,下面是集中特征提取的backbone网络:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第1张图片

  • 1)a图:是对称结构的Hourglass网络;
  • 2)b图:级连的FPN网络;
  • 3)c图:U型结构的特征提取网络;
  • 4)d图:分类网络基础上使用膨胀卷积保持分辨率增大感受野;

这篇文章从不同分辨率图像并行的角度提出了High Resolution Net(HRNet)很好保留了各个分辨率下的特征,其网络结构见下图所示:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第2张图片
文章的方法相比现有的特征提取网络具有如下的优势:

  • 1)从并行的网络结构中获取高低分辨率的特征,而不是串行的方式,这就使得在平行的分支里面保留高分辨率的特征,从而产生更加精准的关键点空间位置定位;
  • 2)从更多的分辨率尺度上进行特征融合,而不是单独的高低分辨率特征融合;

2. 方法设计

2.1 平行的多分辨率结构

文章提出的网络结构与传统的high-to-low网络不同的是采用了不同分辨率网络平行的策略,从而很好保留了各个尺寸上的信息特征(对一些对尺度比较敏感的网络友好),其结构见下图所示:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第3张图片

其中, N s r N_{sr} Nsr代表stage为 r r r且当前特征图的分辨率为 r r r

2.2 特征图混合机制

为了有效利用不同分辨率特征图之间的信息,文章提出了一种信息流策略,充分使用了各个分辨率的信息,其信息流向见下图所示:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第4张图片
其中, C s , r b C_{s,r}^b Cs,rb代表stage为 s s s,所在分辨率为 r r r,当前特征图所在的block为 b b b。那么从上图中可以看到信息在流动的过程中是会存在上下采样的,对此文章对于三种这样的情况具体的操作见下图所示:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第5张图片
文章的信息融合策略对于网络性能的影响:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第6张图片

3. 实验结果

性能比较:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第7张图片
计算复杂度与性能比较:
《HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation》论文笔记_第8张图片

你可能感兴趣的:(Human,Pose,Estimation,HRNet)