Deep High-Resolution Representation Learning for Human Pose Estimation论文解析

High-Resoultion Net(HRNet)由微软亚洲研究院和中科大提出,发表在CVPR2019

模型的主要特点是在整个过程中特征图(Feature Map)始终保持高分辨率,这与之前主流方法思路上有很大的不同。在HRNet之前,2D人体姿态估计算法是采用(Hourglass/CPN/Simple Baseline/MSPN等)将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率的思路(单次或重复多次),以此过程实现了多尺度特征提取的一个过程。

HRNet在整个过程中保持特征图的高分辨率,但多尺度特征提取是姿态估计模型一定要实现的过程,那么HRNet是如何实现多尺度特征提取的呢?模型是通过在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,不同网络实现多尺度融合与特征提取实现的。

Deep High-Resolution Representation Learning for Human Pose Estimation论文解析_第1张图片

 

上图为模型结构,横向表示模型深度变化,纵向表示特征图尺度变化。第一行为主干网络(特征图为高分辨率),作为第一阶段,并逐渐并行加入分辨率子网络建立更多的阶段(如上图第二行,第三行所示),各并行网络之间相互交换信息,实现多尺度融合与特征提取。最终所估计的关键点是在高分辨率主干网络输出。

特点与优势:

(1)作者提出的方法是并行连接高分辨率与低分辨率网络,而不是像之前方法那样串行连接。因此,其方法能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的heatmap可能在空间上更精确。

(2)本文提出的模型融合相同深度和相似级别的低分辨率特征图来提高高分辨率的特征图的表示效果,并进行重复的多尺度融合。

你可能感兴趣的:(Human,Pose,Estimation)