论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation

这篇论文来自与微软和中国科技大学研究学者,已经被CVPR2019接收,并且已经开源。

论文地址:
http://cn.arxiv.org/pdf/1902.09212.pdf
项目主页:
https://jingdongwang2017.github.io/Projects/HRNet/PoseEstimation.html
代码地址:
https://github.com/leoxiaobin/deep-high-resolution-net.pytorch

简介

目前大多数方法都是采用将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复值高分辨率的思路。该文提出了一种新的模型(HRNet),该模型的主要特点是在整个过程中特征图始终保持高分辨率。

网络模型

目前主流的网络结构:
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第1张图片
(a)沙漏,(b)级联金字塔网络,(c)SimpleBaseline,(d)与扩张卷积相结合。(a)和(b)中,从高到低和从低到高的过程的相同分辨率层之间的跳过连接(虚线)主要旨在融合低级和高级特征。 在(b)中,右侧部分refinenet结合了通过卷积处理的低级和高级特征。

高到低是为了产生低分辨率和高级别的表示,低到高是为了产生高分辨率的表示。上图中,同一水平线为同一分辨率,越向下分辨率越小,在最终的高分辨率特征图的热图中计算姿态估计的关键点。

该文中,作者希望在整个过程中都有高分辨率特征图,没有分辨率恢复的过程,从而提出了HRNet,结构如下:论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第2张图片
该网络在深度不断加深的同时,通过下采样使得特征图分辨率变小,相同深度的高分辨率和低分辨率特征图有一个融合的步骤,该文称之为并行网络(不同分辨率子网)。
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第3张图片
不同分辨率子网络特征图融合过程如下:
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第4张图片
反复的多尺度融合:
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第5张图片
作用:
1)使高分辨率特征图一直参与训练;
2)多次重复融合特征的多分辨率表示;
3)使得关键点heatmap的预测更加准确,位置更加精确。

实验

该文提出的HRNet在COCO取得了各个指标的最高值,在MPII test数据集上同样取得了最好的结果。论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第6张图片
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第7张图片论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第8张图片
姿态估计结果示例:
论文阅读:Deep High-Resolution Representation Learning for Human Pose Estimation_第9张图片
该文还指出,深度高分辨率网络不仅对姿态估计有效也可以应用到计算机视觉的其他任务,例如语义分割、目标检测、图像分类以及以较轻的方式聚合多分辨率表示的研究。可以在该项目的主页找到相关研究。

你可能感兴趣的:(人体姿态估计)