HRNet(cvpr2019):Deep High-Resolution Representation Learning for Human Pose Estimation (并行高分辨率保持)

Deep High-Resolution Representation Learning for Human Pose Estimation

(CVPR2019)

HRNet由微软亚洲研究院和中科大共同提出。定义了一个通用的计算机视觉网络框架 HRNet,在图像分类,语义分割,目标检测,人脸特征点检测等多个任务上的测试结果全面吊打当前网络框架,不仅精度提升了,网络参数量和计算量也降低了,并且给出了大量实验对比结果(主要在COCO人体姿态估计数据集上实验)。

目前主流的多尺度特征提取提取一般是将高分辨率特征图下采样至低分辨率,再经上采样将低分辨率特征图恢复至高分辨率(单次或者多次)。主流网络结构如下图所示,包括在关键点领域使用较多的沙漏网络、级联金字塔网络、基础baseline和与空洞卷积结合的网络结构。前两者中,在下采样和上采样过程中对应的相同尺度特征图通过虚线进行连接,旨在融合低级和高级的特征。在级联金字塔中,结合了通过卷积处理的低级和高级特征。在特征提取过程中,下采样是为了产生低分辨率特征图,提取高级语义信息;上采样恢复过程是为了得到高分辨的表示。在最终的高分辨率特征图的热图中计算目标的关键点。(人体姿态估计关键点检测可引申为目标关键点检测)

HRNet(cvpr2019):Deep High-Resolution Representation Learning for Human Pose Estimation (并行高分辨率保持)_第1张图片

HRNet不同,在整个特征提取过程中,始终保持特征图的高分辨率,希望在整个过程中都有高分辨率特征图,没有分辨率恢复的过程。在实现多尺度特征提取的过程中,在高分辨率特征图主网络逐渐并行加入低分辨率特征图子网络,不同网络实现多尺度融合与特征提取。示意图如下图所示,

HRNet(cvpr2019):Deep High-Resolution Representation Learning for Human Pose Estimation (并行高分辨率保持)_第2张图片

横向为depth变化,纵向为scale变化。第一行为主干网络,特征图保持高分辨率水平,作为第一阶段。后面逐渐并行加入分辨率子网络建立更多的阶段(不同分辨率子网)。各个并行网络之间相互交换信息,实现多尺度的特征融合和特征提取。最终预测图所估计的关键点是在高分辨率主干网络进行输出。

这种全新的多尺度特征提取方式有两个优势。首先,采用并行的方法连接高分辨特征网络和低分辨特征网络,并不是像之前普遍采用的串行连接。这种方法可以保持高分辨率,而不是从低到高进行上采样恢复分辨率的过程,因此预测的heatmap可能在空间上更精确。其次,HRNet将相同深度和相似级别的低分辨率特征图进行融合,并提高了相应层次高分辨率特征图的表示效果,相当于进行了重复的多尺度融合。总的来说,在这个过程中,高分辨率特征图一直参与训练,多次重复融合特征的多分辨率提高表示效果,最终使得关键点heatmap的预测更加准确,位置更加精确。

最后给出HRNet在COCO人体姿态估计数据集上的实验结果。

HRNet(cvpr2019):Deep High-Resolution Representation Learning for Human Pose Estimation (并行高分辨率保持)_第3张图片

你可能感兴趣的:(目标检测,学习笔记)