1.Deep High-Resolution Representation Learning for Human Pose Estimation(HRNetV1)
2.High-Resolution Representations for Labeling Pixels and Regions(HRNetV2,HRNetV2p)
1.Introduction
人体姿势估计(又称关键点检测)旨在从尺寸为W*H*3的图像I中检测K个关键点或部位(例如,肘部,手腕等)的位置。最先进的方法将此问题转换为估计 K个大小为W*H的热图{H1,H2,…,HK},其中每个热图Hk表示第k个关键点的位置置信度。
典型的姿态估计网络
Hourglass:对称性编码解码网络
Cascaded pyramid networks:refinenet对不同尺度的特征图卷积处理后进行融合
SimpleBaseline:解码器中使用转置卷积恢复分辨率
Combination with dilated convolutions:在编码器中使用空洞卷积增大感受野
这些网络的特点:
两个过程:High-to-Low过程(产生低分辨率高级特征表示)和Low-to-High(恢复高分辨率)过程,并且这两个过程是串行的。
有的网络会将高级特征图和低级特征图做特征融合。
2.network architecture
优势:1.在整个过程中保持高分辨率的特征表示,逐步增加High-to-Low的子网,并将多分辨率的子网并行连接。
2.在并行的多分辨率子网之间反复交换信息,进行多尺度融合,高分辨率特征与低分辨率特征之间相互增强。
网络分为4个stage,每个stage比上一个stage多一条分支,新增分支是对上一个stage所有特征图进行strided convolution融合后的结果,分辨率大小是上一个分支分辨率大小的一半,通道数翻倍,每个stage由mutil-resolution block组成。
每一个mutil-resolution block又分为两部分:
(a) multi-resolution group convolution:若干条并行的分支,每条分支上包含4个残差单元
(b) multi-resolution convolution(exchange unit):进行多尺度特征融合
第3个stage的exchange unit示意图:
高、中、低三个不同分辨率大小的特征图相互融合:对高分辨率图使用strided convolution,对低分辨率图像进行上采样和1*1的卷积,因为融合策略是进行元素加,需要将不同分辨率特征图的通道数调整同一数量。
3.人体姿态检测
HRNetV1:只输出高分辨率特征图
实验结果:
实验:COCO Keypoint Detection
验证集实验结果
和当前表现最好的SimpleBaseline比较,HRNet-W32(通道数:32,64,128,256)和HRNet-W48(通道数:48,96,192,384)使用更少的参数,更小的计算量实现了更高的性能。
4.语义分割,人脸关键点检测
HRNetV2:利用所有分辨率的特征图,对低分辨率特征图上采样后与高分辨率特征图拼接,经过1*1卷积,softmax层生成分割预测图
实验:Cityscapes Segmentation
验证集:
HRNetV2-W40在比UNet++,DeepLabv3参数量更少时,实现更高的mIOU
HRNetV2-W48在和PSPNet参数量相同时,实现更高的mIOU
测试集:
实验:PASCAL context Segmentation
实验结果
在不包含背景标签和包含背景标签评价方法下,HRNetV2-W48都表现出更好的性能。
5.图像分类
HRNet-Wx-C:4张不同分辨率特征图经过bottleneck层,通道数翻倍后,从高分辨率图依次经过strided convolution与低分辨率图进行元素加操作,在经过1*1卷积使通道翻倍(1024->2048),全局平均池化后送入分类器。
实验:ImageNet Classification
与Resnet对比
HRNets在与Resnets参数量计算量相似情况下,结果与ResNets相当,并且略好于ResNets。
6.目标检测
HRNetV2p:将HRNetV2拼接后的特征图经过不同尺度的平均池化操作产生不同级别的特征表示,经过1*1的卷积后形成特征金字塔