高分辨率特征网络HRNet

HRNet:Deep High-Resolution Representation Learning for Human Pose Estimation[github]

一、综述

      视觉识别主要包括三大类问题:图像层次(image classification)、区域层次(object detection)和像素层次(semantic segment、pose estimation & face ladmark align)。经过分类网络不断的strided convlution或者pooling得到的低分辨率,对空间精度敏感的任务上很难取得准确的预测结果。为了弥补空间精度的损失,研究者们在分类卷积神经网络结构的基础上,通过引入上采样操作和/或组合空洞卷积减少降采样次数来提升feature map的分辨率。

      典型的从低分辨率特征恢复高分辨率特征的结构:

高分辨率特征网络HRNet_第1张图片

       在这类网络结构中,最终的高分辨表征主要来源于两个部分:第一是原本的高分辨率表征,但是由于只经过了少量的卷积操作,其本身只能提供低层次的语义表达;第二是低分辨率表征通过上采样得到的高分辨率表征,其本身虽然拥有很好的语义表达能力,但是上采样本身并不能完整地弥补空间分辨率的损失。所以,最终输出的高分辨率表征所具有的空间敏感度并不高,很大程度上受限于语义表达力强的表征所对应的分辨率。

二、 HRNet

在整个网络中始终保持高分辨率feature map,逐步引入低分辨率卷积,并且将不同分辨率的卷积并行连接。同时,我们通过不断在多分辨率表征之间进行信息交换,来提升高分辨率和低分辨率表征的表达能力,让多分辨率表征之间更好地相互促进。HRNet与先前的分类卷积神经网络有着基础性的区别:先前的分类将分辨率从高到低的卷积串行连接,HRNet则是并行连接。

        高分辨率特征网络HRNet_第2张图片

 

三、多分辨率feature map间特征融合

       关于多分辨率表征信息交换,这里以三个分辨率输入和三个分辨率输出为例,如图4所示。每一个分辨率的输出表征都会融合三个分辨率输入的表征,以保证信息的充分利用和交互。将高分辨率特征降到低分辨率特征时,我们采用stride为2的3x3卷积;低分辨率特征到高分辨率特征时,先利用1x1卷积进行通道数的匹配,再利用最近邻插值的方式来提高分辨率。相同分辨率的表征则采用恒等映射的形式。

高分辨率特征网络HRNet_第3张图片       

 

四、网络具体结构

高分辨率特征网络HRNet_第4张图片

高分辨率特征网络HRNet_第5张图片

 

五、实验

5.1  输出feature map分辨率大小对性能影响

HRNet可输出4种分辨率的表征(1x、2x、4x、以及8x),我们针对不同的网络输出分辨率在两组模型上做了对比。

高分辨率特征网络HRNet_第6张图片

 

5.2  不同大小特征融合次数对性能影响

高分辨率特征网络HRNet_第7张图片

高分辨率特征网络HRNet_第8张图片

你可能感兴趣的:(语义分割)