论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)

索引

  因为大多数现有的姿势估计学习常用的方法是提取图象的低分辨率特征,然后从低分辨率恢复高分辨率进行预测。但是在恢复高分辨率表征时,会丢失信息。HRNet提出一种网络使其在整个过程中保持高分辨率的表征。

介绍

  HRNet网络从一个高分辨率子网络开始,逐渐增加高到低的子网络以形成更多的阶段,并平行连接多分辨率的子网络。每个高-低分辨率的表征都能反复接收其他平行表征的信息,从而形成丰富的高分辨率表征()通过反复融合由高到低的子网络产生的表征,产生可靠的高分辨率表征)。网络图如图一所示。
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第1张图片
图1. 说明了拟议的HRNet的结构。它由平行的高-低分辨率子网络组成,在多分辨率子网络之间重复交换信息(多尺度融合)。水平和垂直方向分别对应于网络的深度和特征图的尺度。

  该网络有两大好处,(i) 我们的方法是平行连接高分辨率到低分辨率的子网络,而不是像大多数现有解决方案那样串联。因此,我们的方法能够保持高分辨率,而不是通过从低到高的过程恢复分辨率,相应地,预测的热图在空间上可能更精确。(ii) 大多数现有的融合方案聚集了低层次和高层次的表示。相反,我们进行重复的多尺度融合,在相同深度和相似水平的低分辨率表征的帮助下提高高分辨率表征,反之亦然,从而使高分辨率表征在姿态估计中也很丰富,因此,我们预测的热图可能更准确。

  常用的用于关键点热图估计的卷积神经网络大多采用一种从高到低和由低到高的网络框架,如下图2是最有代表性的4种姿势估计网络。
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第2张图片
图2. 依靠高到低和低到高框架的代表性姿势估计网络的说明。(a) 沙漏[40]。(b) 级联的金字塔网络[11]。© SimpleBaseline[72]:用于低到高处理的转置卷积。(d) 与扩张卷积的结合[27]。右下角图例:reg.=常规卷积,dilated=扩张卷积,trans.=转置卷积,strided=转置卷积,concat.=串联。在(a)中,高到低和低到高的过程是对称的。在(b)、(c)和(d)中,作为分类网络(ResNet或VGGNet)的一部分,高到低的过程是重的,而低到高的过程是轻的。在(a)和(b)中,高到低和低到高过程的同分辨率层之间的跳过连接(虚线)主要是为了融合低级和高级特征。在(b)中,右边的部分,refinenet,结合了通过卷积处理的低级和高级特征

我们的办法

  我们的目标是从大小为W X H X 3的图像中找到K个关键点的位置热图{H1,H2,…,HK},其中每个热图Hk表示第k个关键点的位置置信度。我们遵循广泛采用的管道[40, 72, 11],使用卷积网络来预测人类的关键点,该网络由一个由两个降低分辨率的分叉卷积组成的茎,一个输出与输入特征图相同分辨率的特征图的主体,以及一个估计热图的回归器,其中关键点位置被选择并转换为全分辨率。我们将重点放在主体的设计上,并介绍我们的高分辨率网(HRNet),如图1所示。

顺序的多分辨率子网络
  HRNet与主流网络一样都有一个由高到低分辨率的网络,称为连续多分辨率子网。每个子网形成一个stage,由一系列卷积组成,并且在相邻的子网之间有一个下采样层来将分辨率减半。
在这里插入图片描述
其中Nsr为第s阶段的子网络,r为分辨率指数(其分辨率为第一个子网络分辨率的在这里插入图片描述

平行的多分辨率子网络
  上面说到,HRNet从一个高分辨率的子网作为第一阶段,随后逐层添加高到低的子网组成新的stage,并将多分辨率的子网络并行连接起来。因此,后一阶段的平行子网络的分辨率由前一阶段的分辨率和一个额外的低分辨率组成。
4个平行子网络的网络结构例子如下
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第3张图片

重复的多尺度融合
  HRNet引入了跨平行子网络的交换单元,使得每个子网都重复的接收来自其他平行网络的信息。
  下面是一个显示信息交换方案的例子。我们把第三阶段分成几个(如3个)交换块,每个交换块由3个平行卷积单元和一个跨平行单元的交换单元组成,如下图所示。
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第4张图片
Csr^b代表第s阶段中第b块的第r个分辨率的卷积单元,εs ^ b表示相应的交换单元。不同单元之间交换信息的方式如下图
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第5张图片
图3. 上图从左到右依次展示了交换单元如何聚合高、中、低分辨率的信息,最右边的图示 strided 3×3 表示使用 3x3 的跨步卷积,up samp. 1×1表示使用1x1的卷积进行上采样。

热图估计
  我们简单地从最后一个交换单元输出的高分辨率表征中回归热图,根据经验,这样做效果不错。损失函数,定义为平均平方误差,用于比较预测热图和地面实况热图。地面实况热图是通过应用标准偏差为1像素的二维高斯,以每个关键点的群体实况位置为中心生成的。
网络实例化。
网络实例化
  我们通过遵循ResNet的设计规则来实例化用于关键点热图估计的网络,将深度分配给每个阶段,将通道数分配给每个分辨率。
  主体,即我们的HRNet,包含四个阶段,有四个平行的子网络,其分辨率逐渐降低到一半,相应地,宽度(通道数)增加到两倍。第一阶段包含4个剩余单元,每个单元与ResNet-50相同,由一个宽度为64的瓶颈组成,然后是一个3×3的卷积,将特征图的宽度减少到C。一个交换块包含4个剩余单元,每个单元包含每个分辨率的两个3×3卷积和一个跨分辨率的交换单元。总之,总共有8个交换单元,即进行了8次多尺度融合。

具体网络的详细格式
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第6张图片
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第7张图片
论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第8张图片

论文笔记--(HRNet)用于人类姿势估计的深度高分辨率表征学习(Deep High-Resolution Representation Learning for Human Pose Estima)_第9张图片

你可能感兴趣的:(论文笔记,计算机视觉,深度学习,机器学习)