(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019

用于人体姿态估计的深度高分辨率表示学习

摘要
在这篇论文中,作者着力于解决人类的姿态估计问题,此问题的重点是学习可靠的高分辨率表示。现有的大多数方法从“高分辨率到低分辨率网络”生成的低分辨率表示中恢复出高分辨率表示。相反,作者提出的网络在整个过程中均保持高分辨率表示。
作者首先使用一个高分辨率的子网作为第一级,逐步增加高分辨率到低分辨率的子网,形成多个级,多分辨率子网并行连接。作者进行重复的多尺度融合,使得每一个高分辨率到低分辨率的表示都接收来自其他并行表示的信息,从而得到丰富的高分辨率表示。因此,预测的关键点热图可能更准确,在空间上也更精确。通过对两个基准数据集(COCO关键点检测数据集和MPII人体姿态数据集)的姿势估计结果,作者证明了该网络的有效性。此外,作者还展示了此网络在PoseTrack数据集上进行姿态跟踪的优越性。
一. 引言
二维人体姿态估计一直是计算机视觉领域的一个基本而富有挑战性的问题。其目标是定位人体解剖关键点(如肘部、手腕等)或部位。它有许多应用,包括人体动作识别、人机交互、动画等。本文研究的是单人姿态估计,它是多人姿态估计、视频姿态估计与跟踪等其他相关应用的基础。
最近的研究工作表明,深度卷积神经网络已经取得了最先进的性能。大多数现有的方法通过一个通常由串联连接的高分辨率到低分辨率子网组成的网络传递输入,然后提高分辨率。例如,沙漏(Hourglass)通过对称的从低分辨率到高分辨率的过程恢复高分辨率。SimpleBaseline采用了一些转置卷积层来生成高分辨率表示。此外,扩张卷积(dilated convolutions)也被用来增强高分辨率到低分辨率网络(例如VGGNet或ResNet)的最后几层。
作者提出了一种新的体系结构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率的表示。作者从一个高分辨率的子网作为第一级开始,逐步向模型中增加高分辨率到低分辨率的子网,一个接一个地形成多个级,并且有多个不同分辨率的子网并行连接。在整个过程中,作者通过在并行的多分辨率子网之间交换信息来进行重复的多尺度融合。作者通过网络来估计输出的高分辨率表示的关键点。作为最后的结果,此网络如图1所示。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第1张图片

图1 高分辨率网络(HRNet)的结构示意图。它由高分辨率到低分辨率的并行子网组成,在多分辨率子网之间进行重复的信息交换(多尺度融合)。水平方向和垂直方向的指示(箭头)分别对应于网络的深度和特征图的比例。
与现有的广泛使用的姿态估计网络相比,作者提出的网络有两个优点。(1) 作者的方法是并行连接高分辨率到低分辨率的子网络,而不是像大多数现有解决方案中那样串联。因此,作者的方法能够保持高分辨率,而不是通过上采样的过程恢复分辨率,因此预测的热图在空间上可能更精确。(2)大多数现有的融合方案综合了低维和高维表示。而与此相反,作者利用相同深度和相似水平的低分辨率表示,进行重复的多尺度融合来增强高分辨率表示,反之亦然,从而使得高分辨率表示也使得姿态估计更加丰满。因此,作者的模型预测的热图可能更准确。
作者在经验上证明了优于两个基准数据集的关键点检测性能:COCO关键点检测数据集和MPII人体姿势数据集。此外,作者还在PoseTrack数据集上展示了作者提出的网络在视频姿态追踪方面的优势。
二. 相关工作
作者在这一章中主要介绍了与他们的模型相关的几种模型的特点和不足之处。作者通过把这几种方法的特色进行融合,将这几种方案的特点充分利用起来,避免的单一方法的局限性,以达到作者需要的性能。
这篇文章介绍了从前的大多数传统的单人姿势预测解决方案采用概率图形模型或图形结构模型,最近通过利用深度学习来更好地建模孤立的和成对的能量或模仿迭代推理过程,对其进行了改进。而现在,深度卷积神经网络提供了主要的解决方案。目前有两种主流方法:对关键点的位置回归,预测并构造关键点的热图,然后选择热值最高的位置作为关键点。
大多数用于关键点热图估计的卷积神经网络由一个“会降低分辨率的类似于分类网络”的主干子网络与“一个生成与输入具有相同分辨率的表示作为主体部分、后接产生回归估计热图”的构件组成,其中热图生成关键点的位置估计,以全分辨率转换。此网络的主体主要采用分辨率从高到低、从低到高的框架,可能会增加多尺度融合和中(深)级监督作用。
下采样与上采样 分辨率从高到低的过程旨在生成低分辨率和高层级的表示,分辨率从低到高的过程旨在生成高分辨率的表示。为了提高性能,这两个过程都可能重复多次。
典型的网络设计模式包括:(1)对称的下采样与上采样的过程 沙漏(Hourglass)及其后续研究将上采样的过程设计为下采样过程的镜像。(2)大型下采样与小型上采样 下采样的过程基于ImageNet分类网络,例如Chen等人采用的ResNet,上采样的过程只是几个双线性上采样或转置卷积层。(3)合并扩张卷积 在Insafutdinov等人的工作中,ResNet或VGGNet的最后两个阶段采用了扩张卷积来消除空间分辨率的损失,然后通过一个上采样的过程进一步提高分辨率,避免了仅使用扩张卷积而造成的昂贵的计算成本。图2描述了四个具有代表性的姿态估计网络。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第2张图片

图2 基于下采样与上采样框架的典型姿态估计网络的说明。(a) 沙漏(Hourglass)(b) 级联金字塔网络(c) SimpleBaseline:用于上采样处理的转置卷积 (d) 联合扩张性卷积网络 右下图例:reg.=规则卷积,dilated=扩张卷积,trans.=转置卷积,strided=跨步卷积,concat.=串联。在(a)中,下采样和上采样的过程是对称的。在(b)、(c)和(d)中,作为分类网络(ResNet或VGGNet)的一部分,下采样的过程是大型的,从上采样的过程是轻型的。在(a)和(b)中,下采样和上采样处理的同一分辨率层之间的跳跃连接(虚线)主要是为了融合低层次和高层次的特征。在(b)中,右边的部分“改良网络”结合了通过卷积处理的低级和高级特征。
多尺度融合 简单的方法是将多分辨率图像分别输入多个网络,并聚合输出响应图。沙漏及其扩展通过跳跃连接,将下采样过程中的低级特征逐步组合成相同分辨率的上采样过程中的高级特征。在级联金字塔网络中,globalnet将从下采样的过程中的低级到高级特征逐步组合到上采样的过程中,然后再由一个细化网络将通过卷积处理的低级到高级特征组合起来。作者的方法重复多尺度融合,这部分灵感来自深度融合及其扩展。
中间监督 早期发展用于图像分类的中间监督或深度监督,也用于帮助深层网络训练和提高热图估计质量。沙漏方法和卷积姿态机方法将中间热图处理为剩余子网络的输入或部分输入。
作者提出的方法 作者的网络并行地连接下采样的子网。它在空间精确热图估计的整个过程中保持高分辨率表示。它通过反复融合由下采样子网产生的表示,生成可靠的高分辨率表示。作者的方法不同于大多数现有的工作,它需要一个单独的上采样过程,并聚合低层级和高层次的表示。该方法不需要中间热图监督,在关键点检测精度和计算复杂度及参数方面都具有较高的效率。
与本方法相关的工作有用于分类和分割的多尺度网络。作者说他们的工作部分地受到了其中一些问题的启发,而且这些方法存在明显的差异,使得它们不适用于作者想要解决的问题。卷积神经网络结构和互连的CNN无法产生高质量的分割结果,因为每个子网(深度、批标准化)和多尺度融合缺乏适当的设计。网格网络是多个权重共享U-网络的组合,由两个独立的多分辨率表示的融合过程组成:在第一阶段,信息只从高分辨率发送到低分辨率;在第二阶段,信息只从低分辨率发送到高分辨率,因此竞争性较低。多尺度densenets不针对目标,也无法生成可靠的高分辨率表示。
在这一章里,作者提出了相关的几种方案:(a) 沙漏(Hourglass)(b) 级联金字塔网络(c) SimpleBaseline:用于上采样处理的转置卷积 (d) 联合扩张性卷积网络。其中,下采样和上采样层的组合用于提取特征,分辨率从高到低的过程旨在生成低分辨率和高层级的表示,分辨率从低到高的过程旨在生成高分辨率的表示。而多尺度融合将下采样过程中的低级特征逐步组合成相同分辨率的上采样过程中的高级特征。中间监督最终被摒弃,因为其效率不高。由此,作者通过融合这些特点,提出了自己的模型。
三. 方法介绍
在这一节中,作者介绍了他们的模型。
人体姿态估计,也称为关键点检测,旨在从尺寸为W×H×3的图像I中检测k个关键点或部位(如肘部、手腕等)的位置。最先进的方法将此问题转化为估计K个尺寸为W‘*H’ 的热图集合{H1,H2,…,Hk},其中每个热图HK表示第k个关键点的位置置信度。
作者遵循广泛采用的管道,一个卷积网络,来预测人体的关键点,该网络由两个降低分辨率的跨步卷积组成的主干,一个输出的特征图与其输入的特征图具有相同分辨率的主体,以及一个估计热图的回归器,其中关键点位置被选择并转换为全分辨率,这几个部分组成。作者将重点放在主体的设计上,并介绍他们的高分辨率网络(HRNet),如图1所示。
序列多分辨率子网 现有的姿态估计网络是通过串联高分辨率到低分辨率的子网来构建的,每个由一系列卷积组成的子网形成一个级,相邻子网之间有一个下采样层将分辨率减半。
设Nsr为第s级的子网,r为分辨率指数(其分辨率为第一个子网分辨率的在这里插入图片描述
)。具有S(例如,4)级的下采样网络可以表示为:
在这里插入图片描述

并行多分辨率子网 作者从一个高分辨率的子网开始作为第一级,逐步增加高分辨率到低分辨率的子网,形成新的级,并将多分辨率子网并行连接。因此,后一级并行子网的分辨率由前一级的分辨率和一个较低的分辨率组成。一个包含4个并行子网的网络结构示例如下:
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第3张图片

重复多尺度融合 这种子网重复地从每个子网中并行地接收信息。这里有一个例子展示了交换信息的方案。作者将第三级分为几个(例如3个)交换块,每个块由3个并行卷积单元组成,每个并行单元之间有一个交换单元,如下所示:
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第4张图片

其中 在这里插入图片描述
表示s级中第b块的r分辨率因子中的卷积单元, 表示相应的交换单元。作者在图3中展示了交换单元,并在下文中给出了公式。为了便于讨论,作者去掉了下标s和上标b。输入是s的响应图:{X1, X2, …, Xs}。输出是s响应图:{Y1, Y2, …, Ys } ,其分辨率和宽度与输入相同。每个输出是输入映射的集合,其中 。跨级交换单元有一个额外的输出映射Ys+1:Ys+1=a(Ys,s+1)。函数a(Xi,k)包括从分辨率i到分辨率k的上采样或下采样Xi。作者在此采用了3×3阶跃卷积进行下采样,为了说明此种卷积,作者举例说明:例如,对于2倍的下采样,用步长2进行一次3×3的跨步卷积,对于4倍的下采样,则用步长2进行两次连续的3×3跨步卷积。对于上采样,作者采用了简单的最近邻采样,然后进行1×1的卷积来对齐通道数。如果i=k,函数a只是一个识别连接:a(Xi,k)=Xi。
热图估计 作者简单地从最后一个交换单元输出的高分辨率表示中回归出热图,按照经验来说这很有效。作者将损失函数定义为均方误差,用于比较预测热图和真实热图。通过在每个真值位置的关键点上应用标准偏差为1像素的二维高斯函数来生成真实热图。
网络实例化 作者根据ResNet的设计规则,将关键点热图估计的网络实例化为每个层级的深度和每个分辨率的通道数。主体,即作者提出的HRNet,包含四个层级和四个并行子网,其分辨率逐渐降低到一半,相应地宽度(信道数)增加到两倍。第一级包含4个残差单元,每个单元与ResNet-50相同,由一个宽度为64的瓶颈构成,然后进行一个3×3的卷积,将特征映射的宽度减小到C。第二级、第三级、第四级分别包含1、4、3个交换块。一个交换块包含4个残差单元,每个单元在每个分辨率中包含两个3×3卷积和一个跨分辨率的交换单元。综上所述,共有8个交换单元,即进行8次多尺度融合。在作者的实验中,他们研究了一个小网和一个大网:HRNet-W32和HRNet-W48,其中32和48分别代表了最后三个阶段的高分辨率子网的宽度(C)。HRNet-W32的其他三个并行子网的宽度分别为64,128,256而HRNet-W48的其他三个并行子网的宽度分别为96,192,384。
四. 实验验证
在这部分中,作者介绍了在实验中用到的数据集、相关的评价指标和训练方法。
4.1 COCO数据集的关键点检测
数据集 COCO数据集包含超过200000幅图像和250000个标记了17个关键点的人物实例。作者在COCO train2017数据集上训练模型,包括5.7万张图像和15万个人物实例,并通过val2017、 test-dev2017集合评估此文的方法,这两个集合分别包含5000幅图像和2万张图像。
评价指标 基于对象关键点相似性的标准评估度量(OKS):
OKS= 在这里插入图片描述

式中,di为检测到的关键点和相应的事实基准之间的欧几里德距离,vi是事实基准的可见性标志,s是对象比例,ki是控制衰减的关键点常量。作者记录了标准的平均精确度和召回分数:AP50(表示AP在OKS=0.50的情况下)AP75,AP(10个位置的平均AP分数,OKS=0.50,0.55,…,0.90,0.95);APM适用于中型目标,APL适用于大型目标,AR运行在OKS=0.50,0.55,…,0.90,0.955上。
训练 作者将人体检测框的高宽比扩展到一个固定值,即高:宽=4:3,然后从图像中裁剪出框,调整大小到固定大小,即256×192或384×288。数据扩充处理包括随机旋转(【−45℉,45℉】),随机裁剪(【0.65,1.35】),翻转,以及半身数据扩充。
作者使用Adam优化器,学习时间表设置遵循惯例。基本学习率设为10-3,并在第170和200个时期分别降至10-4和10-5。训练过程在210个周期内结束。
测试 作者使用了两阶段自顶向下的范式:使用人物检测器检测人体实例,然后预测检测关键点。
作者使用Simple-Baseline提供的人体检测器用于验证集和测试集。按照通常的做法,通过对原始图像和翻转图像的头图求平均值来计算热图。每个关键点的位置是通过调整最高热值的位置,并在从最高响应到第二高响应的方向上偏移四分之一来预测的。
验证集中的结果 表1为作者提出的方法和其他方法的结果。小网络,HRNet-W32,从零开始训练,输入大小为256×192,AP达到了73.4,优于相同输入大小的其他方法。(1)与Hourglass法相比,作者提出的HRNet-W32上升了百分之6.5,GFLOPs不及其一半,而参数规模类似,略微大些。(2)作者的模型与CPN和OHKM相比,HRNet-W32分别上升了4.8和4.0,规模稍大,复杂度略高。(3)与之前性能最好的Simple-Baseline相比,HRNet-W32获得了显著的改进:与具有相似模型规模和GFLOPs的ResNet-50相比,AP增加了3.0,而与模型规模和GLOPs是HRNet-W32两倍的ResNet-152相比,AP增加了1.4。
作者提出他们的网络可以从以下几个方面进行优化:(1)针对ImageNet分类问题从预训练中重新训练:AP提高了1.0;(2)通过增加宽度来增加容量:大型网络HRNet-W48在输入大小256×192和384×288上分别得到0.7和0.5的改进。
输入尺寸384×288时,HRNet-W32和HRNet-W48的AP值分别为75.8和76.3,与256×192相比AP有1.4和1.2的改进。与使用ResNet-152作为主干的SimpleBaseline[72]相比,作者的HRNet-W32和HRNetW48在AP方面分别以45%和92.4%的计算成本获得1.5和2.0点的增益。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第5张图片

测试集的结果 表2为文中方法的姿态估计性能和现有方法的比较。可以看出文中所提方法明显优于其他。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第6张图片

4.2 MPII人体姿态估计
数据集 MPII人体姿势数据集包含从各种真实活动中获取的图像,这些图像带有全身姿态注释。有大约2.5万张图片,有4万个受试者,其中有1.2万个受试者用于测试,其余的受试者用于训练集。数据扩充和训练策略与MS-COCO相同,只是为了与其他方法进行比较,输入大小被裁剪为256×256。
测试 测试过程与COCO中的基本相同,只是作者采用了标准的测试策略来使用提供的人体框而不是被检测到的框。作者执行六标度金字塔测试程序。
评估指标 作者使用标准度量,即PCKh(正确关键点的头部标准化概率)得分。如果关节位于真实位置的αl像素范围内,其中α为常数,l为头部大小,对应于真实头部边界框对角线长度的60%,则该关节是正确的。

(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第7张图片
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第8张图片

测试集的结果 表3和表4显示了[email protected]结果:模型大小及顶级性能方法的GFLOPs。作者用ResNet-152作为主干,输入大小为256×256,重新实现了SimpleBaseline。作者的HRNet-W32达到[email protected]它的方法比沙漏法更有效。作者的结果与2013年11月16日排行榜上先前公布的结果中最好的一个相同。作者想指出的是,排行榜上的那个方法是对作者方法的补充,它利用组合模型来学习人体的配置并采用多级中间监督,作者的方法也可以从中受益。作者还测试了他们的大型网络HRNetW48,得到了同样的结果:92.3。原因可能是此数据集中的性能趋于饱和。
4.3 姿态跟踪中的应用
数据集 PoseTrack是视频中人体姿态估计和关节跟踪的大规模基准。该数据集基于流行的MPII人体姿态数据集提供的原始视频,包含550个视频序列,66374帧。视频序列被分成292、50、208个视频,分别用于训练、验证和测试。训练视频的长度在41-151帧之间,距视频中心的30帧被密集地注释。验证/测试视频中的帧数在65-298帧之间。MPII Pose数据集中关键帧周围的30帧被密集地注释,然后每四帧进行一次注释。总而言之,这大约包含23000个标签帧和153615个姿势注释。
评估指标 作者从两个方面对结果进行了评估:帧级多人姿态估计和多人姿态跟踪。位姿估计由平均的平均精度(mAP)进行评估。多人姿态跟踪由多目标跟踪精度(MOTA)评估。
训练 作者在PoseTrack2017训练集上训练他们的HRNet-W48用于单人姿势估计,其中网络由COCO数据集上预先训练的模型初始化。通过将所有关键点的边界框扩展15%的长度,从训练帧中标注的关键点中提取出人框作为网络的输入。训练设置(包括数据扩充)与COCO的训练设置几乎相同,只是学习参数设置不同(与现在的微调相同):学习率从1e−4开始,在第10个迭代时期下降到1e−5,在第15个迭代时期下降到1e−6;迭代在20个周期内结束。
测试 作者按照经验文献来跟踪帧间的姿势,它包括三个步骤:人体框检测与传播、人体姿态估计和跨帧姿态关联。作者使用SimpleBaseline中使用的同一个人体框检测器,通过根据FlowNet2.0计算的光流传播预测的关键点,然后通过非最大值抑制来移除框,将检测到的框传播到附近的帧中。位姿关联是基于一帧内的关键点与相邻帧中传播的关键点之间的物体关键点相似性,根据光流的变化来进行姿态关联。然后利用贪婪匹配算法计算相邻帧中关键点之间的对应关系。
PoseTrack2017测试集的结果 表5展示了结果。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第9张图片

4.4 结构有效性分析
作者研究了他们的方法中每个组件对COCO关键点检测数据集的影响。在256×192的输入范围内,除研究输入尺寸的影响外,所有结果均已验证。
重复多尺度融合 作者对重复多尺度融合的效果进行了实证分析。作者研究了其网络的三种变体。(a) 无中间交换单元(1个融合):除了最后一个交换单元外,多分辨率子网之间没有交换。(b) 仅带跨级交换单元(3个融合):每个级内的并行子网之间没有交换。(c) 跨级和级内交换单元(共8个融合):这是作者提出的方法。所有的网络都是从零开始训练的。表6中给出的COCO验证集的结果表明,多尺度融合是有帮助的,融合越多,性能越好。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第10张图片

表6 用于多尺度重复融合的交换单元烧蚀研究。Int.exchange across=阶段间的中间交换,Int.exchange within=阶段内的中间交换。
分辨率保持 作者研究了一种不同的HRNet的性能:所有四个高分辨率到低分辨率的子网都在开始处加入,并且深度相同;融合方案与作者的相同。作者的HRNet-W32和变体(具有相似的参数和GFLOPs)都是从头开始训练并在COCO验证集上测试的。该变体的AP为72.5,低于作者的小型网络HRNet-W32的73.4 AP。作者认为,这种情况是因为从低分辨率子网的早期阶段提取的低层特征没有那么有用。另外,参数相似、计算复杂的简单高分辨率网络没有低分辨率的并行子网,其性能要低得多。
表征分辨率 作者从两个方面研究了表征分辨率对姿态估计性能的影响:分辨率从高到低对每个分辨率的特征图估计的热图质量进行检查,以及输入大小对质量的影响。作者训练由ImageNet分类预先训练的模型初始化的小型和大型网络。作者的网络从高分辨率到低分辨率输出四个响应图。在最低融合图上的热图预测质量太低,AP评分低于10分。在图5中展示了其他三个AP的分数。比较表明,分辨率确实会影响关键点的预测质量。图6显示了与SimpleBaseline(ResNet50)相比,输入图像大小如何影响性能。结果表明,输入尺寸越小,改善效果越显著,如256×192和128×96的改善分别为4.0和6.3。原因是作者在整个过程中都保持了高分辨率。这意味着作者的方法在计算成本也是一个重要因素的实际应用中更具优势。另一方面,作者的输入大小为256×192的方法比输入大小为384×288的SimpleBaseline要好。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第11张图片

图4 MPII和COCO数据集的展示
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第12张图片

图5 高、低分辨率表征:1×、2×、4×分别对应于高、中、低分辨率的表示。
(粗翻译)Deep High-Resolution Representation Learning for Human Pose Estimation——CVPR2019_第13张图片

图6 输入大小对性能的影响

五. 总结
在本文中,作者提出了一个高分辨率的人体姿态估计网络,产生精确的空间精确的关键点热图。其成功源于两个方面:(一)在整个过程中保持高分辨率,而不需要恢复高分辨率;(二)多次融合多分辨率表示,得到可靠的高分辨率表示。作者未来的工作方向包括在其他密集预测任务中的应用,如语义分割、目标检测、人脸对齐、图像翻译等,以及对多分辨率表示以较低的方式聚合的研究。

你可能感兴趣的:(深度学习)