中科大和微软亚洲研究院,发布新的人体姿态估计模型,刷新了三项COCO纪录,并中选CVPR 2019。HRNet拥有与众不同的并联结构,不只靠从低分辨率表征恢复高分辨率表征,可随时保持高分辨率表征。如此一来,姿势识别的效果明显提升:在COCO数据集的关键点检测、姿态估计、多人姿态估计这三项任务里,HRNet都超越了所有前辈。
在这篇论文中,我们主要研究人的姿态问题(human pose estimation problem),着重于输出可靠的高分辨率表征(reliable highresolution representations)。现有的大多数方法都是从高分辨率到低分辨率网络(high-to-low resolution network)产生的低分辨率表征中恢复高分辨率表征。相反,我们提出的网络能在整个过程中都保持高分辨率的表征。
我们从高分辨率子网络(high-resolution subnetwork)作为第一阶段开始,逐步增加高分辨率到低分辨率的子网,形成更多的阶段,并将多分辨率子网并行连接。我们进行了多次多尺度融合(multi-scale fusions),使得每一个高分辨率到低分辨率的表征都从其他并行表示中反复(over and over)接收信息,从而得到丰富的高分辨率表征。因此,预测的关键点热图可能更准确,在空间上也更精确。通过 COCO keypoint detection 数据集和 MPII Human Pose 数据集这两个基准数据集的superior pose estimation results,我们经验性地证明(empirically demonstrate)了网络的有效性。此外,我们还展示了网络在 Pose Track 数据集上的位姿跟踪的优越性(superiority)。
二维人体姿态估计是计算机视觉中一个基本而又具有挑战性的问题。目标是定位人体的( anatomical)解剖关键点(如肘部、腕部等)或部位。它有很多应用,包括人体动作识别、人机交互、动画(human action recognition, human-computer interaction, animation, etc)等。本文着力于研究单人姿态估计(single-person pose estimation),这是其他相关问题的基础,如multiperson pose estimation[6, 27, 33, 39, 47, 57, 41, 46, 17, 71],video pose estimation and tracking[49, 72]等。
最近的发展表明,深度卷积神经网络已经取得了最先进的性能。大多数现有的方法通过一个网络(typically通常由高分辨率到低分辨率的子网串联而成connected in series)处理输入,然后提高分辨率。 For instance例如,Hourglass[40]通过对称的低到高分辨率(symmetric low-to-high process)过程恢复高分辨率。SimpleBaseline[72]采用少量的转置卷积层(transposed convolution)来生成高分辨率的表示。此外,dilated带孔卷积还被用于放大高分辨率到低分辨率网络的后几层[27,77](如VGGNet或ResNet)。
我们提出了一种新奇架构,即高分辨率网络(HRNet),它能够在整个过程中维护高分辨4率的表示。我们从高分辨率子网作为第一阶段始,逐步增加高分辨率到低分辨率的子网(gradually add high-to-low resolution subnetworks),形成更多的阶段,并将多分辨率子网并行连接。在整个过程中,我们通过在并行的多分辨率子网络上反复交换信息来进行多尺度融合。我们通过网络输出的高分辨率表示来估计关键点。生成的网络如图1所示。
与现有的广泛用于姿态估计(pose estimation)的网络[40,27,77,72]相比,我们的网络有两个好处。(i) 我们的方法是并行连接高分辨率到低分辨率的子网,而不是像大多数现有解决方案那样串行连接。因此,我们的方法能够保持高分辨率,而不是通过一个低到高的过程恢复分辨率,因此预测的热图可能在空间上更精确;(ii) 大多数现有的融合方案都将低层和高层的表示集合起来。相对的,我们使用重复的多尺度融合,利用相同深度和相似级别的低分辨率表示来提高高分辨率表示vice versa,从而使得高分辨率表示对于姿态的估计也很充分。Consequently,我们预测的热图可能更准确;
我们在两个基准数据集:COCO关键点检测数据集[36]和MPII人体姿态数据集[2]上,empirically demonstrate本方法的优越关键点检测性能。此外,我们还展示了我们的网络在PoseTrack数据集上视频位姿跟踪的优势[1]
传统单人体姿态估计大多采用概率图形模型或图形结构模型[79,50],近年来通过深度学习对unary and pair-wise energies更好的建模[9,65,45]或模仿迭代推理过程[13],对该模型进行了改进。Nowadays, 深度卷积神经网络提供了主流的解决方案[20,35, 62, 42, 43, 48, 58, 16]。主要有两种方法:回归关键点位置regressing the position of keypoints[66,7]和估算关键点热图estimating keypoint heatmaps[13,14,78](然后选择热值最高的位置作为关键点)。
大多卷积神经网络估计对于关键点的热图是由一个类似于分类网络的stem主干子网络(这降低了分辨率)、一个产生输入分辨率大小表示的主体网络、之后一个估算的热图关键点位置的回归器(在这里关键点位置被估计并转换为全分辨率下的坐标)。主体主要采用high-to-low/low-to-high框架,可增加多尺度融合multi-scale fusion和中间监督学习 intermediate (deep) supervision。
high-to-low process的目标是生成低分辨/高层次表示,low-to-high process的目标是生成高分辨率表示[4,11,23,72,40,62]。这两个过程可能会重复多次,以提高性能[77,40,14]。
具有代表性的网络设计模式包括:(i)Symmetric high-to-low and low-to-high processes。Hourglass及其后续论文[40,14,77,31]将low-to-high proces设计为high-to-low process的镜子。(ii)Heavy high-to-low and light low-to-high。high-to-low process是基于ImageNet分类网络,如[11,72]中使用的ResNet,low-to-high process是简单的几个双线性上采样[11]或转置卷积[72]层。(iii)Combination with dilated convolutions。在[27,51,35]中,ResNet或VGGNet在最后两个阶段都采用了扩张性卷积来消除空间分辨率的损耗,随后采用由light low-to-high process来进一步提高分辨率,避免了仅使用dilated convolutions的昂贵的计算成本[11,27,51]。图2描述了四种具有代表性的姿态估计网络。
最直接的方法是将多分辨率图像分别送入多个网络,并aggregate聚合输出响应映射图[64]。Hourglass[40]及其扩展[77,31]通过跳过连接skip connections,将high-to-low process中的高分辨率/低层次特征逐步组合为low-to-high process中的高分辨率/高层次特征。在CPN[11]中,globalnet将high-to-low process过程中的低到高级别特征(low-to-high level feature)逐步组合到low-to-high process过程中,refinenet将通过卷积处理的低到高特征进行组合。我们的方法重复多尺度融合,部分灵感来自深度融合及其扩展[67,73,59,80,82]。
图像分类早期发展的中间监督或深度监督[34,61],也用于帮助深度网络训练和提高热图估计质量,如[69,40,64,3,11]。Hourglass[40]和卷积姿态器[69]将中间热图作为剩余子网络的输入或输入的一部分进行处理。
我们的网络并行地连接高到低的子网。它通过在整个过程保持的高分辨率表示,得以精确估计空间热图。它通过重复融合high-to-low子网的表示来生成可靠的高分辨率表示。我们的方法不同于大多数现有的工作,它们需要一个独立的从低到高的上采样过程,并聚合低层和高层表示。该方法在不使用中间热图监控的情况下,具有较好的关键点检测精度和计算复杂度及参数量。
有相关的多尺度网络进行分类和分割[5,8,74,81,30,76,55,56,24,83,55,52,18]。我们的工作在一定程度上受到了其中一些问题的启发[56,24,83,55],而且存在明显的差异,使得它们不适用于我们的问题。Convolutional neural fabrics[56]和interlinked CNN[83]由于缺乏对每个子网络(depth, BN)的合理设计和多尺度融合,分割结果的质量不高。grid network[18]是多个权重共享U-Nets组合,由两个多分辨率表示的独立融合过程组成;第一阶段,信息仅从高分辨率发送到低分辨率;在第二阶段,信息只从低分辨率发送到高分辨率,因此竞争力较低。Multi-scale densenets[24]没有目标,无法生成可靠的高分辨率表示。
人体姿态估计,即关键点检测,旨在从一个图像的大小W×H×3检测K个关键点或部分的位置(例如,手肘、手腕等)。业界最优的方法是将这个问题转变为估计K热图的大小,其中每个热图 Hk 表示第k个关键点的位置置信度。
我们遵循广泛适用的pipeline[40, 72, 11]使用卷积网络预测人体关键点,其由降低分辨率的二步长卷积网络组成的stem网络、输出与输入特征图同分辨率特征映射的主体网络,和一个估计热图的回归器,随后热图中的关节点被选中并转换回全分辨率坐标。我们主要关注主体的设计,并介绍我们的高分辨率网络(HRNet),如图1所示。
现有的姿态估计网络是将high-to-low resolution subnetworks串联起来,每个子网形成一个阶段,其由序列卷积组成;同时相邻子网之间存在一个下采样层,以将分辨率减半。
假设Nsr是第s阶段的子网,r是分辨率指标(它的分辨率为1/(2^r-1)倍初始子网络分辨率)。S=4个阶段的 high-to-low network可以写成下列表示:(现有的姿态估计网络)
我们以高分辨率子网为第一阶段,逐步增加高分辨率到低分辨率的子网,形成新的阶段,并将多分辨率子网并行连接。因此,后一阶段并行子网的分辨率由前一阶段的分辨率和额外更小分辨率组成。一个包含4个并行子网的网络结构示例如下:
我们跨并行子网引入交换单元exchange units,使每个子网重复接收来自其他并行子网的信息。下面是一个展示信息交换方案的示例。我们将第三阶段{N31; N32; N33}划分为若干(3)个交换块,每个块由三个并行卷积单元组成,并在其后与一个交换单元跨并行单元进行卷积,得到:(N3:的3交换块结构)
其中C^b_sr表示s阶段并行子网中第b个交换块r分辨率的卷积单元,E^b_s表示相应的交换单元;
我们将在图3中说明交换单元,并在下文中给出公式。为了便于讨论,我们去掉下标s和上标b。
输入为s个响应图:{X_1 , X_2 , . . . , X_s },输出为s个响应图:{Y_1 , Y_2 , . . . , Y_s } ,其分辨率和宽度与输入相同。每个输出都是输入映射的集合Yk=sum(a(Xi, k), i=1:s)。跨阶段的交换单元有额外的输出图Ys+1=a(Ys, s+1)。
函数a(X_i, k)从分辨率i到k对上采样或下采样组成。我们采用有跨步的3×3卷积做下采样。例如,用单个有跨步的3×3卷积使用2步长做2x下采样。两个连续的有跨步3×3的卷积使用2步长做4倍下采样。对于上采样,我们采用最简单的最近邻抽样,在调整通道的数量的1×1卷积之后。如果i = k,则a(.,.)只是一个恒等连接:a(Xi, k)=Xi。
我们将简单地从上一个交换单元输出的高分辨率表示进行热图回归,这在经验上是很有效的。损失函数定义为均方误差,用于比较预测的热图和标签热图。标签热图是采用二维高斯分布,以每个关键点的grouptruth位置为中心,标准差为1像素生成的。
根据ResNet设计规则,我们实例化了关键点热图估计网络,将深度分布到每个阶段,并将通道数分布到每个分辨率。
我们的HRNet主体包含四个由四个并行子网组成的网络阶段,其分辨率逐渐降低到一半,相应的宽度(通道数)增加了一倍。第1阶段包含4个残差模块单元,每个单位都如ResNet-50中一样,是由一个宽度为64的bottleneck组成,紧随其后的是一个3x3卷积特征图的宽度减少到C,第2,第3,第4阶段分别包含1、4、3个交换块。一个交换块包含4个残差模块单元,其中每个交换块在每个分辨率中包含两个3x3的卷积和一个跨分辨率交换单元。综上所述,共有8个交换单元,即共进行8次多尺度融合。
在我们的实验中,我们研究了一个小网和一个大网:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段高分辨率子网的宽度C。HRNet-W32中其他三个并行子网的宽度为:64,128,256,HRNet-W48中则为:96,192,384。
数据集. COCO数据集[36]包含200,000幅图像和250,000个带有17个关键点的人体实例。我们在COCO train2017数据集上训练我们的模型,数据集中包括57K图像和150K 人体实例。我们在val2017和test-dev2017上评估我们的方法,这两个集合分别包含5000图像和20K图像。
Evaluation metric 评测指标. 标准评测指标基于目标关键点相似度Object Keypoint Similarity (OKS)上:其中d_i是检测到的关键点与标签关键点之间的欧式距离,v_i是标签的可见性标签,s是目标尺度,k_i是每类关键点的相关控制衰减常数(具体见此)。我们报告了AP和Recall分数:AP^50(AP@OKS=0.50), AP^75,AP(mean-AP@OKS=0.50, 0.55, . . . , 0.90, 0.95),针对中等目标的AP^M, 针对大目标的AP^L, 以及[email protected], 0.55, . . . , 0.90, 0.955;
训练. 我们将人体检测框的高宽比延展到固定比率:height/width = 4/3,之后从图片中裁剪出该框,其之后resize到256 × 192或者384 × 288 大小。数据增强data augmentation包括随机旋转 ([−45◦ , 45◦ ]),随机尺度缩放([0.65, 1.35]),以及随机翻转。 也使用了如[68]的half body data augmentation。
我们使用Adam优化器[32]。学习率衰减策略依照[72]。基础学习率设为1e-3,之后在170th和200th epochs时分别降为1e-4和1e-5。训练过程将在210 epochs之内停止。
测试。使用了如[47, 11, 72]的双阶段top-down范式:使用检测器检测人体实例,而后对实例检测关键点。
我们使用了SimpleBaseline[72]在验证集和测试集上的人体检测器。依照通常惯例[72,40,11],我们平均了原图和翻转图的热图来计算最终热图。将热值最高点到次高点的1/4偏移处作为每一个关键点位置预测值。
Results on the validation set. 我们在表1中报告了我们与其他SOTA方法的结果。我们的小网络HRNet-W32,输入256 x 192的它是从零开始训练的(trained from scratch),达到了73.4AP,在同等输入尺寸下效果超越了其他方法。(i)和Hourglass[40]相比,我们的小网络提升了6.5 AP,并且GFLOPS更小至一半以下,然而我们的参数量是相似甚至更大些的(GFLOPS和参数量)。(ii)和w/o和w/ OHKM的CPN[11]相比,我们的网络具有稍大的网络模型和稍高的复杂度,分别得到了4.8和4.0提升。(iii)与之前最好的SimpleBaseline[72]相比,我们的小模型HRNet-W32得到了显著提升:对其与我们同等参数量和计算量的基于ResNet-50主干网络的模型得到3.0点增益,对其两倍参数量和计算量于我们网络的基于ResNet-152主干网络的模型得到1.4点增益。
我们网络可受益于(i)ImageNet分类问题的预训练模型:在HRNet-W32上增益1.0个点; (ii)增加网络宽度以增强表达:HRNet-W48 gets 0.7 and 0.5 improvements for the input sizes 256 × 192 and 384 × 288, respectively.
对于输入大小 384x288, 我们的HRNet-W32和HRNet-W48达到75.8 和 75.8 AP, 与输入大小256x192 相比, 它们有1.4 和1.2 的提升。与以ResNet-152为主干的SimpleBaseline [72] 相比, 我们的HRNet-W32和HRNet-W48在 AP 方面分别以45% 和92.4的计算成本获得1.5个百分点和2.0 点的收益。
Results on the test-dev set.测试集结果。表2报告了我们的方法和现有的最先进方法的姿态估计性能。我们的方法明显优于自下而上的方法。另一方面, 我们的小型网络HRNet-W32实现了74.9 的 AP。它的性能优于所有其他自上而下的方法, 并且在模型大小 (#Params) 和计算复杂性 (GFLOPs) 方面效率更高。我们的大模型HRNet-W48 达到了最高的 75.5 AP. 与输入大小相同的 Simpleline [72] 相比, 我们的小型和大型网络分别获得1.2 和1.8 的改进。随着来自 AI Challenger [70] 的额外数据用于训练, 我们的单个大网络可以获得77.0 的 AP。
Dataset. MPII人类姿势数据集 [2] 由从具有全身姿势标注的各种现实活动中提取的大量图片组成。其约有25K图像与40K的类别, 其中有12K的测试样本和其余样本为训练集。数据增强和训练策略与MSCOCO 相同, 但输入大小被裁剪为 256x256, 以便与其他方法进行公平比较。
Test.。测试程序与COCO几乎相同, 只是我们在标准测试策略中使用已提供的人体检测框, 而不是去检测它。参考[14、77、62] , 我们执行了六尺度金字塔测试six-scale pyramid testing procedure过程。
Evaluation metric. 使用了标准指标[2], PCKh (head-normalized probability of correct keypoint) 分数。如果关节位于真实标注位置的αl 像素内, 则该关节是正确的, 其中α是一个常数, 而 l 是对应于真实标注头边界框对角线长度60%的头部大小。我们报告了PCKh@ 0.5(α= 0.5)分数。
Results on the test set.表3和表4显示了top-performed methods的[email protected] 结果、模型大小和计算量。我们使用ResNet-152作为256x256输入的主干网络, 重新实现了SimpleBaseline[72]。我们的HRNet-W32实现了92.3的[email protected] 分数, 并优于堆叠沙漏法 [40] 及其扩展 [58, 14, 77, 31, 62]。结果是相同的最好的 [62] 在前一次公布的结果在排行榜上的领导, 2018年11月16日。我们想指出的是,[62] 方法, 与我们方法相对应, 利用了组合模型来学习人体结构, 并采用了多层次的中间监管, 我们的方法也可以从这些中受益。我们还测试了我们的大网络 HRNet-W48, 并获得了相同的结果92.3。原因可能是此数据集性能趋于饱和。
Dataset. PoseTrack [28] 是一个大规模人类姿态估计和清晰视频跟踪的基准。该数据集基于流行的 MPII 人体姿势数据集提供的原始视频, 包含550个视频序列,其包含 66, 374 帧。视频序列被分为292, 50, 208个视频分别用于训练/验证/测试。
Training. 训练视频长度在41-151帧之间同时在视频中心周围的30帧被密集地标注。测试视频中的帧数介于65-298 帧之间。来自MPII Pose数据集关键帧的周围30帧密集地标注, 之后每四个帧都有标注。共有约 23, 000个标注帧和 153, 615 个姿势标注。
Evaluation metric. 我们从两个方面来评估结果: 帧间多人姿态估计和多人姿势跟踪。与 [51, 28] 中所做的类似,均值平均精度 (mAP) 用来评价姿态估计。多人姿势跟踪是用多目标跟踪精度(MOTA) [38, 28] 来评估的。详情见 [28]。
Training. 我们在 PoseTrack2017 训练集中对个人进行HRNet-W48的训练, 其中通过 COCO数据集预训练模型对其进行初始化。我们从训练帧中的标注关键点中提取人体边界框 (作为网络的输入), 方法是将所有关键点 (对于一个人) 的边界框的长度延长15%。训练设置, 包括数据增强, 几乎是和COCO相同的, 除了学习率更新是不同的 (因为现在是为了微调): 学习率从1e−4开始, 在第10个epochs下降到1e−5, 第15个epochs时1e−6,且迭代在20个epochs内结束。
Testing. 我们按照 [72] 来跟踪不同帧的姿势。它由三个步骤组成: 人体边框检测和传播, 人体姿势估计, 和相邻帧间姿势关联。我们使用与SimpleBaseline [72] 中相同的人体边框检测器, 并通过FlowNet 2.0[26]计算的光流将预测关键点传播到相邻帧从而传播检测框到相邻帧, 随后对边界框使用NMS进行边框删除。姿态关联方案基于某帧关键点与根据光流从附近帧传播关键点间的oks。利用贪婪匹配算法计算了附近帧内关键点之间的对应关系。更多详情见 [72]。
Results on the PoseTrack2017 test set. 表5报告了此结果。我们的大网络HRNet-W48得到了优异结果,74.9 mAP和57.9 MOTA。与使用 ResNet-152作为主干网络的第二好方法-- the FlowTrack in SimpleBaseline [72]相比, 我们的方法在mAP和MOTA 中分别获得0.3分和0.1分的增益。在 COCO 关键点检测和 MPII 人姿态估计数据集上, 相对于FlowTrack [72] 的优势是一致的。这进一步意味着我们的姿态估计网络的有效性。
我们研究了本方法中的每个组件对 COCO 关键点检测数据集的影响。所有结果均在256x192 的输入尺寸下, 除了研究输入尺寸影响的情况下。
Repeated multi-scale fusion. 我们对重复多尺度融合的效果进行了实证分析empirically analyze。我们研究三个网络变体:(a) 没有中间交换单元 (1 路融合): 除最后一个交换单元外, 多分辨率子网之间没有交换。(b)仅有跨阶段交换单元 (3路融合): 在每阶段内并行子网之间没有交换。(c) 阶段内和跨阶段交换单元 (共8个融合): 这是我们提出的方法。所有网络都是从零开始训练的。表6给出的 COCO 验证集的结果表明, 多尺度融合是有帮助的, 更多的融合可以提高性能。
Resolution maintenance. 我们研究了一种HRNet变体的表现: 四个高到低分辨率子网都是在开头添加的, 深度是相同的; 融合方案和我们的一样。我们的HRNet-W32和此变体(具有类似的 #Params 和 Gglops)都是从零开始训练, 并在 COCO验证集测试。该变体的 AP 值为72.5, 低于我们的小网络HRNet-W32的73.4 AP。我们认为, 原因是低分辨率子网络上早期阶段提取的低级层次特征没有太大帮助。此外在没有低分辨率并行子网的情况下, 具有相似参数和计算复杂性的简单高分辨率网络的性能也要低得多。
Representation resolution. 我们从两个方面研究表示分辨率如何影响姿态估计性能: 从高分辨率的要素图中检查估计的热图的质量,以及研究输入大小如何影响质量。我们训练我们的大/小网络, 由ImageNet 分类预训练模型初始化。我们的网络输出从高到低分辨率的四个响应图。分辨率最低响应图的热图预测质量太低, AP 得分低了10个点。AP在其他三个图上的分数如图5所示。这意味着分辨率确实会影响关键点预测质量。
图6显示了与SimpleBaseline (Resnet-50) [72] 相比, 输入图像大小如何影响性能。我们可以发现, 较小输入大小的改进比较大输入大小的改进更显著, 例如对256x192的改进提升了4.0点和对128x96的改进提升了6.3点。原因是我们在整个过程中保持了高分辨率。这意味着我们的方法在实际应用中更有利, 其计算成本也是一个重要因素。此外, 本方法在输入大小为256x192时的性能比SimpleBaseline[72] 在大的输入384x288时还要好。
在本文中, 我们提出了一个高分辨率网络的人的姿态估计, 产生了准确和空间精确的关键点热图。成功源于两个方面: (i) 在整个过程中保持高分辨率, 而不需要恢复高分辨率; (ii) 反复融合多分辨率表示, 得到了可靠的高分辨率表示。今后的工作包括在其他密集预测任务中的应用, 如语义分割、对象检测、人脸对齐、图像转换, 以及以更轻的方式聚合多分辨率表示的研究。
我们提供 MPII 验证集 [2] 的结果。我们的模型是在 MPII 训练集的子集上进行训练的, 并在2975张图像的自动验证集(a heldout validation set ?)上进行评估。训练流程与在整个 MPII 训练集上训练是相同。热图计算为用于测试的原始图像和翻转图像的热图平均值。继 [77, 62] 之后, 我们还执行了六标检测程序six-scale pyramid testing procedure (多尺度测试)。结果如表 7.
我们提供了对PoseTrack数据集所有关键点的结果[1]。表8显示了PoseTrack2017数据集上的多人姿势估计性能。HRNet-W48在验证集和测试集上达到77.3和74.9分的MAP, 比以前最先进的方法 [72]分别高出0.6点和0.3个百分点。我们在PoseTrack2017 测试集中提供了更详细的多人跟踪性能结果, 作为本文报告结果的补充, 如表 9.
我们将我们的网络应用于图像分类任务。模型在ImageNet 2013分类数据集上进行训练和评估[54]。我们以batch-256将模型训练了100 epochs。初始学习率设置为 0.1, 并在第30、60和第90 epochs减少10倍。与专门为图像分类而设计的网络相比, 如 Res-Net [22],我们的模型可以实现类似的性能 。我们的HRNet-W32采用single-crop testing,具有6.5%的 top-5 validation error和22.7%的top-1 validation error。我们的HRNet-W48获得了更好的性能: 分别6.1% 和22.1%。我们使用在ImageNet 数据集上训练的模型来初始化我们的姿态估计网络参数。