@Densepose论文翻译
在本文中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们建议的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐个逐步添加高到低分辨率子网以形成更多阶段,并并行连接多个子网。我们进行重复的多尺度融合,使得高到低分辨率表示中的每一个一遍又一遍地从其他并行表示接收信息,从而导致丰富的高分辨率表示。因此,预测的关键点热图可能更准确,空间更精确。我们通过优越的姿势估计结果超过基准数据集经验证明了我们网络的有效性:在COCOkeypointdetection数据集和MPII Human Pose数据集。此外,我们在PoseTrackdataset上展示了我们的网络在姿势跟踪方面的优势。该代码和模型已公开发布。
图1.说明拟议HRNet的架构。 它由并行的高到低分辨率子网络组成,跨多分辨率子网络进行重复信息交换(多规模融合)。 水平和垂直方向分别对应于网络的深度和特征图的比例。
2D人体姿势估计一直是计算机视觉中的一个基本但具有挑战性的问题目标是定位人体解剖学关键点(例如,肘部,腕部等)或部位。它有许多应用,包括人类动作识别,人机交互,动画等。本文对单人姿态估计感兴趣,这是其他相关问题的基础,如多人评估[6,27,33,39] ,47,57,41,46,17,71],视频姿势估计和跟踪[49,72]等。
最近的发展表明,深度卷积神经网络已经达到了最先进的性能。大多数现有方法通过网络传递输入,通常由串联连接的高到低分解网络组成,然后提高分辨率。例如,Hourglass [40]通过对称的低到高过程恢复了高分辨率。简单的基线[72]采用了一些转置的卷积层来生成高分辨率的表示。此外,扩张的卷积也用于炸毁高到低分辨率网络的后期层(例如,VGGNet或ResNet)[27,77]。
我们提出了一种新颖的架构,即HighResolution Net(HRNet),它能够在整个过程中保持高分辨率表示。我们从高分辨率子网开始作为第一阶段,逐个逐个添加高到低分辨率子网以形成更多阶段,并且并行连接多分辨率子网。我们通过在整个过程中反复交换并行多分辨率子网络中的信息来进行重复的多尺度融合。我们估计了网络输出的高分辨率表示的关键点。由此产生的网络如图1所示。与现有广泛使用的网络[40,27,77,72]相比,我们的网络有两个好处,用于姿态估计。 (i)我们的方法并行连接高低分辨率子网,而不是像大多数现有解决方案那样串联连接。因此,我们的方法能够保持高分辨率,而不是通过从高到高的过程恢复分辨率,因此预测的热图可能在空间上更精确。 (ii)大多数现有的融合方式都是低水平的高水平代表。相反,我们在相同深度和相似水平的低分辨率表示的帮助下执行重复的多尺度融合以提升高分辨率表示,反之亦然,导致高分辨率表示对于姿势估计也是丰富的。因此,我们预测的热图可能更准确。
我们凭经验证明了两个基准数据集的优越关键点检测性能:COCO关键点检测数据集[36]和MPII人体姿态数据集[2]。此外,我们在PoseTrack数据集[1]上展示了我们的网络在视频姿态跟踪中的优越性。
图2.代表性估计网络的例子,从高到低和从低到高的框架。(一)沙漏[40]。 (b)级联金字塔网络[11]。 (c)SimpleBaseline [72]:用于从低到高处理的转置卷积。 (d)与扩张的卷积相结合[27]。 右下角的传说:reg。 =常规卷积,扩张=扩张卷积,反式。 =转置卷积,strided = strided convolution,concat。 =连接。 在(a)中,从高到低和从低到高的过程是对称的。 在(b),(c)和(d)中,从高到低的过程,分类网络(ResNet或VGGNet)的一部分,很重,从低到高的过程很轻。 在(a)和(b)中,从高到低和从低到高处理的相同分辨率层之间的跳过连接(虚线)主要旨在融合低级和高级特征。 在(b)中,右侧部分re fi nenet结合了通过卷积处理的低级和高级特征。
大多数传统的单人姿态估计解决方案采用概率图形模型或图形结构模型[79,50],最近通过利用深度学习来更好地模拟一元和成对能量[9,65,45]或模仿迭代推理过程而得到改善。 [13]。如今,深度卷积神经网络提供了主导解[20,35,62,42,43,48,58,16]。有两种主流方法:回归关键点[66,7]的位置,估算关键点热图[13,14,78],然后选择热值最高的位置作为关键点。
用于关键点热图估计的大多数卷积神经网络包括类似于分类网络的干子网,其降低分辨率,主体产生具有与其输入相同分辨率的表示,随后是回归器估计关键点位置的热图。估计然后转换为全分辨率。主体主要采用从高到低,从低到高的框架,可能增加了多尺度融合和中间(深)监督。
从高到低,从低到高。从高到低的过程旨在产生低分辨率和高水平的表示,而从低到高的过程旨在产生高分辨率表示[4,11,23,72,40,62]。这两种方法都可能会重复几次,以提升表现[77,40,14]。
代表性网络设计模式包括:(i)对称的从高到低和从低到高的过程。沙漏及其后续工作[40,14,77,31]将低到高的过程设计为高到低过程的一面镜子。 (ii)从高到低,轻到低到高。从高到低的过程基于ImageNet分类网络,例如[11,72]中采用的ResNet,而从低到高的过程只是一些双线性上采样[11]或转置卷积[72]。层。 (iii)与扩张的卷积相结合。在[27,51,35]中,在ResNet或VGGNet的最后两个阶段中采用了扩张的卷积来消除空间分辨率损失,这是为了进一步提高分辨率,从而避免了昂贵的计算成本[11, 27,51]。图2描绘了四个代表性姿势估计网络。
多尺度融合。直接的方法是将多分辨率图像分别馈送到多个网络中并聚合输出响应图[64]。沙漏[40]及其扩展[77,31]通过跳过连接逐步将低级到高级特征从低到高的过程中的低级特征。
与高级特征结合起来。在级联金字塔网络[11]中,globalnet将从高到低的过程中的低到高级别的特征逐步组合到低到高的过程中,然后将网络组合成通过卷积处理的低到高级别的特征。我们的方法重复多尺度融合,这部分灵感来自于扩散和扩张[67,73,59,80,82]。
中级监督。早期开发的用于图像分类的中间监督或深度监督[34,61]也被用于帮助深度网络训练和提高热图估计质量,例如[69,40,64,3,11]。沙漏方法[40]和卷积姿势机方法[69]处理中间热图作为剩余子网的输入或输入的一部分。
我们的方法。我们的网络并行连接从高到低的子网。它在整个过程中保持高分辨率表示,以进行空间精确的热图估计。它通过重复融合由高到低子网络产生的表示来生成可靠的高分辨率表示。我们的方法与大多数现有工作不同,后者需要单独的从低到高的上采样过程并聚合低级和高级表示。我们的方法,无需使用中间热量监测,在关键点检测精度和计算复杂性和参数方面具有优势。
存在用于分类和分割的相关多尺度网络[5,8,74,81,30,76,55,56,24,83,55,52,18]。 我们的工作部分受到其中一些人的启发[56,24,83,55],并且他们认为这些问题并不适用于我们的问题。 卷积神经结构[56]和相互关联的CNN [83]由于每个子网络(深度,批量归一化)和多尺度融合缺乏适当的设计而无法产生高质量的分割结果。 网格网络[18]是许多权重共享U-Nets的组合,由跨多分辨率表示的两个独立融合过程组成:在第一阶段,信息从高分辨率到低分辨率; 在第二阶段,信息仅从低分辨率发送到高分辨率,因此竞争力较弱。 多尺度的密集网络[24]没有目标,也无法生成可靠的高分辨率表示。
人体姿势估计,即关键点检测,旨在从尺寸为W×H×3的图像I中检测K个关键点或部位(例如,肘部,手腕等)的位置。最先进的方法将该问题转换为K热图,其估计尺寸为W0×H0,{H1,H2,…,HK},其中热图Hk表示第k个关键点的位置信息。
我们遵循广泛使用的管道[40,72,11]来使用卷积网络来预测人类关键点。卷积网络由一个由两个跨度卷积组成的词干组成,降低了主题输出的分辨率和分辨率。通过输入要素图和回归估计选择速率,以选择关键点位置并转换为全分辨率热图。我们专注于主体的设计,并介绍我们的高分辨率网络(HRNet),如图1所示。
顺序多分辨率子网。用于姿态估计的现有网络通过串联连接高切割子网来构建,其中形成一个级别的每个子网由一系列卷积组成,并且在相邻子网之间存在用于解析的下采样层。该速率减半。
设Nsr成为sth阶段的子网,r是分辨率索引(其分辨率是第一个子网的分辨率的)。具有S(例如,4)级的高到低网络可以表示为:
并行多分辨率子网。 我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率的子网,形成新的阶段,并且并行连接多分辨率子网。 因此,并行子网络的分辨率包括前一阶段的解决方案和更低的解决方案。
包含4个并行子网的示例网络结构如下:
图3.说明交换单元如何分别从左到右聚合高,中和低分辨率的信息。 正确的传说:跨步3×3 =跨步3×3卷积,上升。 1×1 =最近邻居采样,后跟1×1卷积。
反复多尺度融合。 我们在并行子网中引入交换单元,使每个子网重复接收来自其他并行子网的信息。 这是一个显示交换信息方案的例子。 我们将第三阶段划分为几个(例如3个)交换块,每个块由3个并行卷积单元组成,交换单元跨越并行单元,如下所示,
其中Cb sr表示第二阶段中第b个块的第r个分辨率中的卷积单位,而Eb s是相应的交换单位。
我们在图3中说明了交换单元,并在下面给出了公式。 我们删除下标s和上标b以方便讨论。 输入是响应图:{X1,X2,…,Xs}。 输出是响应映射:{Y1,Y2,…,Ys},其分辨率和宽度与输入相同。 每个输出是输入映射的集合,Yk = Ps i = 1a(Xi,k)。 跨阶段的交换单元具有额外的输出映射Ys + 1:Ys + 1 = a(Ys,s + 1)。
函数a(Xi,k)包括从分辨率i到分辨率k的上采样或下采样Xi。我们采用跨步的3×3卷积进行下采样。例如,对于2×下采样,采用3×3卷积进行2×2进行2×3进行2×3 3次卷积,对于4×采样采用步幅2进行2次连续步进3×3卷积。对于上采样,我们采用1×1卷积后的简单最近邻采样来对齐通道数。如果i = k,则(·,·)只是一个识别连接:a(Xi,k)= Xi。热图估计。我们简单地从最后一个交换单元输出的高分辨率表示中回归热图,这在经验上很有效。损失函数,定义为均方误差,用于比较预测的热图和地面热图。通过在每个关键点的grouptruth位置上应用具有1像素中心标准偏差的2D高斯来生成地面热量。网络实例化。我们通过遵循ResNet的设计规则来实例化关键点热图估计的网络工作,以便将每个分支的深度和数量分配到每个分辨率。主体,即我们的HRNet,包含四个具有四个并行子网的级,其分辨率逐渐降低到一半,并且宽度(通道数)增加到两倍。第一阶段包含4个剩余单元,其中每个单元(与ResNet-50相同)由宽带64形成,并且随后通过3×3卷积将特征映射的宽度减小到C.第2,第3,第4阶段分别包含1,4,3个交换块。一个交换块包含4个剩余单元,其中每个单元包含两个3×3卷积分解和交叉分辨率。总之,总共有8个交换单元,即进行了8次多尺度融合。在我们的实验中,我们研究了一个小网和一个大网:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段中高分辨率子网的宽度(C)。 HRNet-W32的其他三个并行子网的宽度为64,128,256,HRNet-W48的宽度为96,192,384。
数据集。 COCO数据集[36]包含超过200,000个图像和250个用17个关键点标记的人物实例。 我们在COCO train2017数据集上训练我们的模型,包括57K图像和150K人物实例。 我们在val2017 set和test-dev2017集合上评估我们的方法,分别包含5000个图像和20K图像。 评估指标。 标准评估度量基于对象关键点相似度(OKS):OKS =
这里di是检测到的关键点和相应的地面实况之间的欧几里德距离,vi是地面实况的可见性,s是对象尺度,ki是控制衰减的每个关键点常数。 我们报告标准平均精度和召回分数1:AP50(AP在OKS = 0.50)AP75,AP(AP分数在10个位置的平均值,OKS = 0.50,0.55,…,0.90,0.95; APM形成对象,APL为 大型物体,在OKS = 0.50,0.55,…,0.90,0.955的AR。
训练。我们将人体检测盒的高度或宽度扩展为固定的宽高比:高度:宽度= 4:3,然后从图像中裁剪框,将尺寸调整为固定尺寸,256×192或384×288。数据增强包括随机旋转([-45°,45°]),随机比例([0.65,1.35])和浮动。在[68]之后,还涉及半身数据增加。我们使用Adam优化器[32]。学习计划遵循设置[72]。基础学习率设定为1e-3,并且分别在第170和第200个时期下降到1e-4和1e-5。培训过程在210个时期内终止。测试。使用类似于[47,11,72]的两阶段自上而下的范例:使用人物检测器检测人物实例,然后预测检测关键点。我们使用SimpleBaseline2 [72]提供的同一个人检测器来验证集和测试开发集。按照惯例[72,40,11],我们通过平均原始图像和浮动图像的头图来计算热图。每个关键点位置是通过调整从最高响应到第二高响应的方向调整最高值的位置来预测的。验证集上的结果。我们报告了方法的结果和表1中的其他最先进的方法。我们的小型网络 - HRNet-W32,从头开始训练,输入大小为256×192,达到73.4 AP分数,优于其他方法相同的输入大小。 (i)与Hourglass [40]相比,我们的小型网络将AP提高了6.5个点,我们网络的GFLOP低得多且不到一半,而参数数量相似,我们的数量略大。 (ii)与CPN [11] w / o和w / OHKM相比,我们的网络具有稍大的模型尺寸和稍高的复杂度,分别获得4.8和4.0点的增益。 (iii)与之前执行的简单基线[72]相比,我们的网络HRNet-W32获得了显着的改进:具有类似模型大小和GFLOP的骨干ResNet-50获得3.0分,而模型大小(#Params)和GLOPs的后端骨神经网络产生了1.4分。是我们的两倍。我们的网络可以从以下方面获得:(i)针对ImageNet分类问题预测的模型训练:HRNet-W32的增益为1.0分; (ii)通过增加宽度来增加容量:我们的大净HRNet-W48分别对输入尺寸256×192和384×288进行了0.7和0.5的改进。考虑到输入尺寸为384×288,我们的HRNet-W32和HRNet-W48得到75.8和76.3 AP,与输入尺寸256×192相比有1.4和1.2的改进。与使用ResNet的SimpleBaseline [72]相比-152作为主干,我们的HRNet-W32和HRNetW48分别以45%和92.4%的计算成本获得1.5和2.0点的增益。 结果在测试中-devset。表2报告了对现有的最先进的方法进行评估的性能。我们的方法不同于自下而上的方法。另一方面,我们的小型网络HRNet-W32实现了74.9的AP。它优于所有其他自上而下的方法,并且在模型化(#Params)和计算复杂性(GFLOPs)方面更有效。我们的大模型HRNet-W48达到了最高75.5 AP。与具有相同输入大小的SimpleBaseline [72]相比,我们的大陆网络分别接受了1.2和1.8的改进。通过AI Challenger [70]的额外数据进行培训,我们的单个大型网络可以获得77.0的AP。
数据集。 MPII人体姿势数据集[2]包含从具有全身姿势注释的各种现实世界活动中获取的图像。 有大约25K图像与40K科目,其中有12K科目用于测试和其他主题的训练对象。 数据增强和训练策略与MS COCO相同,只是输入大小被裁剪为256×256,以便与其他方法进行公平比较。测试。 测试程序几乎与COCO中的测试程序相同,只是我们采用标准测试策略来使用提供的人员箱而不是检测到的人员箱。 在[14,77,62]之后,进行六级金字塔测试程序。
评估指标。 使用标准度量[2],PCKh(正确关键点的头标准化概率)得分。 如果一个关节落在地面位置的α1像素内,则该关节是正确的,其中α是isaconstant,而l是头部尺寸,其对应于地面 - 真实边界框的对角线长度的60%。 报告了[email protected](α= 0.5)分数。
测试集上的结果。 表3和表4显示了[email protected]结果,模型大小和最佳执行方法的GFLOP。 我们使用ResNet-152作为骨干,重新实现了SimpleBaseline [72],输入大小为256×256。我们的HRNet-W32获得了92.3 [email protected]分,并且优于堆叠沙漏方法[40]及其扩展[58, 14,77,31,62]。 我们的结果是迄今为止在20183年11月16日的排行榜上发表的结果[62]。我们想指出的是,与我们的方法相辅相成的方法[62]利用构成模型容忍人体的配置并采用多级中间监督,我们的方法也可以从中受益。。 我们还测试了我们的大型网络 - HRNetW48并获得了相同的结果92.3。 原因可能是此数据集中的性能趋于饱和。
数据集。 PoseTrack [28]是人类姿势估计和视频中关节跟踪的大规模基准。该数据集基于流行的MPII Human Pose数据集提供的原始视频,包含550个视频序列和66,374帧。视频序列分为292,50,208个视频,分别用于培训,验证和测试。 41-151帧之间的训练视频范围的长度和来自视频中心的30帧被密集注释。验证/测试视频中的帧数介于65到298帧之间。来自MPII Pose数据集的关键帧周围的30帧被密集注释,然后每四帧被注释。总的来说,这构成了大约23,000个标记帧和153,615个构造注释。
评估指标。我们从两个方面评估结果:逐帧多人姿势估计和多人姿势跟踪。姿势估计通过平均精度(mAP)评估,如[51,28]中所做。通过多目标跟踪精度(MOTA)评估多人姿势跟踪[38,28]。详情见[28]。训练。我们在PoseTrack2017训练集上训练我们的HRNet-W48用于单人姿势估计,其中网络由在COCO数据集上预训练的模型初始化。我们通过将所有关键点(对于一个单人)的边界框扩展15%的长度,从训练框架中的注释关键点提取人员框,作为我们网络的输入。除了学习计划不同(现在用于微调)之外,训练设置(包括数据处理)至少属于COCO:学习率从1e-4开始,在第10个时期下降到1e-5,在15th时下降到1e-6时代;迭代在20个时期内结束。
测试。我们按照[72]跟踪帧的姿势。它包括三个步骤:人箱检测和传播,人体姿势估计和姿势关联交叉邻近帧。我们在简单的基线[72]中使用同一个人盒检测器,并通过根据由FlowNet2.0 [26] 4计算的光学流量传播预测的关键点,将检测到的盒子传播到附近的帧,然后对盒子移除进行非最大抑制。姿势关联方案基于一帧中的关键点与根据光流从附近帧传播的关键点之间的对象关键点相似性。然后使用贪婪匹配算法来计算附近帧中的关键点之间的对应关系。更多细节见[72]。 PoseTrack2017测试集的结果。表5报告了结果。我们的大型网络 - HRNet-W48取得了优异的成绩,74.9分钟的得分和57.9分的MOTA分数。与使用ResNet-152作为主干的SimpleBaseline [72]中的FlowTrack相比,我们的方法分别在mAP和MOTA方面获得0.3和0.1点增益。 FlowTrack [72]的优势与COCO关键点检测和MPII人体姿态估计数据集的优势一致。这进一步暗示了我们的姿势估计网络的有效性。
图4.MPII(顶部)和CSO(底部)数据集中的一些示例性图像的定性结果:包含视图和外观变化,遮挡,多个人和常见的成像伪像。
图5.关于低速表示的相关研究。 1×,2×,4×分别对应于高,中,低分辨率的表示。
图6.说明我们的HRNet和SimpleBaseline [72]的性能如何受输入大小的影响。
我们研究了我们的方法中每个组件对COCO关键点检测数据集的影响。除了关于输入大小的影响的研究之外,所有结果都是在256×192的输入大小上获得的。反复多尺度融合。我们凭经验分析了重复多尺度融合的效果。我们研究了三种网络变体。 (a)W / o中间交换单元(1个融合):除最后一个交换单元外,多分辨率子网之间没有交换。 (b)仅W /跨阶段交换单元(3个融合):每个阶段内并行子网之间没有交换。 (c)W /跨阶段和阶段内交换单元(共8个融合):这是我们提出的方法。所有网络都是从头开始训练的。表6中给出的COCO验证集的结果表明,多尺度融合是有帮助的,更多的融合导致更好的性能。
分辨率维护。我们研究了HRNet变体的性能:所有四个高到低分辨率子网都在开头添加,深度相同;融合方案与我们的相同。我们的HRNet-W32和变体(具有类似的#Params和GFLOP)都是从头开始训练并在COCO验证集上进行测试。该变体实现了72.5的AP,低于我们的小型网HRNet-W32的73.4 AP。我们认为原因是从低分辨率子网上的早期阶段提取的低级功能不太有用。此外,没有低分辨率并行子网的类似参数和计算复杂度的简单高分辨率网络表现出低得多的性能。表示决议。我们从两个方面研究表示分辨率如何影响姿态估计性能:检查从每个分辨率的特征图估计的热图的质量从高到低,并研究输入大小如何影响质量。
我们训练我们的小型和大型网络,这些网络由为ImageNet分类预训练的模型初始化。我们的网络从高到低的解决方案输出四个响应图。最低分辨率响应图上的热图预测质量太低,AP分数低于10分。图5中报告了其他三个地图的AP分数。比较意味着分辨率确实影响了关键点预测质量。图6显示了与SimpleBaseline(ResNet50)相比,输入图像大小如何影响性能[72]。我们可以发现,对于较小的输入主义信号的改进可以很大,例如,对于256×192,改进为4.0分,对于128×96,改善为6.3分。原因是我们在整个过程中保持高分辨率。这意味着我们的方法在实际应用中更有利,其中计算成本也是一个重要因素。另一方面,输入大小为256×192的表现优于SimpleBaseline [72],输入大小为384×288。
在本文中,我们提出了一个用于人体姿态估计的高分辨率网络,产生精确和空间精确的关键点热图。 成功源于两个方面:(i)在整个过程中保持高分辨率,而无需恢复高分辨率; (ii)重复融合多分辨率表示,提供可靠的高分辨率表示。 未来的工作包括应用于其他密集预测任务,例如语义分割,对象检测,面部对齐,图像转换,以及以较轻的方式聚合多分辨率表示的研究。 所有这些都可以在https:// jingdongwang2017获得。github.io/Projects/HRNet/index.html。
MPII验证集上的结果
我们在MPII验证集[2]上提供结果。 我们的模型在MPII训练集的子集上进行训练,并在2975个图像的保持验证集上进行评估。 训练程序与整个MPII训练集的训练程序相同。 热图计算为原始图像和用于测试的图像的平均热图。 在[77,62]之后,我们还进行了六级金字塔测试程序(多尺度测试)。 结果如表7所示。
Pose Track数据集上的更多结果
我们为PoseTrack数据集[1]上的所有关键点提供结果。 表8显示了PoseTrack2017数据集上的多人姿势估计性能。 我们的HRNet-W48达到了77.3和74.9个点,而不是验证和测试设置,并且分别优于先前的最先进方法[72] 0.6分和0.3分。 我们在PoseTrack2017测试装置上提供了更多详细的多人姿势跟踪性能结果,作为报告结果的补充,如表9所示。
ImageNet验证集上的结果
我们将网络应用于图像分类任务。 模型在ImageNet 2013分类数据集[54]上进行训练和评估。 我们训练我们的模型为100个时期,批量大小为256.初始学习率设置为0.1,并在30,60和90纪元减少10倍。我们的模型可以实现与专为图像分类专门设计的网络相当的性能 ,如ResNet [22]。 我们的HRNet-W32具有单个模型 - 5个验证错误率为6.5%,而单个模型的顶级1个验证错误率为22.7%,具有单个裁剪测试。 我们的HRNet-W48获得了更好的性能:6.1%的前5个错误和22.1%的前1个错误。 我们使用在ImageNet数据集上训练的模型来初步确定目标估计网络的参数。致谢。 作者感谢Dianqi Li和Lei Zhang的有益讨论。
表8. PoseTrack2017数据集上的多人姿势估计性能(MAP)。 “*”表示在列车+有效集上训练的模型