在这篇论文中,我们感兴趣的是人类姿态估计问题,重点是学习可靠的高分辨率表示。大多数现有的方法从高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。
我们从一个高分辨率的子网作为第一个阶段开始,逐步增加高分辨率到低分辨率的子网,一个接一个的形成更多的阶段,并将多分辨率的子网并行连接。我们进行重复的多尺度融合,使得每一个高分辨率到低分辨率的表示法一次又一次地从其他并行表示法接收信息,从而得到丰富的高分辨率表示法。因此,预测的关键点热图可能更精确,在空间上也更精确。通过ccokeypoint检测数据集和MPII人体姿态数据集的优势姿态估计结果,验证了该网络的有效性。此外,我们还展示了我们的网络在PoseTrackdataset上进行姿态跟踪的优越性。
二维人体姿态估计一直是计算机视觉领域中一个基本而又具有挑战性的问题。目标是定位人体解剖关键点(如肘部、腕部等)或部位。它有许多应用,包括人类动作识别、人机交互、动画等。本文感兴趣的是单人姿态估计,这是其他相关问题的基础,如多人姿态估计[6,27,33,39,47,57,41,46,17,71],视频姿态估计与跟踪[49,72]等。
图1.说明所提议的HRNet架构。它由并行的高分辨率到低分辨率子网组成,在多分辨率子网之间进行重复的信息交换(多尺度融合)。水平方向和垂直方向分别对应于网络的深度和特征图的宽度。
近年来的研究表明,深度卷积神经网络已经达到了最先进的性能。大多数现有的方法都是通过网络来传递输入,通常是将高分辨率到低分辨率的子网络串联起来,然后提高分辨率。例如,Hourglass [40]通过从低到高的对称过程恢复高分辨率。SimpleBaseline[72]采用几个转置卷积层来生成高分辨率的表示。此外,膨胀卷积还用于放大高分辨率到低分辨率网络(如VGGNet或ResNet)的后几层[27,77]。
我们提出了一种新的体系结构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率的表示。我们从一个高分辨率的子网作为第一个阶段开始,逐步增加高分辨率到低分辨率的子网,一个接一个形成更多的阶段,并将多分辨率的子网并行连接。在整个过程中,我们通过在并行的多分辨率子网之间反复交换信息,进行多尺度融合。我们估计通过网络输出的高分辨率表示的关键点。得到的网络如图1所示。
典型的姿态估计网络依赖于高到低和低到高的框架。(a)沙漏型网络40级联金字塔网络11简单基线网络[72]:转置卷积用于低到高的处理(d)结合扩张的卷积[27]。右下方图例:reg.=普通卷积。dilated=扩张的卷积,trans.=转置卷积。strided=跨度卷积。concat=联接。a)中,高到低和低到高的过程是对称的。在(b)、©和(d)中,分类网络(ResNet或VGGNet)的一部分high-to-low过程是重的,而low-to-high过程是轻的。在(a)和(b)中,high-to-low和low-to-high进程的相同分辨率层之间的跳转连接(虚线)主要是为了融合低层和高层特性。在(b)中,右边的refinenet部分结合了通过卷积处理的低层和高层特性。
与现有广泛使用的网络相比,我们的网络在姿态估计方面有两个优势[40,27,77,72]。(i)我们的方法是并行连接高分辨率和低分辨率子网,而不是像大多数现有解决方案那样串联。因此,我们的方法能够保持高分辨率,而不是通过从低到高的过程恢复分辨率,因此预测的热图在空间上可能更精确。(ii)大多数现有的融合方案聚合了低层和高层表示。相反,我们采用重复多尺度融合的方法,利用相同深度和相似水平的低分辨率表示来增强高分辨率表示,反之亦然,因此高分辨率表示对于姿态估计也具有丰富的内容。因此,我们预测的热图可能更准确。
我们通过实验证明了在两个基准数据集:COCO keypoint detection dataset[36]和MPII Human Pose dataset[2]上,keypoint检测性能优越。此外,我们在PoseTrack数据集[1]上展示了我们的网络在视频姿态跟踪方面的优势。
传统的单人姿态估计方法大多采用概率图模型或图像结构模型[79,50],近年来利用深度学习对一元和成对能量进行更好的建模[9,65,45],或模仿迭代推理过程[13],对其进行了改进。目前,deep convolutional neural network成为了主要的解决方案[20,35,62,42,43,48,58,16]。主流方法有两种:回归关键点位置[66,7],估算关键点热图[13,14,78],然后选择热值最高的位置作为关键点。
用于关键点热图估计的大多数卷积神经网络包括类似于分类网络的a stem子网,其降低分辨率,主体产生具有与其输入相同分辨率的表示,随后是回归器估计关键点位置的热图。 然后在全分辨率变换。 主体主要采用从高到低,从低到高的框架,并可能辅以多尺度融合和中间(深)监督。
High-to-low and low-to-high.
从高到低的过程旨在产生低分辨率和高水平的表示,而从低到高的过程旨在产生高分辨率表示[4,11,23,72,40,62]。 这两个过程都可能重复几次以提高性能[77,40,14]。
典型的网络设计模式包括:(i)对称的高到低和低到高过程。Hourglass及其后续研究[40,14,77,31]将从低到高的过程设计为高到低过程的对称结构。(ii)重的高到低过程,轻的低到高过程。high-to-low过程是基于ImageNet分类网络,如[11,72]中采用的ResNet, low-to-high过程只是简单地对11]进行双线性上采样或转置卷积[72]层。(iii)与扩张的卷积相结合。在[27,51,35]中,为了消除空间分辨率损失,在ResNet或VGGNet的后两个阶段采用了膨胀卷积,然后通过一个轻的由低到高的过程进一步提高分辨率,避免了仅使用膨胀卷积的昂贵计算成本[11,27,51]。图2描述了四个具有代表性的姿态估计网络。
多尺度融合
最直接的方法是将多分辨率图像分别输入多个网络并聚合输出响应图[64]。Hourglass [40]及其扩展[77,31]通过跳过连接将从高到低的过程中的低级特征与从低到高的过程中的相同分辨率的高级特征逐步结合起来。在级联金字塔网络[11]中,globalnet将高到低过程中的低到高特征逐步组合到低到高过程中,然后finenet将经过卷积处理的低到高特征组合到一起。我们的方法重复了多尺度融合,部分灵感来自深度融合及其扩展[67,73,59,80,82]。
中间的监督
中间监督或深度监督是早期为图像分类而开发的[34,61],也用于帮助深度网络训练和提高热图估计质量,如[69,40,64,3,11]。hourglass方法[40]和卷积姿态机的方法[69]处理中间热图作为输入或其余子网的输入的一部分。
我们的方法
我们的方法。 我们的网络并行连接从高到低的子网。 它在整个过程中保持高分辨率表示,以进行空间精确的热图估计。 它通过重复融合由高到低子网络产生的表示来生成可靠的高分辨率表示。 我们的方法与大多数现有工作不同,后者需要单独的从低到高的上采样过程并聚合低层和高层表示。 我们的方法,无需使用中间热图监测,在关键点检测精度和计算复杂性和参数的有效性方面具有优势。
有相关的多尺度网络用于分类和分割[5,8,74,81,30,76,55,55,56,24,83,55,52,18]。
我们的工作部分地受到其中一些因素的启发[56、24、83、55],这些明显的差异使它们不适用于我们的问题。卷积神经网络[56]和相互连接的CNN[83]由于缺乏对每个子网(深度、批量归一化)和多尺度融合的合理设计,无法产生高质量的分割结果。网格网络[18]是许多权重共享U-Nets的组合,由跨多分辨率表示的两个独立融合过程组成:在第一阶段,信息仅从高分辨率发送到低分辨率; 在第二阶段,信息仅从低分辨率发送到高分辨率,因此竞争力较弱。多尺度的密集网络[24]不针对于目标,也无法生成可靠的高分辨率表示。
人体姿势估计(又称关键点检测)旨在从尺寸为WH3的图像I中检测K个关键点或部位(例如,肘部,手腕等)的位置。最先进的方法将此问题转换为估计 K个大小为W’H’,的热图{H1,H2,…,HK},其中每个热图Hk表示第k个关键点的位置置信度。
我们遵循广泛采用的管道[40,72,11]来使用卷积网络来预测人类关键点,卷积网络由一个由两个跨度卷积组成的词干组成,降低了分辨率,主体输出特征图和它的输入特征图具有相同的分辨率, 并且使用回归预测热图中被选择的关键点位置且将热图转换为全分辨率。 我们将重点放在主体的设计上,并介绍我们的高分辨率网络(HRNet),如图1所示。
连续多分辨率子网
现有的位姿估计网络是通过串联高分辨率和低分辨率的子网络来构建的,每个子网络形成一个阶段,由一系列卷积组成,相邻的子网络之间有一个下采样层,将分辨率减半。
设N_sr为某一个阶段的子网,r为分辨率指数(其分辨率为第一个子网分辨率的(1⁄2^(r-1) ))。S(如4)级的高-低网络表示为:
并行多分辨率子网
我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率的子网,形成新的阶段,并且并行连接多分辨率子网。 因此,下一阶段并行子网的分辨率包括前一阶段的分辨率和一个更低的分辨率。
包含一个包括4个并行子网的网络结构实例如下:
说明交换单元如何分别从左到右聚合高,中和低分辨率的信息。右图例:strided33=strided33 convolution,up samp.11=1×1卷积后的最近邻上采样。
重复多尺度融合
我们在并行子网之间引入交换单元,以便每个子网重复地接收来自其他并行子网的信息。下面是一个展示信息交换方案的例子。我们将第三阶段划分为几个交换块(如3个),每个交换块由3个并行卷积单元组成,每个交换单元由一个交换单元跨越并行单元组成,具体如下:
式中C_srb为第s阶段中第b个块的第r分辨率的卷积单元,ε_sb为对应的交换单元。
我们在图3中说明了交换单元,并在下面给出了公式。 我们省略下标s和上标b以方便讨论。 输入是响应图:{X1,X2,…,Xs}。 输出是响应图:{Y1,Y2,…,Ys},其分辨率和宽度与输入相同。 每个输出是输入映射的集合,Y_k=∑_(i=1)^s▒〖a(X_i,k)〗。 跨阶段的交换单元具有额外的输出映射Y_(s+1)=a(Y_s,s+1)。
函数a(X_i,k)包括从分辨率i到分辨率k的上采样或下采样Xi。 我们采用跨步的3×3卷积进行下采样。 例如,一个跨步3×3卷积,步幅2用于2倍下采样,两个连续跨步3×3卷积,步幅2用于4倍下采样。 对于上采样,我们采用简单的最近邻采样1×1卷积,来对齐通道数。 如果i=k,则a(∙,∙)只是一个标识连接:a(X_i,k)=X_i。
热图估计
我们仅从最后一个交换单元输出的高分辨率表示返回热图,这在经验上运行得很好。将损失函数定义为均方误差,应用于预测的热图与groundtruth heatmaps的比较。利用二维高斯函数,以groundtruth heatmaps每个关键点的位置为中心,以1个像素的标准差为中心,生成groundtruth heatmaps。
网络实例化
我们通过遵循ResNet的设计规则来实例化关键点热图估计的网络,以将深度分布到每个阶段,将通道数分布到每个分辨率。
主体,即我们的HRNet,包含四个阶段,四个并行的子网,其分辨率逐渐降低到一半,因此相应的宽度(通道的数量)增加到原来的两倍。第一个阶段包含4个剩余单元,每个单元(与ResNet-50相同),由一个宽度为64的瓶颈形成,然后进行一个3×3的卷积,将feature map的宽度减小到c。第2、3、4个阶段分别包含1、4、3个交换块。一个交换块包含4个剩余单元,其中每个单元在每个分辨率中包含两个3×3的卷积和一个跨分辨率的交换单元。综上所述,共有8个交换单元,即,进行了8次多尺度融合。
在我们的实验中,我们研究了一个小网络和一个大网络:HRNet-W32和HRNet-W48,其中32和48分别代表最后三个阶段中高分辨率子网的宽度(C)。 HRNet-W32的其他三个并行子网的宽度为64,128,256,HRNet-W48的宽度为96,192,384。
数据集
COCO数据集[36]包含超过200,000张图像和250,000个带有17个关键点的person实例。我们在COCO train2017数据集上训练我们的模型,包括57K张图片和150K个人物实例。我们在val2017集和test-dev2017集上评估了我们的方法,这两个集分别包含5000张图片和20K张图片。
评价指标。 标准评价指标基于对象关键点相似度(OKS):。 这里d_i是检测到的关键点和对应的ground truth之间的欧式距离,v_i是ground truth的可见性,s是对象尺度,k_i是控制衰减的每个关键点常数。 我们报告了标准平均精度和召回分数:AP50(AP在OKS = 0.50时的AP值)AP75,AP(在10个位置的AP值的平均值,OKS = 0.50,0.55,…,0.90,0.95; APM用于中型对象,APL用于大型对象,而AR在OKS = 0.50,0.55,…,0.90,0.955时的AP值。
训练
我们将人体检测盒的高宽比扩展到固定的长宽比:高:宽= 4:3,然后从图像中裁剪框,将尺寸调整为固定尺寸,256×192或384×288。 数据增强包括随机旋转([-45°,45°]),随机比例([0.65,1.35])和翻转。 在[68]之后,还涉及半身数据增强。
表1. COCO验证集的比较。 Pretrain =预先训练ImageNet分类任务的主干。 OHKM =在线硬关键点挖掘[11]。
表2. COCO测试开发集的比较。 #Params和FLOP是针对姿势估计网络计算的,而用于人体检测和关键点分组的比较则不包括在内。
我们使用Adam优化器[32]。学习进度按照设定[72]。基础学习率设置为1e−3,分别在第170和200个epochs下降到1e−4和1e−5。训练过程在210个epochs内终止。
测试。 使用类似于[47,11,72]的两阶段自上而下的范例:使用人物检测器检测人物实例,然后预测检测关键点。
我们对验证集和测试开发集使用SimpleBaseline2[72]提供的相同的人物检测器。按照常见的做法[72,40,11],我们通过对原始图像和翻转图像的头图求平均值来计算热图。每个关键点的位置是通过调整最高热值的位置,并在从最高响应到第二高响应的方向上偏移四分之一来预测的。
验证集上的结果
我们在表1中报告了我们的方法和其他最新方法的结果。我们的小型网络HRNet-W32,以256×192的输入大小从零开始训练,获得了73.4的AP分数,优于其他相同输入大小的方法。(i)与沙漏[40]相比,我们的小网络提高了AP的6.5分,我们网络的GFLOPs要低得多,不到一半,而我们的参数数量相近,我们的略大一些。(ii)与CPN [11] w/o和w/ OHKM相比,我们的网络模型尺寸略大,复杂度略高,分别获得4.8和4.0分的增益。(iii)与之前性能最好的SimoleBaseline相比[72],我们的小型网络HRNet-W32获得了显著的改进:模型大小和GFLOP相似的ResNet-50获得3.0分,模型大小(#Params)和GLOPs是我们的两倍的ResNet152获得1.4分。
我们的网络可以从(i)针对ImageNet分类问题预训练的模型中进行训练:HRNet-W32的增益为1.0分; (ii)通过增加宽度来增加容量:我们的大网络在输入尺寸256×192和384×288上分别得到了0.7和0.5的提高。
考虑到输入尺寸384×288,我们的HRNet-W32和HRNet-W48得到了75.8和76.3的AP,与输入尺寸256×192相比有了1.4和1.2的提高。与以ResNet-152为骨干的SimpleBaseline[72]相比,我们的HRNet-W32和HRNetW48在AP方面分别获得1.5和2.0分,计算成本分别为45%和92.4%。
数据集
MPII人体姿势数据集[2]包含从具有全身姿势注释的各种现实世界活动中获取的图像。大约有25K张图像包含40K个对象,其中有12K个对象用于测试和训练集的主要对象。 数据增强和训练策略与MS COCO相同,只是输入大小被裁剪为256×256,以便与其他方法进行公平比较。
测试。测试过程与COCO中的测试过程几乎相同,只是我们采用了标准的测试策略,使用提供的人员框而不是检测到的人员框。在[14,77,62]之后,进行了六尺度金字塔测试程序。
表3. MPII测试集的性能比较([email protected])。
评价指标
使用标准度量[2],即PCKh(正确关键点的头部归一化概率)得分。如果关节落在地面位置的α1像素内,则关节是正确的,其中α是常数,l是与地面实况边界框的对角线长度的60%相对应的头部尺寸。 报告[email protected](α= 0.5)分数。
测试集上的结果
表3和表4显示了[email protected]结果、模型大小和最优执行方法的GFLOPs。我们使用ResNet-152作为骨干,输入大小为256×256,重新实现了SimpleBaseline[72]。我们的HRNet-W32实现了92.3 [email protected]的评分,并优于堆叠沙漏方法[40]及其扩展[58、14、77、31、62]。我们的结果与之前在2018年11月16日排行榜上公布的结果中最好的结果一致[62]。我们想指出的是,该方法[62]是对我们的方法的补充,利用组合模型来学习人体的构造,采用多层次的中间监督,我们的方法也可以从中受益。我们还测试了我们的大网络HRNetW48,得到了相同的结果92.3。原因可能是这个数据集中的性能趋于饱和。
PoseTrack[28]是视频中用于人体姿态估计和关节跟踪的大规模基准。该数据集基于流行的MPII人体姿态数据集提供的原始视频,包含550个视频序列,共66374帧。视频序列分为292、50、208个视频,分别用于训练、验证和测试。训练视频的长度在41 - 151帧之间,从视频中心开始的30帧之间有密集的注释。验证/测试视频的帧数在65 - 298帧之间。MPII Pose数据集中的关键帧周围的30帧被密集地注释,然后每四帧被注释一次。总共约有23,000个带标签的帧和153,615个摆姿注释。
表4.表3中报告了一些性能最好的方法的#Params和GFLOPs。计算GFLOPs的输入尺寸为256×256。
评价指标
我们从两方面对结果进行了评估:帧间多姿态估计和多姿态跟踪。姿态估计是通过平均精度(mAP)来评估的,如[51,28]所做。多目标跟踪精度(MOTA)是多目标姿态跟踪的评价指标[38,28]。详情见[28]。
训练
我们在PoseTrack2017训练集上训练HRNet-W48进行单人姿态估计,其中网络由COCO数据集上预训练的模型初始化。我们将person框作为网络的输入从训练帧中的带注释的关键点中提取出来,方法是将所有关键点(对于一个人)的边界框扩展15%。训练设置,包括数据增强,几乎与COCO相同,只是学习进度不同(就像现在的微调一样):学习率从1e - 4开始,在第10个epoch下降到1e - 5,在第15个epoch下降到1e - 6;迭代在20个epochs内结束。
测试
我们跟随[72]来跟踪帧间的姿势。它由三个步骤组成:人体姿态检测与传播、人体姿态估计和姿态关联交叉附近的帧。我们使用与SimpleBaseline相同的person box检测器[72],根据FlowNet2.0[26]计算的光流传播预测的关键点,将检测到的box传播到附近的帧中,然后对box进行非最大抑制去除。姿态关联方案是基于一帧内的关键点与根据光流从邻近帧传播的关键点之间的目标关键点相似性。然后利用贪婪匹配算法计算相邻帧中关键点之间的对应关系。更多细节见[72]。
表5. PoseTrack2017测试装置上的姿势跟踪结果。
表6.用于重复多尺度融合的交换单元的相关研究。跨越交换=跨阶段的中间交换,Int。 内部交换=阶段内的中间交换。
PoseTrack2017测试集的结果。表5给出了结果。我们的大网络- HRNet-W48取得了更好的成绩,74.9的地图评分和57.9的MOTA评分。与第二好的方法SimpleBaseline中以ResNet-152为骨干的FlowTrack[72]相比,我们的方法在mAP和MOTA方面分别获得了0.3和0.1分的增益。相对于FlowTrack[72]的优势与COCO关键点检测和MPII人体姿态估计数据集的优势是一致的。这进一步说明了我们的姿态估计网络的有效性。
我们研究了我们的方法中每个组件对COCO关键点检测数据集的影响。除对输入尺寸影响的研究外,所有结果均在256×192的输入尺寸下得到。
重复多尺度融合
对重复多尺度融合的效果进行了实证分析。我们研究了网络的三种变体:(a) W/o中间交换单元(1融合):除最后一个交换单元外,多分辨率子网之间没有交换。(b) W/跨级交换单元(3个融合):每个阶段内并行子网之间没有交换。©跨阶段和阶段内交换单元(共8个融合):这是我们提出的方法。所有的网络都是从零开始训练的。表6给出的COCO验证集的结果表明,多尺度融合是有帮助的,融合越多,性能越好。
图4.MPII(上)和COCO(下)数据集中一些示例图像的定性结果:包含视图和外观变化、遮挡、多人以及常见的人工成像。
图5.高低表示的相关研究。 1×,2×,4×分别对应于高,中,低分辨率的表示。
图6.说明我们的HRNet和SimpleBaseline [72]的性能如何受输入大小的影响。
分辨率保持
我们研究了HRNet的一种变体的性能:所有四个高分辨率到低分辨率的子网都是在开始时添加的,而且深度相同;融合方案与我们的相同。我们的HRNet-W32和变体(具有类似的#Params和GFLOPs)都是从零开始训练,并在COCO验证集上进行测试。该变体实现了72.5的AP,低于我们的小型网HRNet-W32的73.4 AP。我们认为,其原因是在低分辨率子网的早期阶段提取的低层特征没有那么有用。此外,在没有低分辨率并行子网的情况下,参数和计算复杂度相似的简单高分辨率网络的性能要低得多。
分辨率表示
我们从两个方面研究了表示分辨率对姿态估计性能的影响:从高到低检查每个分辨率的特征图估计的热图的质量,以及输入大小对质量的影响。
我们训练我们的小型和大型网络,这些网络由为ImageNet分类预训练的模型初始化。我们的网络从高到低输出四个响应图。最低分辨率响应图的热图预测质量过低,AP评分低于10分。图5报告了AP在其他三个地图上的得分。对比表明,分辨率对关键点预测质量有一定的影响。
图6显示了与SimpleBaseline (ResNet50)相比,输入图像大小如何影响性能[72]。我们可以发现,较小的输入尺寸的改进比较大的输入尺寸的改进更为显著,例如256×192的改进为4.0分,128×96的改进为6.3分。原因是我们在整个过程中始终保持高分辨率。这意味着我们的方法在实际应用中更有优势,其中计算成本也是一个重要因素。另一方面,我们的方法在输入大小为256×192时的性能优于输入大小为384×288时的SimpleBaseline[72]。
本文提出了一种用于人体姿态估计的高分辨率网络,得到了精确和空间精确的关键点热图。成功的原因有两个方面:(1)全程保持高分辨率,而无需恢复高分辨率;(二)重复融合多分辨率表示,提供可靠的高分辨率表示。
未来的工作包括应用于其他密集的预测任务,如语义分割、目标检测、人脸对齐、图像翻译,以及以较轻的方式聚合多分辨率表示的研究。所有这些都可以在https://jingdongwang2017.github.io/Projects/HRNet/index.html上找到
MPII验证集上的结果
我们提供了关于MPII验证集[2]的结果。我们的模型在MPII训练集的子集上进行训练,并在2975幅图像的保持验证集上进行评估。训练过程与整个MPII训练集的训练过程相同,热图计算为原始图像和翻转图像热图的平均值,用于测试。在[77,62]之后,我们还进行了六级金字塔测试(多尺度测试)。结果如表7所示。
PoseTrack数据集上的更多结果
我们提供了PoseTrack数据集[1]上所有关键点的结果。表8显示了PoseTrack2017数据集中的多人姿态估计性能。我们的HRNet-W48在验证集和测试集上的mAP分别达到77.3和74.9分,比之前的最先进的方法[72]分别高出0.6和0.3分。我们在PoseTrack2017测试集中提供了更详细的多人姿态跟踪性能结果,作为本文报告结果的补充,如表9所示。
表7. MPII验证集的性能比较([email protected])。
表8所示。PoseTrack2017数据集上的多人姿态估计性能(MAP)。“”表示在训练和验证集合训练的模型。
表9. PoseTrack2017测试集上的多人姿势跟踪性能(MOTA)。“”表示在列车+验证集上训练的模型。
ImageNet验证集上的结果
我们将网络应用于图像分类任务。 模型在ImageNet 2013分类数据集[54]上进行训练和评估。 我们训练我们的模型为100个epochs,批量大小为256。初始学习率设置为0.1,并在epoch 30、60和90时减少10倍。我们的模型可以达到与专为图像分类而设计的网络(如ResNet[22])类似的性能。我们的HRNet-W32单模型前5位验证误差为6.5%,单模型前1位验证误差为22.7%。我们的HRNet-W48获得了更好的性能:6.1%的前5个错误和22.1%的前1个错误。 我们使用在ImageNet数据集上训练的模型来初始化我们的姿势估计网络的参数。
致谢
作者感谢李殿琦和张磊的有益讨论。