【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition

Deep High-Resolution Representation Learning for Visual Recognition

用于视觉识别的深度高分辨率表示学习


文章地址:https://arxiv.org/abs/1908.07919
代码地址:https://github.com/HRNet


摘要

  高分辨率表示对于位置敏感视觉问题至关重要,如人体姿态估计、语义分割和目标检测。现有的现有技术框架首先通过子网络将输入图像编码为低分辨率表征,该子网络通过串联连接高到低分辨率卷积(例如,ResNet、VGGNet)而形成,然后从编码的低分辨率表征恢复高分辨率表征。相反,我们提出的网络称为高分辨率网络(HRNet),在整个过程中保持高分辨率表征。有两个关键特征:(i)并行连接高分辨率到低分辨率卷积流;(ii)跨决议反复交换信息。其好处是,生成的表示在语义上更丰富,在空间上更精确。我们展示了所提出的HRNet在广泛应用中的优越性,包括人体姿态估计、语义分割和对象检测,这表明HRNet是计算机视觉问题的强大支柱。所有代码可在以下网址获得:https://github.com/HRNet
  索引项–HRNet、高分辨率表示、低分辨率表示、人体姿态估计、语义分割、对象检测


1导言

  深度卷积神经网络(DCNN)在图像分类、目标检测、语义分割、人体姿态估计等许多计算机视觉任务中取得了最先进的成果。优势在于DCNN能够学习比传统手工制作的表示更丰富的表示。


图1.从低分辨率恢复高分辨率的结构。(a) 低分辨率表示学习子网络(如VGGNet[126]、ResNet[54]),通过串联连接高到低卷积形成。(b) 一种恢复子网络的高分辨率表示,通过串联连接低到高卷积形成。代表性示例包括SegNet[3]、DeconvNet[107]、U-Net[119]和Hourglass[105]、encoder-decoder[112]和SimpleBaseline[152]。

  最近开发的分类网络,包括AlexNet[77]、VGGNet[126]、GoogleNet[133]、ResNet[54]等,遵循LeNet-5[81]的设计规则。该规则如图1(a)所示:逐渐减小特征图的空间大小,将卷积从高分辨率串联到低分辨率,并产生低分辨率表示,然后进一步进行分类处理。

  位置敏感任务需要高分辨率表示,例如语义分割、人体姿态估计和对象检测。先前的现有技术方法采用高分辨率恢复过程,从图1(b)所示的分类或类似分类网络输出的低分辨率表示提高表示分辨率,例如Hourglass[105]、SegNet[3]、DeconvNet[107]、U-Net[119]、SimpleBaseline[152]和encoder-decoder[112]。此外,扩张卷积用于去除一些下采样层,从而产生中等分辨率表示[19]、[181]。

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第1张图片
在这里插入图片描述

图2. 高分辨率网络的一个例子。只说明了主体,茎部(两个跨度-2 3×3的卷积)没有包括在内。一共有四个阶段。第1阶段由高分辨率的卷积组成。第2(3、4)阶段重复两个分辨率(三分辨率、四分辨率)块。详细内容见第3节。

  我们提出了一种新的体系结构,即高分辨率网络(HRNet),它能够在整个过程中保持高分辨率表示。我们从高分辨率卷积流开始,逐步将高分辨率到低分辨率的卷积流逐一添加,并且并行连接多分辨率流。生成的网络由图2所示的几个(本文中为4个)级组成,第n级包含对应于n个分辨率的n个流。我们通过反复交换并行流中的信息来进行重复的多分辨率融合。

  从HRNet中学习的高分辨率表示不仅在语义上强,而且在空间上精确。这来自两个方面。(i) 我们的方法将高分辨率和低分辨率卷积流并行连接,而不是串联连接。因此,我们的方法能够保持高分辨率,而不是从低分辨率恢复高分辨率,因此学习的表示可能在空间上更精确。(ii)大多数现有的融合方案聚合通过对低分辨率表示进行上采样而获得的高分辨率低级别和高级别表示。相反,我们重复多分辨率融合,在低分辨率表示的帮助下提升高分辨率表示,反之亦然。因此,所有高分辨率到低分辨率表示在语义上都很强。

  我们提供了两个版本的HRNet。第一个称为HRNetV1,仅输出从高分辨率卷积流计算的高分辨率表示。我们根据热图估计框架将其应用于人体姿态估计。我们通过经验证明了COCO关键点检测数据集的优越姿态估计性能[94]。

  另一个称为HRNetV2,将所有高分辨率到低分辨率并行流的表示组合起来。我们通过从组合的高分辨率表示中估计分割图,将其应用于语义分割。所提出的方法在PASCAL-Context, Cityscapes,和LIP上实现了最先进的结果,具有相似的模型大小和较低的计算复杂度。我们观察到HRNetV1和HRNetV2在COCO姿态估计上的相似性能,以及HRNetV2与HRNet1在语义分割方面的优势。

  此外,我们从HRNetV2的高分辨率表示输出构建了一个多级表示,命名为HRNetV2p,并将其应用于最先进的检测框架,包括Faster R-CNN, Cascade R-CNN [12], FCOS[136]和CenterNet[36],以及最先进的联合检测和实例分割框架,包括Mask R-CNN[53]、Cascade Mask R-CNN[53],以及Hybrid Task Cascade[16]。结果表明,该方法提高了检测性能,特别是对小目标的检测性能有显著提高。


2.相关工作

  我们从低分辨率表示学习、高分辨率表示恢复和高分辨率表示保持三个方面回顾了主要用于人体姿态估计[57]、语义分割和对象检测的密切相关的表示学习技术。此外,我们还提到了与多尺度融合相关的一些工作。

学习低分辨率表示。全卷积网络方法[99]、[124]通过移除分类网络中的完全连通层来计算低分辨率表示,并估计其粗分割图。通过组合从中低级中分辨率表示估计的精细分割分数图[99],或迭代过程[76],改进了估计的分割图。类似的技术也应用于边缘检测,例如整体边缘检测[157]。

  通过用扩展卷积替换一些(通常为两个)跨步卷积和相关卷积,将全卷积网络扩展到扩展版本,从而得到中分辨率表示[18]、[19]、[86]、[168]、[181]。这些表示通过特征金字塔进一步扩展为多尺度上下文表示[19]、[21]、[181],用于在多尺度分割对象。

恢复高分辨率表示。上采样过程可用于从低分辨率表示中逐渐恢复高分辨率表示。上采样子网络可以是下采样过程的对称版本(例如,VGGNet),跳过一些镜像层上的连接以变换池索引,例如,SegNet[3]和DeconvNet[107],或者复制特征映射,例如,U-Net[119]和沙漏[8]、[9]、[27]、[31]、[68]、[105]、[134]、[163]、[165]、encoder-decoder112]等。U-Net网络的扩展,全分辨率残差网络[114],引入一个额外的全分辨率流,该流以全图像分辨率承载信息,以取代跳过连接,并且下采样和上采样子网络中的每个单元从全分辨率流接收信息并向全分辨率流发送信息。

  不对称上采样过程也被广泛研究。RefineNet[90]改进了上采样表示和从下采样过程复制的相同分辨率表示的组合。其他工作包括:光上采样过程[7]、[24]、[92]、[152],可能在主干[63]、[89]、[113]中使用扩展卷积;轻下采样和重上采样过程[141],重组器网络[55];使用更多或更复杂的卷积单元[64]、[111]、[180]改进跳过连接,以及将信息从低分辨率跳过连接发送到高分辨率跳过连接[189]或在它们之间交换信息[49];研究上采样过程的细节[147];组合多尺度金字塔表示[22]、[154];用密集连接叠加多个去Vnet/unet/Hourglass[44]、[149][135]。

保持高分辨率表示。我们的工作与一些也可以生成高分辨率表示的工作密切相关,例如卷积神经结构[123]、互连CNN[188]、网格网[42]和多尺度Denset[58]。

  卷积神经结构[123]和互连CNN[188]这两项早期工作缺乏关于何时开始低分辨率并行流以及如何和在何处跨并行流交换信息的仔细设计,并且没有使用批量归一化和剩余连接,因此没有显示出令人满意的性能。GridNet[42]类似于多个multiple U-Nets的组合,包括两个对称信息交换阶段:第一阶段仅将信息从高分辨率传递到低分辨率,第二阶段只将信息从低分辨率传递到高分辨率。这限制了其分割质量。 Multi-scale DenseNet[58]无法学习强高分辨率表示,因为没有从低分辨率表示接收到信息。

多尺度融合。多尺度融合得到了广泛研究[11]、[19]、[24]、[42]、[58]、[66]、[122]、[123]、[157]、[161]、[181]和[188]。最直接的方法是将多分辨率图像分别馈送到多个网络中,并聚合输出响应图[137]。Hourglass[105]、UNet[119]和SegNet[3]通过跳跃连接将高到低下采样过程中的低级别特征逐步组合为低到高上采样过程中相同分辨率的高级别特征。PSPNet[181]和DeepLabV2/3[19]融合了金字塔池模块和Atrus空间金字塔池获得的金字塔特征。我们的多尺度(分辨率)融合模块类似于两个池模块。不同之处包括:
    (1)我们的融合输出四种分辨率表示,而不是仅输出一种,以及
    (2)融合模块重复多次,这是受深度融合的启发[129], [143], [155], [178], [184].

我们的方法。我们的网络以并行方式连接高到低的卷积流。它在整个过程中保持高分辨率表征,并通过反复融合多分辨率流的表征产生可靠的高分辨率表征,具有很强的位置敏感性。

  本文是对我们以前的会议论文[130]的一个非常大的扩展,从我们未发表的技术报告[131]中增加了一个额外的材料,以及在最近开发的最先进的物体检测和实例分割框架下的更多物体检测结果。与[130]相比,主要的技术革新在于三个方面。
  (1) 我们将[130]中提出的网络(命名为HRNetV1)扩展为两个版本。HRNetV2和HRNetV2p,它们探索了所有的四种分辨率表示。
  (2) 我们建立了多分辨率融合和常规卷积之间的联系,这为HRNetV2和HRNetV2p中探索所有四分辨率表示的必要性提供了证据。
  (3) 我们展示了HRNetV2和HRNetV2p相对于HRNetV1的优越性,并介绍了HRNetV2和HRNetV2p在广泛的视觉问题中的应用,包括语义分割和物体检测。


3 高分辨率网络

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第2张图片
图2. 高分辨率网络的一个例子。只说明了主体,茎部(两个跨步2 3×3的卷积)没有包括在内。一共有四个阶段。第1阶段由高分辨率的卷积组成。第2(3、4)阶段重复两个分辨率(三分辨率、四分辨率)块。详细内容见第3节。

  我们将图像输入到一个茎部,它由两个跨步2 3×3的卷积组成,将分辨率降低到1/4,然后由主体输出相同分辨率的表示(1/4)。主体,如图2所示,详见下文,由几个部分组成:平行多分辨率卷积重复多分辨率融合,以及图4所示的表示头


3.1 平行多分辨率卷积法

  我们从一个高分辨率的卷积流作为第一阶段开始,逐渐逐个增加从高到低的分辨率流,形成新的阶段,并将多分辨率的流并行连接起来。因此,后面阶段的平行流的分辨率由前一阶段的分辨率和一个额外的低分辨率组成。

  图2所示的一个网络结构例子,包含4个平行流,逻辑上是这样的。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第3张图片
  其中 N s r {N_{sr}} Nsr是第 s s s阶段的子流, r r r是分辨率指数。第一个流的分辨率指数为 r = 1 r=1 r=1。索引 r r r的分辨率是第一个流的分辨率的 1 / 2 r − 1 1/2^{r-1} 1/2r1


3.2 重复的多分辨率融合

  融合模块的目标是在多分辨率表示中交换信息。它要重复几次(例如,每4个剩余单元)。

  让我们看一下融合3个分辨率表征的例子,如图3所示。融合2个表征和4个表征可以很容易得出。输入由三个表征组成。 { R r i , r = 1 , 2 , 3 } \{ R_r^i,r = 1,2,3\} {Rri,r=1,2,3},其中 r r r是分辨率指数,相关的输出表示是 { R r o , r = 1 , 2 , 3 } \{ R_r^o,{\rm{ }}r{\rm{ }} = {\rm{ }}1,{\rm{ }}2,{\rm{ }}3\} {Rro,r=1,2,3}。每个输出表示是三个输入的转换表示之和。 R r o = f 1 r ( R 1 i ) + f 2 r ( R 2 i ) + f 3 r ( R 3 i ) R_r^o{\rm{ }} = {\rm{ }}{f_{1r}}(R_1^i) + {f_{2r}}(R_2^i) + {f_{3r}}(R_3^i) Rro=f1r(R1i)+f2r(R2i)+f3r(R3i)。跨阶段的融合(从阶段3到阶段4)有一个额外的输出。 R 4 o = f 14 ( R 1 i ) + f 24 ( R 2 i ) + f 34 ( R 3 i ) R_4^o{\rm{ }} = {\rm{ }}{f_{14}}(R_1^i) + {f_{24}}(R_2^i) + {f_{34}}(R_3^i) R4o=f14(R1i)+f24(R2i)+f34(R3i)

变换函数 f x r ( ⋅ ) {f_{xr}}( \cdot ) fxr()的选择取决于输入分辨率指数 x x x和输出分辨率指数 r r r。这些函数在图3中被描述出来。

如果 x = r x=r x=r f x r ( R ) = R {f_{xr}}(R) = R fxr(R)=R
如果 x < r xx<r f x r ( R ) {f_{xr}}(R) fxr(R)通过 ( r − s ) (r-s) (rs)跨步2 3×3卷积对输入表示 R R R进行downsamples。例如,一个跨步2 3×3卷积为2×downsampling,两个连续跨步2 3×3卷积为4×downsampling
如果 x > r x>r x>r f x r ( R ) {f_{xr}}(R) fxr(R)通过双线性upsampling对输入表示 R R R进行upsampling,然后进行1×1卷积以调整通道数。

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第4张图片
图3. 说明融合模块如何从左到右分别汇总高、中、低分辨率的信息。右图:strided 3×3 = stride-2 3×3 cov,up samp. 1×1=双线性上采样,然后进行1×1 cov。


3.3 代表头

  我们有三种表示头,如图4所示,分别称为HRNetV1、HRNetV2、HRNetV1p。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第5张图片
图4. (a) HRNetV1:只输出高分辨率卷积流的表示。(b) HRNetV2。连接来自所有分辨率的(上采样)表示(为清晰起见,没有显示随后的1×1卷积)。© HRNetV2p:通过HRNetV2的表示形成一个特征金字塔。每个子图中底部的四分辨率表征是由图2中的网络输出的,灰色方框表示输出表征是如何从输入的四分辨率表征中获得的。

HRNetV1。输出的是仅来自高分辨率流的表示。其他三个表征被忽略了。这在图4(a)中得到了说明。

HRNetV2。我们通过双线性上采样对低分辨率表征进行重新缩放,而不改变通道数,以达到高分辨率,并将四个表征连接起来,然后进行1×1卷积来混合这四个表征。这在图4(b)中有所说明。

HRNetV2p。我们通过对HRNetV2输出的高分辨率表征进行下采样来构建多层次表征。这在图4(c)中描述。

  在本文中,我们将展示将HRNetV1用于人体姿势估计、HRNetV2用于语义分割以及HRNetV2p用于物体检测的结果。


3.4 实例化

  主体包含四个阶段,有四个平行卷积流。其分辨率为1/4、1/8、1/16和1/32。第一阶段包含4个剩余单元,每个单元由宽度为64的bottleneck 形成,之后是一个3×3的卷积,将特征图的宽度改为 C C C。第二、三、四阶段分别包含1、4、3个模块化块。模块化块的多分辨率并行卷积中的每个分支包含4个剩余单元。每个单元包含每个分辨率的两个3×3的卷积,其中每个卷积后都有批量归一化和非线性激活ReLU。四个分辨率的卷积的宽度(通道数)分别为C、2C、4C和8C。图2中描述了一个例子。


3.5 分析

  我们对模块化块进行分析,它分为两个部分:多分辨率并行卷积(图5(a))和多分辨率融合(图5(b))。多分辨率并行卷积类似于分组卷积。它将输入通道分为若干个通道子集,并对每个子集在不同的空间分辨率上分别进行常规卷积,而在分组卷积中,分辨率是相同的。这种联系意味着多分辨率并行卷积享有群卷积的一些好处。

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第6张图片

图5:(a)多分辨率并行卷积,(b)多分辨率融合,(c) 普通卷积(左)等同于全连接的多支路卷积(右)。

  多分辨率融合单元类似于常规卷积的多分支全连接形式,如图5(c)所示。正如[178]中解释的那样,一个常规卷积可以被划分为多个小卷积。输入通道被分为几个子集,而输出通道也被分为几个子集。输入和输出子集是以全连接的方式连接的,每个连接都是一个常规卷积。每个输出通道子集是每个输入通道子集上的卷积输出的总和。不同之处在于,我们的多分辨率融合需要处理分辨率的变化。多分辨率融合和常规卷积之间的联系为探索HRNetV2和HRNetV2p中所做的所有四分辨率表示提供了证据。


4 人体姿势估计

图6. 对具有不同人体尺寸、不同姿势或杂波背景的代表性图像的COCO人体姿势估计的定性结果。

  人体姿势估计,又称关键点检测,旨在从大小为W×H×3的图像I中检测出K个关键点或部位(如肘部、手腕等)的位置。我们遵循最先进的框架,将这个问题转化为估计大小为 W 4 × H 4 {W \over 4} \times {H \over 4} 4W×4H的K个热图, { H 1 , H 2 , . , H K } \left\{ {{H_1},{\rm{ }}{H_2},{\rm{ }}.{\rm{ }},{\rm{ }}{H_K}} \right\} {H1,H2,.,HK},其中每个热图 H K H_K HK表示第 k k k个关键点的位置置信度。

  我们将热图回归到HRNetV1输出的高分辨率表示上。根据经验,我们发现HRNetV1和HRNetV2的性能几乎相同,因此我们选择HRNetV1,因为它的计算复杂度稍低。损失函数被定义为平均平方误差,用于比较预测热图和地面实况热图。地面实况热图是通过应用标准偏差为2像素的二维高斯,以每个关键点的地面实况位置为中心生成的。图6中给出了一些示例结果。

数据集。COCO数据集[94]包含超过200,000张图片和250,000个人物实例,并标有17个关键点。我们在COCO train2017数据集上训练我们的模型,包括57K图像和150K人物实例。我们在 val2017和 test-dev2017集上评估我们的方法,分别包含5000张图片和2万张图片。

评价指标。标准的评估指标是基于对象关键点相似度(OKS)。 O K S = ∑ i exp ⁡ ( − d i 2 / 2 s 2 k i 2 ) δ ( v i > 0 ) ∑ i δ ( v i > 0 ) OKS{\rm{ }} = {{\sum\nolimits_i {\exp ( - d_i^2{\rm{ }}/2{s^2}k_i^2{\rm{ }})\delta ({v_i} > 0)} } \over {\sum\nolimits_i {\delta ({v_i} > 0)} }} OKS=iδ(vi>0)iexp(di2/2s2ki2)δ(vi>0) 。这里 d i d_i di是检测到的关键点和相应的地面实况之间的欧氏距离, v i v_i vi是地面实况的可见性标志, s s s是物体比例, k i k_i ki是控制衰减的每个关键点常数。我们报告标准的平均精度和召回分数2: A P 50 AP^{50} AP50(OKS=0.50时的AP), A P 75 AP^{75} AP75 A P AP AP(10个OKS位置的 A P AP AP分数的平均值,0.50,0.55, …,0.90,0.95);中等物体的 A P M AP^M APM,大型物体的 A P L AP^L APL,以及 A R AR AR(10个OKS位置的 A R AR AR分数的平均值,0.50,0.55, …,0.90,0.95)。

训练。我们将人类检测框的高度或宽度扩展到一个固定的长宽比:高:宽=4:3,然后从图像中裁剪该框,图像被调整到一个固定的尺寸,256×192或384×288。数据增强方案包括随机旋转([-45°,45°])、随机缩放([0.65,1.35])和翻转。按照[146],还涉及到半身数据的增强。

  我们使用亚当优化器[71]。学习时间表遵循设置[152]。基础学习率被设定为1e-3,在第170次和第200次历时中分别降为1e-4和1e-5。训练过程在210个 epochs内结束。模型在4个V100 GPU上进行训练,HRNet-W32(HRNet-W48)大约需要60(80)小时。

测试。使用类似于[24]、[109]、[152]的两阶段自上而下的范式:用人物检测器检测人物实例,然后预测检测关键点。

  我们将SimpleBaseline提供的相同的人物检测器用于val和test-dev集。按照[24]、[105]、[152],我们通过对原始图像和翻转图像的热图进行平均来计算热图。每个关键点的位置都是通过调整最高热值的位置来预测的,在从最高响应到第二高响应的方向上有四分之一的偏移。

TABLE 1 对COCO值的比较。在输入尺寸为256×192的情况下,我们的方法采用从头开始训练的小型模型HRNetV1-W32,比以前的最先进方法表现更好。在输入尺寸为384×288的情况下,我们的方法用小模型HRNetV1-W32取得了比用大模型SimpleBaseline更高的AP得分。特别是,我们的方法对 A P 75 AP^{75} AP75(一种严格的评估方案)的改进比 A P 50 AP^{50} AP50(一种宽松的评估方案)更显著。Pretrain = 在ImageNet上对骨干进行预训练。OHKM = 在线硬键点挖掘[24]。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第7张图片

价值集上的结果。我们在表1中报告了我们的方法和其他最先进的方法的结果。网络-HRNetV1-W32,在输入尺寸为256×192的情况下从头开始训练,获得了73.4分的AP分,在相同的输入尺寸下优于其他方法。(i) 与Hourglass[105]相比,我们的网络将AP提高了6.5分,而我们的网络的GFLOP要低得多,不到一半,而参数的数量相似,我们的网络略大。(ii) 与CPN[24](不含和含OHKM)相比,我们的网络在模型规模稍大和复杂度稍高的情况下,分别获得了4.8和4.0分的增益。 (iii) 与之前表现最好的方法SimpleBaseline[152]相比,我们的HRNetV1-W32获得了明显的改进。对于模型大小和GFLOPs相似的骨干网ResNet-50来说,获得了3.0分,而对于模型大小(#Params)和GFLOPs是我们两倍的骨干网ResNet-152来说,获得了1.4分。

  我们的网络可以从以下方面获益:(i) 从在ImageNet上预训练的模型进行训练。HRNetV1-W32的增益为1.0分;(ii)通过增加宽度来提高容量:HRNetV1-W48在输入尺寸为256×192和384×288时分别获得0.7和0.5分的增益。

  考虑到输入尺寸384×288,我们的HRNetV1W32和HRNetV1-W48,得到75.8和76.3的AP,与输入尺寸256×192相比有1.4和1.2的改进。与使用ResNet-152作为骨干的SimpleBaseline[152]相比,我们的HRNetV1-W32和HRNetV1-W48在AP方面分别获得了1.5和2.0分的增益,计算成本为45%和92.4%

TABLE 2 对COCO test-dev的比较。观察结果与COCO val的结果相似。

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第8张图片

测试-开发集的结果表2报告了我们的方法和现有最先进的方法的姿势估计性能。我们的方法明显优于自下而上的方法。另一方面,我们的小型网络HRNetV1-W32达到了74.9的AP。它优于所有其他自上而下的方法,并且在模型大小(#Params)和计算复杂性(GFLOPs)方面更有效率。我们的大模型,HRNetV1W48,取得了最高的AP分数75.5。与输入规模相同的SimpleBaseline [152]相比,我们的小型和大型网络分别获得了1.2和1.8的改进。使用来自AI Challenger [148]的额外数据进行训练,我们的单一大网络可以获得77.0的AP。


5 语义分割

在这里插入图片描述

图7. 来自Cityscapes(左边两个)、P ASCAL-Context(中间两个)和LIP(右边两个)的定性分割例子。

  语义分割是一个为每个像素分配一个类别标签的问题。图7中给出了我们的方法的一些例子结果。我们将输入图像送入HRNetV2(图4(b)),然后将每个位置上产生的 15 C 15C 15C维表示传递给具有softmax损失的线性分类器以预测分割图。在训练和测试中,分割图通过双线性上采样被上采样(4倍)到输入尺寸。我们报告了两个场景解析数据集PASCALContext[103]和Cityscapes[28]以及一个人类解析数据集LIP[47]的结果。我们采用了类间相交的平均值(mIoU)作为评价指标。

城市景观。城市景观数据集[28]包含5,000幅高质量的像素级精细注释的场景图像。精细注释的图像被分为2,975/500/1,525张,用于训练、验证和测试。有30个类,其中19个类被用于评估。除了类间相交于联合的平均值(mIoU),我们还报告了测试集上的其他三个分数。IoU类别(cat.)、iIoU类别(cla.)和iIoU类别(cat.)。

  我们遵循相同的训练协议[181], [182]。数据通过随机裁剪(从1024×2048到512×1024),在[0.5,2]范围内随机缩放,以及随机水平翻转来增加。我们使用SGD优化器,基础学习率为0.01,动力为0.9,权重衰减为0.0005。聚合学习率策略的功率为0.9,用于降低学习率。所有的模型都在4个GPU和syncBN上进行了 120 K 120K 120K次迭代训练,批次大小为12。

TABLE 3 Cityscapes val上的语义分割结果(单一比例,无翻转)。GFLOPs是根据输入尺寸1024×2048计算的。具有最小GFLOPs的小模型HRNetV2-W40比两个代表性的上下文方法(Deeplab和PSPNet)表现更好。我们的方法与最近开发的物体上下文(OCR)表示方案相结合[170]得到了进一步的改进。D-ResNet-101 = Dilated-ResNet-101。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第9张图片

  表3提供了与Cityscapes估值集的几个代表性方法在参数和计算复杂性以及mIoU等级方面的比较。(i) HRNetV2-W40(40表示高分辨率卷积的宽度),其模型大小与DeepLabv3+相似,计算复杂度更低,获得了更好的性能。比UNet++提高4.7分,比DeepLabv3提高1.7分,比PSPNet、DeepLabv3+提高约0.5分。(ii) HRNetV2-W48,其模型大小与PSPNet相似,计算复杂度低得多,取得了显著的改进。比UNet++提高了5.6分,比DeepLabv3提高了2.6分,比PSPNet、DeepLabv3+提高了约1.4分。在下面的比较中,我们采用了HRNetV2-W48,它在ImageNet上进行了预训练,并且与大多数基于DilatedResNet-101的方法具有相似的模型大小。

TABLE 4 城市景观测试的语义分割结果。我们使用HRNetV2-W48进行比较,其参数复杂度和计算复杂度与基于扩张的ResNet-101网络相当。我们的结果在四个评价指标方面都很出色。与OCR[170]结合的结果进一步提高。D-ResNet-101 = Dilated-ResNet-101。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第10张图片

  表4提供了我们的方法与最先进的方法在Cityscapes测试集上的比较。所有的结果都是六种比例和翻转的结果。评估了两个不使用粗略数据的情况。一个是关于在训练集上学习的模型,另一个是关于在train+val集上学习的模型。在这两种情况下,HRNetV2W48都取得了卓越的性能。

PASCAL-Context。PASCAL-Context数据集[103]包括4,998张用于训练的场景图像和5,105张用于测试的图像,有59个语义标签和一个背景标签。

  数据增量和学习率政策与Cityscapes相同。按照广泛使用的训练策略[32],[172],我们将图像大小调整为480×480,并设置初始学习率为0.004,权重衰减为0.0001。批量大小为16,迭代次数为60K。

  我们遵循标准测试程序[32],[172]。图像被调整为480×480,然后送入我们的网络。然后将得到的480×480的标签图调整为原始图像的大小。我们评估了我们的方法和其他使用六个比例和翻转的方法的性能。

TABLE 5 P ASCAL-Context上的语义分割结果。这些方法在59类和60类上进行了评估。我们的方法在60个类上表现最好,而在59个类上的表现比开发了强大上下文方法的APCN[51]差。我们的方法与OCR[170]相结合,取得了明显的收益,表现最好。
D-ResNet-101 = Dilated-ResNet-101。

【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第11张图片

  表5提供了我们的方法与最先进的方法的比较。有两种评估方案:59类的mIoU和60类(59类+背景)。在这两种情况下,HRNetV2-W48都取得了最先进的结果,只是[51]的结果比我们的高,没有使用OCR方案[170]。

  LIP. LIP数据集[47]包含50,462张精心标注的人体图像,分为30,462张训练图像和10,000张验证图像。这些方法被评估为20个类别(19个人体部位标签和1个背景标签)。按照标准的训练和测试设置[98],图像的大小被调整为473×473,并根据原始图像和翻转图像的分割图的平均值来评估性能。

  数据增强和学习率策略与Cityscapes相同。训练策略遵循最近的设定[98]。我们设定初始学习率为0.007,动量为0.9,权重衰减为0.0005。批量大小为40,迭代次数为110K。

TABLE 6 LIP上的语义分割结果。我们的方法没有利用任何额外的信息,例如,姿势或边缘。我们的方法的整体性能是最好的,OCR方案[170]进一步提高了分割质量。D-ResNet-101 = Dilated-ResNet-101。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第12张图片

  表6提供了我们的方法与最先进方法的比较。HRNetV2-W48的整体性能在参数较少和计算成本较低的情况下表现最好。我们还想提及的是,我们的网络没有使用额外的信息,如姿势或边缘。

6 COCO物体检测

TABLE 7 COCO物体检测的GFLOPs和参数。这些数字是在输入尺寸为800×1200的情况下得到的,如果适用的话,有512个建议被送入R-CNN,但CenterNet的数字是在输入尺寸为511×511的情况下得到的。 R − x = R e s N e t − x − F P N , X − 101 = R e s N e X t − 101 − 64 × 4 d , H − x = H R N e t V 2 p − W x , H G − 52 = H o u r g l a s s − 52. R-x = ResNet-x-FPN, X-101 = ResNeXt-101-64×4d, H-x = HRNetV2p-Wx, HG-52 = Hourglass-52. Rx=ResNetxFPN,X101=ResNeXt10164×4d,Hx=HRNetV2pWx,HG52=Hourglass52.
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第13张图片

T ABLE 8 在Faster R-CNN和Cascade R-CNN框架中对COCO val的物体检测结果。LS = 学习时间表。 1 × = 12 e , 2 × = 24 e 1×=12e,2×=24e 1×=12e2×=24e。我们的方法比ResNet和ResNeXt表现得更好。我们的方法在 2 × 2× 2× 1 × 1× 1×,小物体( A P S AP_S APS)比中物体( A P M AP_M APM)和大物体( A P L AP_L APL)方面得到更明显的改善。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第14张图片

TABLE 9 FCOS和CenterNet框架中COCO值的物体检测结果。这些结果是使用作者提供的实现方法得到的。在类似的参数和计算复杂度下,我们的方法比ResNet和Hourglass表现得更好。我们的HRNetV2p-W64的表现比Hourglass-104略差,原因是Hourglass-104比HRNetV2p-W64要重得多。见Table 7
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第15张图片

  我们在MS COCO 2017检测数据集上进行评估,该数据集包含约11.8万张图像用于训练,5千张用于验证(val),以及20千张没有提供注释的测试(test-dev)。采用了标准的COCO式评估。图8中给出了我们方法的一些示例结果。
在这里插入图片描述

图8. COCO物体检测(左三)和实例分割(右三)的定性例子。

  我们应用我们的多级表征(HRNetV2p),如图4(c)所示,用于物体检测。数据是通过标准的水平翻转来增加的。输入的图像被调整大小,使较短的边缘为800像素[92]。推理是在单一的图像比例上进行的。

  我们将我们的HRNet与标准模型进行比较。ResNet[54]和ResNeXt[156]。我们评估了在两个基于锚点的框架下对COCO值的检测性能。Faster R-CNN[118]和Cascade RCNN[12],以及最近开发的两个无锚框架。FCOS[136]和CenterNet[36]。我们在公共的MMDetection平台[17]上为我们的HRNetV2p和ResNet训练Faster R-CNN和Cascade R-CNN模型,并提供训练设置,只是我们使用了[52]中建议的2×的学习率计划,而FCOS[136]和CenterNet[36]则来自作者提供的实现。表7总结了#parameters和GFLOPs。表8表9报告了检测分数。

  我们还评估了三个框架下的联合检测和实例分割的性能。Mask RCNN [53], Cascade Mask R-CNN [13], 和 Hybrid Task Cascade [16]. 结果是在公共的MMDetection平台[17]上得到的,见表10

T ABLE 10 在Mask R-CNN及其扩展框架中对COCO val的物体检测结果。除了HRNetV2p-W18有时表现得比ResNet-50差之外,我们的方法的总体性能优于ResNet。与检测(bbox)类似,小型物体(APS)在掩码方面的改进也比中型(APM )和大型物体(APL)更明显。这些结果是由MMDetection[17]得到的。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第16张图片

  有几个观察结果。一方面,如表8表9所示,在相似的模型大小和计算复杂度下,HRNetV2的整体物体检测性能优于ResNet。在某些情况下,对于1×,HRNetV2p-W18的表现比ResNet-50-FPN差,这可能是由于优化迭代不够。另一方面,如表10所示,物体检测和实例分割的整体性能优于ResNet和ResNeXt。特别是在混合任务级联框架下,HRNet在 20 e 20e 20e的表现比ResNeXt-101-64×4d-FPN略差,但在 28 e 28e 28e则更好。这意味着我们的HRNet更受益于更长时间的训练。

TABLE 11 与最先进的单模型物体检测器在COCO test-dev上的比较,BN参数固定,没有多尺度训练和测试。∗ 表示该结果来自原始论文[12]。GFLOPs和模型的参数在表7中给出。观察结果与COCO val上的观察结果相似,表明在最先进的物体检测和实例分割框架下,HRNet的表现优于ResNet和ResNeXt。在最先进的对象检测和实例分割框架下。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第17张图片

  表11 报告了我们的网络与COCO test-dev上最先进的单模型物体检测器的比较,没有使用多尺度训练和多尺度测试,这在[85]、[97]、[110]、[115]、[127]、[128]中已经完成。在Faster R-CNN框架中,我们的网络比参数和计算复杂度相似的ResNets表现更好:HRNetV2p-W32 vs. ResNet-101-FPN,HRNetV2p-W40 vs. ResNet-152-FPN,HRNetV2p-W48 vs. X-101-64 × 4d.X-101-64 × 4d-FPN。在Cascade R-CNN和CenterNet框架中,我们的HRNetV2也表现得更好。在Cascade Mask R-CNN和Hybrid Task Cascade框架中,HRNet获得了更好的整体性能。

7 消融研究

  我们对HRNet中的组件进行了两个任务的消融研究:COCO验证中的人体姿势估计和Cityscapes验证中的语义分割。我们主要使用HRNetV1-W32进行人体姿势估计,使用HRNetV2-W48进行语义分割。姿势估计的所有结果都是在256×192的输入尺寸上得到的。我们还介绍了比较HRNetV1和HRNetV2的结果。

不同分辨率的表示。我们通过检查从高到低的每个分辨率的特征图所估计的热图的质量来研究表示的分辨率如何影响姿势估计的性能。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第18张图片
图9. 关于人类姿势估计的分辨率的消融研究。1×、2×、4×分别对应于高、中、低分辨率的表示。结果表明,较高的分辨率提高了性能。

  我们训练两个HRNetV1网络,该网络由为ImageNet分类预训练的模型初始化。我们的网络从高到低的分辨率输出四个响应图。对最低分辨率的反应图进行热图预测的质量太低,AP分数低于10分。图9中报告了其他三张地图的AP分数。比较结果表明,分辨率确实影响了关键点的预测质量。

重复的多分辨率融合。我们实证分析了重复多分辨率融合的效果。我们研究了我们网络的三种变体。(a) 有/无中间融合单元(1次融合)。除了最后的融合单元,多分辨率流之间没有融合。(b) 有/跨阶段融合单元(3个融合)。每个阶段内的平行流之间没有融合。© W/跨阶段和阶段内融合单元(共8个融合)。这是我们提出的方法。所有的网络都是从头开始训练的。表12中给出的关于COCO人类姿势估计和城市景观语义分割(验证)的结果表明,多分辨率融合单元是有帮助的,更多的融合会带来更好的性能。

TABLE 12 在COCO val人体姿势估计(AP)和Cityscapes val语义分割(mIoU)上的多分辨率融合单元的消融研究。最终=紧接在表示头之前的最终融合,跨=跨阶段的中间融合,内=阶段内的中间融合。我们可以看到,这三种融合对人类姿势估计和语义分割都是有益的。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第19张图片

  我们还研究了融合设计的其他可能选择:(i)使用双线性降采样来代替串联卷积,以及(ii)使用乘法运算来代替和运算。在前一种情况下,COCO姿势估计AP得分和Cityscapes segmentation mIoU得分被降低到72.6和74.2。其原因是降采样减少了表示图的体积大小(宽×高× #channels),而strided convolutions比双线性降采样能更好地减少体积大小。

  在后一种情况下,结果要差得多:分别为54.7和66.0。可能的原因是乘法增加了训练的难度,正如[145]中指出的那样。

决议维护。我们研究了HRNet的一个变体的性能:所有四个从高到低的分辨率流都在开始时加入,四个流的深度相同;融合方案与我们的相同。HRNets和变种(具有类似的#Params和GFLOPs)都是从头开始训练的。

  该变体在COCO值上的人体姿势估计性能(AP)为72.5,低于HRNetV1-W32的73.4。该变体在Cityscapes上的分割性能(mIoU)为75.7,低于HRNetV2-W48的76.4。我们认为,原因是早期阶段在低分辨率流上提取的低级特征对其帮助较小。此外,另一个简单的变体,只有类似参数和GFLOPs的高分辨率流,没有低分辨率的平行流,在COCO和Cityscapes上显示出更低的性能。

  V1与V2。我们将HRNetV2和HRNetV2p,与HRNetV1在姿势估计、语义分割和COCO物体检测方面进行比较。对于人的姿势估计,其性能是相似的。例如,HRNetV2-W32(不含ImageNet预训练)的AP分数为73.6,比HRNetV1-W32的73.4略高。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第20张图片
图10. 比较HRNetV1和HRNetV2。(a) 在Cityscapes val和P ASCAL-Context上进行分割,比较HRNetV1及其变体HRNetV1h和HRNetV2(单一比例,无翻转)。(b) 比较HRNetV1及其变体HRNetV1h和HRNetV2p(LS=学习时间表)的COCO val上的物体检测。我们可以看到,HRNetV2在语义分割和物体检测方面都优于HRNetV1。

  图10(a)图10(b)中给出的分割和物体检测结果表明,HRNetV2明显优于HRNetV1,只是在大模型的情况下(1×),城市景观的分割收益很小。我们还测试了一个变体(用HRNetV1h表示),它是通过附加一个1×1的卷积来使输出的高分辨率表示的维度与HRNetV2的维度一致。图10(a)图10(b)中的结果显示,该变体对HRNetV1有轻微的改进,这意味着在我们的HRNetV2中聚合低分辨率平行卷积的表示对提高能力至关重要

8 结论

  在本文中,我们提出了一个用于视觉识别问题的高分辨率网络。与现有的低分辨率分类网络和高分辨率表征学习网络有三个根本区别:(i) 将高分辨率和低分辨率卷积并行连接,而不是串联;(ii) 在整个过程中保持高分辨率,而不是从低分辨率恢复高分辨率;(iii) 反复融合多分辨率表征,呈现出丰富的高分辨率表征,具有很强的位置敏感性。

  在广泛的视觉识别问题上取得的优异结果表明,我们提出的HRNet是计算机视觉问题的一个更强大的骨干。我们的研究也鼓励更多的研究工作,为特定的视觉问题直接设计网络结构,而不是扩展、补救或修复从低分辨率网络(如ResNet或VGGNet)学到的表征。

  讨论。有一个可能的误解:HRNet的内存成本随着分辨率的提高而增大。事实上,HRNet在人类姿势估计、语义分割和物体检测这三种应用中的内存成本与艺术状态相当,只是物体检测中的训练内存成本稍大一些。

  此外,我们总结了PyTorch 1.0平台上的运行时间成本比较。HRNet的训练和推理时间成本与之前的stateof-the-arts相当,只是(1)HRNet用于分割的推理时间要小得多,(2)HRNet用于姿势估计的训练时间稍大,但在支持静态图推理的MXNet 1.5.1平台上的成本与SimpleBaseline类似。我们想强调的是,对于语义分割,推理成本明显小于PSPNet和DeepLabv3。

TABLE 13 在PyT orch 1.0上对姿势估计、语义分割和物体检测(在Faster R-CNN框架下)在训练/推理内存和训练/推理时间方面的内存和时间成本进行比较。我们还报告了MXNet 1.5.1上姿势估计的推理时间(单位:()),它支持静态图推理,HRNet中使用的多分支卷积就得益于此。训练的数字是在一台有4个V100 GPU卡的机器上得到的。在训练过程中,输入尺寸为256×192、512×1024和800×1333,姿态估计、分割和检测的批次尺寸分别为128、8和8。推理的数字是在一张V100 GPU卡上得到的。输入尺寸分别为256×192、1024×2048和800×1333。分数是指COCO值上的姿势估计(T能1)和COCO值上的检测(T能8)的AP,以及城市景观分割(T能3)的mIoU。这里强调了几个观察结果。内存。HRNet在训练和推理中消耗的内存相似,只是在人体姿势估计的训练中消耗的内存较小。时间:HRNet的训练和推理时间成本与之前的技术水平相当,只是HRNet的分割推理时间要小得多。SB-ResNet-152 = 以ResNet-152为骨干的SimpleBaseline。PSPNet和DeepLabV3使用扩张的ResNet-101作为骨干(Table 3)。
【HRNet2019】Deep High-Resolution Representation Learning for Visual Recognition_第21张图片

  表13总结了内存和时间成本的比较.

  未来和后续工作。我们将研究HRNet与其他技术的结合,用于语义分割和实例分割。目前,我们通过将HRNet与对象上下文表示(OCR)方案[170]6,即对象上下文的变体[59],[171]相结合,得到了表3 4 5 6所描绘的结果(mIoU)。我们将通过进一步提高表征的分辨率来进行研究,例如,提高到1/2甚至全分辨率。

  HRNet的应用并不局限于我们所做的上述工作,它适用于其他位置敏感的视觉应用,如面部地标检测7、超分辨率、光流估计、深度估计等。已经有一些后续工作,例如,图像风格化[83]、绘画[50]、图像增强[62]、图像去模糊[1]、时间姿势估计[6]和无人机物体检测[190]。

  据报道[26],在单一模型的情况下,稍加修改的HRNet结合ASPP在Mapillary全景分割中取得了最佳性能。

  在ICCV 2019年的COCO + Mapillary联合识别挑战研讨会上,COCO DensePose挑战的获胜者和几乎所有的COCO关键点检测挑战参与者都采用了HRNet。OpenImage实例分割挑战赛冠军(ICCV 2019)也采用了HRNet

你可能感兴趣的:(深度学习,计算机视觉,目标检测)