论文原文:https://arxiv.org/pdf/1910.06278v1.pdf
DARK 基于分布感知的关节点坐标表示方法
热图实际上是人体姿态估计中的标准坐标表示,但是从未在文献中系统深入的研究过。本文将填补这个空白。第一次,我们发现,将预测热图解码为原始图像空间中的最终关节坐标这一过程对人体姿态估计的性能有着惊人的重要意义。我们进一步探讨了标准坐标解码方法的设计局限性,并提出了可感知的分布式解码方法。我们也改进了标准坐标编码的过程(将ground-truth 转换为热图)。结合这两者,我们提出了新颖的方法-基于分布感知的关节点坐标表示方法(DARK)。作为模型的诊断插件,DARK对现有人体姿态估计模型的性能带来了重要的提升。大量的实验表明,DARK在MPII和COCO上产生了好的效果。代码地址:https://github.com/ilovepose/DarkPose
人体姿态估计是计算机视觉的基本问题,目的是在无限制的图像中定位人体空间位置。由于不同分格的服饰,任意遮挡和不受约束的背景而变化很大,导致肢体外观差别大,而需要识别细粒度关节坐标,因而任务非常艰巨。作为强大的图像处理模型,卷积神经网络在这项任务上表现出色。现有的工作集中于设计卷积神将网络,特别是为人体姿态估计量身定做的网络。
类似于图像分类的one-hot 形式向量进行标签表示,Pose也需要标签来编码关节点坐标标签。 从而可以在训练过程中对监督学习损失进行量化和计算,并正确地推断联合坐标。实际的标准标签表示形式是坐标热图,生成以每个关节的标记坐标为中心的二维高斯分布/内核。它是从坐标编码过程,从坐标到热图获得的。热图的特点是在ground-truth location 提供空间支持。不仅要考虑上下文线索,还要考虑目标位置固有的歧义性。重要的是,与类标签平滑正则化类似,可以有效的减少模型在训练过程中的过拟合风险。最先进的姿态估计方法是基于热图坐标表示。
使用热图标签表示,一个主要的障碍是计算成本是输入图像分辨率的二次函数,从而使CNN模型无法处理通常的高分辨率原始图像。为了在计算上负担的起,一种标准策略(如图1)是将所有包含人的bounding box 以任意较大的分辨率下采样为带前缀的小分辨率。
为了预测关节在原始图像坐标空间中的位置,在进行热图预测后,需要相应的分辨率恢复才能转换回原始坐标空间。最终被认为具有最大激活的位置。我们将此过程称为从热图到坐标的坐标解码。值的注意的是,在上述分辨率降低期间可能引入量化误差。为了缓解这个问题,在现有的坐标解码过程中,通常根据从最高激活到次高激活的方向执行手工移位操作。
尽管在模型推理中是不可或缺的,但坐标编码和解码问题(即。 表示为坐标表示)很少受到关注。与目前重点设计有效的CNN结构相比, 我们揭示了坐标表示对模型性能的重要作用,比预期的要重要的多。例如,使用最先进的模型HRNet-W32,坐标编码的移位操作在具有挑战性的COCO验证集上带来高达5.7%的AP(表1)。
值得一提的是,这一收获已经比大多数方法的收获要大得多。 但它从未在文献中得到很好的注意和仔细的调查。
与现有的人体姿态估计研究相反, 在本工作中,我们专门研究了包括编码和解码在内的联合坐标表示问题。 此外,我们还认识到,热图分辨率是阻碍使用较小的输入分辨率来更快地进行模型推理的主要障碍之一。当输入分辨率256x192减小到128x96, 在COCO验证集上,HRNet-W32的模型性能从74.4%显著下降到66.9, 虽然模型推理成本从7.1×109下降到1.8×109FLOP。
鉴于已发现的坐标表示的意义, 我们进行了深入的调查,并认识到一个关键的限制在于坐标解码过程。 虽然现有的标准移位操作已经证明是有效的,就像本研究所发现的那样。我们提出了一个主要的分布感知表示方法,以更准确地联合定位像素精度。 具体而言,它旨在通过基于泰勒展开的分布近似来全面地解释热图激活的分布信息。 此外,我们还观察到,产生ground-truth heatmaps的标准方法存在定量误差, 导致不精确的监督信号和劣质的模型性能。 为了解决这个问题,我们提出生成无偏热图,允许高斯核集中在像素位置。
我们的贡献是, 我们发现坐标表示在人体姿态估计中先前未实现的意义,我们提出了DARK和两个关键组件:
(1) 基于泰勒展开的高效坐标解码;
(2) 无偏亚像素中心坐标编码
重要的是,现有的人体姿态方法可以无缝地受益于DARK,而无需任何算法修改。 在(MPII和COCO)上的广泛实验表明,我们的方法为现有的最先进的人体姿态估计模型提供了显著的性能改进。 DARK有利地使用较小的输入图像分辨率,性能下降要小得多,同时大大提高了模型推断的效率,因此促进了低嵌入式人工智能场景中所需的延迟和低能应用。
在人体姿态估计中,通常有两种常见的坐标表示设计:coordinate 和 heatmap 。这两种方法都被用作现有方法中的回归目标,将在下面分别进行介绍。
Coordinate regression:
直接以坐标作为模型的输出,更直观。 但只有少数现有的方法采用这种设计。 一个合理的解释是,这种表示缺乏空间和上下文信息。 由于关节位置的内在视觉模糊,使得人体姿态模型的学习具有极大的挑战性。
Heatmap regression:
热图表示很好地解决了上述限制。 它首先在(Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In Advances in Neural Information Processing Systems, 2014)中引入,并迅速成为最常用的坐标表示。通常,主流的研究重点是设计网络体系结构,以更有效地回归热图监督。
与以往的所有工作相比,我们相反地研究了热图表示在人体姿态估计方面的问题,这是文献中一个很大程度上被忽视的观点。 我们不仅揭示了在使用热图过程中分辨率降低的巨大影响,而且提出了一种主要的坐标表示方法,以显著提高现有模型的性能。 关键的是,我们的方法可以无缝集成,而不改变模型设计。
我们考虑了人体姿态估计中坐标表示的问题,包括编码和解码。目的是预测给定输入图像中的关节坐标。为此,我们需要学习从输入图像到输出坐标的回归模型。在模型训练和测试期间,热图通常被用作坐标表示。具体来说,我们假设可以访问一组训练图像。为了促进模型的学习,我们将关节的标记ground-truth坐标编码为热图作为有监督学习的目标。在测试过程中,我们需要将预测的热图解码为原始图像坐标空间中的坐标。
在下文中我们首先描述解码过程,着重于对现有标准方法的局限性分析和提出解决方案。然后,我们进一步讨论并解决编码过程的局限性。最后,我们描述了现有人体姿态估计方法与所提出的方法的融合。
被认为是模型测试管道中一个微不足道的组成部分,正如我们将要展示的那样,坐标解码被证明对于人体姿态估计是最重要的性能贡献者之一。具体来说,它是将每个单个关节的预测热图转换为原始图像空间中的坐标的过程。 假设热图有相同的空间大小作为原始图像, 我们只需要找到最大激活的位置作为联合坐标预测。然而,上述解释往往并非如此。
相反,我们需要用特定于样本的无约束因子将热图上采样到原始图像分辨率。 这涉及到亚像素定位问题。 在介绍我们的方法之前,我们首先回顾了现有姿态估计模型中使用的标准坐标解码方法。
根据模型性能对标准坐标解码方法进行了实证设计,具体的,我们在训练好的模型给定热图h上,首先确定最大响应的点m和次大响应点s,关键点位置被预测为公式:
其中λ是resolution redution radio 分辨率降低率
备注:在公式1中,亚像素移动的目的是补偿图像分辨率下采样的量化效果。 也就是说,预测热图中的最大激活不对应于关节在原始坐标空间中的精确位置,而只对应于粗位置。正如我们将展示的那样,这种变化出人意料地带来了显著的性能提升(表1)。 这可能部分地解释了为什么在模型测试中它经常被用作标准操作。 有趣的是,据我们所知,没有具体的工作深入研究这种操作对人体姿态估计性能的影响。因此,它的真正意义从未在文献中得到真正的认识和报道。 虽然这种标准方法在设计中缺乏直觉和解释,但没有进行专门的调查以改进。 我们通过提出一种移位估计方法来填补空白,最终在人体姿态估计中有更高的准确度。
Therefore, we represent the predicted heatmap as
总结:
我们在图2中总结了我们的坐标解码方法。 具体来说,一共涉及三个步骤:
所有这些步骤都不需要很高的计算成本,因此能够作为现有模型的有效插件。
上一节讨论了基于分辨率降低的坐标解码问题。 坐标编码也有相同的限制。 具体来说,标准坐标编码方法是从将原始人的图像下采样到模型输入大小中。 因此,在生成热图之前,需要对ground-truth联合坐标进行相应的变换。
形式上,我们用g=(u,v)表示关节的ground-truth坐标。
通常,为了方便内核的生成,我们经常量化g‘:
显然,由于量化误差,以上述方式产生的热图是不准确,有偏差的(如图 4)。 这可能会引入次优监督信号,并导致模型性能下降,特别是对于本工作中提出的精确坐标编码。 为了解决这个问题,我们只需将热图中心放置在表示精确ground-truth坐标的非量化位置g。 我们仍然应用等式(14)但用 g'' 代替 g'。 我们将演示这种无偏热图生成方法的好处(表3)。
DARK能与现存的热力图姿态估计模型融合。不对之前的方法做任何改变。 特别是,在训练过程中,唯一的变化是基于精确的关节坐标生成的ground-truth热图数据。 在测试时,我们将HRNet等任何模型预测的热图作为输入,并在原始图像空间中输出更精确的关节坐标。 在整个生命周期中,我们保持现有模型与原始设计一样完整。 这使得我们的方法的通用性和可伸缩性最大化。
我们第一次系统地研究了被忽略但有重要影响的坐标表示 (包括编码和解码)用于无约束图像中的人体姿态估计。 我们不仅揭示了这个问题的真正意义, 同时还提出了一种新的分布感知坐标表示(DARK),用于更多的判别模型训练和推理。 作为一个现成的插件组件, 现有的最先进的模型可以无缝地受益于我们的DARK方法,而不需要任何算法适应,以忽略成本。除了经验性地证明坐标表示的重要性, 我们通过在两个具有挑战性的数据集上进行广泛的模型实验,验证了DARK的性能优势。 我们也提供了一系列深入的组件分析,以提供关于我们的模型制定的设计原理.
论文代码开源:
https://github.com/ilovepose/DarkPose
里面readme写的非常详细;
运行:
output: