Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods

论文连接:https://arxiv.org/pdf/2006.01423.pdf

Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods

  • 前言
    • 应用领域
    • 面临挑战
    • HPE方法分类
  • 2D单人姿态估计
    • 基于回归的方法
    • 基于检测的方法
  • 2D多人姿态估计
    • 自顶向下的方法
    • 自下而上的方法

基于视觉的单目人体姿态估计是计算机视觉中最基本和最具挑战性的问题之一,其目的是从输入图像或视频序列中获取人体姿态。深度学习技术的最新发展给人体姿态估计领域带来了显著的进步和突破。该调查广泛回顾了自2014年以来发表的基于深度学习的2D和3D人体姿态估计方法。本文总结了挑战、主要框架、基准数据集、评估指标、性能比较,并讨论了一些有前途的未来研究方向。

Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods_第1张图片

前言

人体姿态估计(HPE)任务已经发展了几十年,其目的是从给定的传感器输入中获得人体的姿态。基于视觉的方法通常通过使用摄像机来提供这样的解决方案。近年来,随着深度学习在图像分类(Krizhevsky等人,2012)、对象检测(Ren等人,2015)、语义分割(Long等人,2015)等多种计算机版本任务上显示出良好的性能。此外,HPE还通过采用深度学习技术实现了快速进步。主要发展包括设计良好的网络,具有强大的估计能力,更丰富的数据集(林等人,2014年;Joo等人,2017年;梅塔等人,2017a),用于喂养网络和身体模型的更实际的探索(Loper等人,2015;金泽等人,2018年)。尽管对HPE有一些现有的评论,但是,仍然缺乏一个调查来总结最近基于深度学习的成就。本文广泛回顾了基于深度学习的2D/三维人体姿态估计方法,从单目图像或视频镜头的人。本次调查不包括依赖于深度(Shotton等人,2012年)、红外光源(Faessler等人,2014年)、射频信号(赵等人,2018年)和多视图输入(罗丹等人,2018年b)等其他传感器的算法。

作为计算机视觉的基本任务之一,是一个非常重要的研究领域,可以应用于许多领域,如动作/活动识别(李等,2017bLuvizon等人,2018年;李等,2018b),动作检测(李等,2017a),人体跟踪(Insafutdinov等,2017),电影与动画,虚拟现实,人机交互,视频监控,医疗辅助,自动驾驶,运动分析等。

应用领域

电影和动画:各种生动的数字角色的生成离不开对人体动作的捕捉。廉价而精确的人体动作捕捉系统可以更好地促进数字娱乐产业的发展。

虚拟现实:虚拟现实是一项非常有前途的技术,可以应用于教育和娱乐。人体姿态的估计可以进一步阐明人与虚拟现实世界的关系,增强交互体验。

人机交互:HPE对于计算机和机器人更好地理解人的身份、位置和行为非常重要。有了人类的姿势(例如手势),计算机和机器人可以以简单的方式执行指令,变得更加智能。

视频监控:视频监控是采用HPE技术在特定范围内跟踪、动作识别、重新识别人的早期应用之一。

医疗援助:在医疗援助的应用中,HPE可以为医生提供定量的人体运动信息,特别是用于康复训练和身体

自驾:高级自驾发展迅速。有了HPE,自动驾驶汽车可以更恰当地对行人做出反应,并与交通协调员进行更全面的互动。

运动动作分析:在运动视频中估计运动员的姿势,可以进一步获得运动员各项指标(如跑的距离、跳的次数)的统计。在训练过程中,HPE可以对动作细节进行定量分析。在体育教学中,教师可以对有HPE的学生做出更客观的评价。

面临挑战

  1. 灵活的身体配置表明复杂的相互依赖的关节和高自由度的肢体,这可能导致自遮挡或罕见/复杂的姿势。
  2. 多样的身体外貌包括不同的服装和自相似的部位。
  3. 复杂的环境可能会导致前景遮挡、来自附近人员的遮挡或类似部分、各种视角以及相机视图中的截断。

HPE方法分类

本节根据不同的特征总结了基于深度学习的HPE方法的不同类别:
1)生成性(基于人体模型)和区分性(无人体模型)
生成式方法和区分式方法的主要区别在于一种方法是否使用人体模型。基于人体模型的不同表示,可以以不同的方式处理生成方法,例如关于人体模型结构的先验信念、从不同视图到2D或3D空间的几何投影、以回归方式的高维参数空间优化。人体模型表示的更多细节可以在第节中找到

2)自上而下(从高层抽象到低层像素证据)和自下而上(从低层像素证据到高层抽象)
对于多人位姿估计,根据预测的出发点,HPE方法一般可以分为自上而下和自下而上两种:高级抽象或低级像素证据。自上而下的方法从高层抽象开始,首先检测人,并在边界框中生成人的位置。然后对每个人进行姿态估计。相比之下,自下而上的方法首先预测输入图像中每个人的所有身体部分,然后通过人体模型拟合或其他算法对它们进行分组。请注意,根据不同的方法,身体部位可以是关节、肢体或小模板补丁。随着图像中人数的增加,自顶向下方法的计算成本显著增加,而自底向上方法的计算成本保持稳定。然而,如果有一些人有很大的重叠,自下而上的方法面临着将相应的身体部位分组的挑战。

3)基于回归(从输入图像直接映射到身体关节位置)和基于检测(生成关节位置的中间图像补丁或热图)
基于不同的问题公式,基于深度学习的人体姿态估计方法可以分为基于回归的方法和基于检测的方法。基于回归的方法直接将输入图像映射到人体关节的坐标或人体模型的参数。基于检测的方法基于两种广泛使用的表示将身体部位视为检测目标:图像块和关节位置的热图。从图像到关节坐标的直接映射非常困难,因为这是一个高度非线性的问题,而小区域表示提供了具有更强鲁棒性的密集像素信息。与原始图像尺寸相比,小区域表示的检测结果限制了最终关节坐标的精度。

4)一阶段(端到端培训)和多阶段(逐阶段培训)
基于深度学习的单阶段方法旨在通过使用端到端网络将输入图像映射到人体姿态,而多阶段方法通常在多个阶段预测人体姿态,并伴随有中间监督。例如,一些多人姿势估计方法首先检测人的位置,然后估计每个检测到的人的姿势。其他3D人体姿态估计方法首先预测关节位置
Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods_第2张图片

2D单人姿态估计

基于回归的方法

AlexNet (Krizhevsky等人,2012)是基于深度学习的HPE方法的早期网络之一,因为其简单的体系结构和令人印象深刻的性能。托舍夫和塞格迪(2014)首次尝试训练一个类似AlexNet的深度神经网络,以非常直接的方式从完整图像中学习关节坐标,而不使用任何身体模型或部分检测器,如图3所示。此外,采用多级细化回归器的级联结构来细化来自前一级的裁剪图像并显示改进的性能。Pfister等人(2014)还应用了一个类似AlexNet的网络,使用一系列串联的帧作为输入来预测视频中的人体姿态。
Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods_第3张图片
只使用没有周围信息的关节缺乏鲁棒性。将热图监控转换为数字联合位置监控可以保留两种表示的优势。Luvizon等人(2017)提出了一个软参数最大值函数来将热图转换为关节坐标,该函数可以将基于检测的网络转换为基于可微分回归的网络。尼巴利等人(2018年)设计了一个可微分的空间到数值变换(DSNT)层,用于从热图中计算关节坐标,这在低分辨率热图中效果很好。直接从输入图像中预测关节坐标很困难,因此引入了更强大的网络,并采用了细化或身体模型结构。Carreira等人(2016)提出了一种基于谷歌网络的迭代误差反馈网络,该网络递归处理输入图像和输出结果的组合。迭代后,最终姿态从初始平均姿态开始改善。孙等(2017)提出了一种结构感知回归方法basedonaResNet-50。代替关节存储呈现姿势,通过涉及身体结构信息来设计基于骨骼的表示,以获得比仅使用关节位置更稳定的结果。基于骨骼的表示也适用于3D HPE。处理人体多个密切相关任务的网络可以学习不同的特征,以提高对关节坐标的预测。Li等人(2014)采用类似AlexNet的多任务框架以回归方式处理完整图像的联合坐标预测任务,以及通过滑动窗口获得的图像块的身体部位检测任务。Gkioxari等人(2014a)使用R-CNN架构来同步检测人、估计姿势和对动作进行分类。Fan等人(2015)提出了一种双源深度神经网络,它以图像块和完整图像为输入,输出热图表示滑动窗口的联合检测结果,坐标表示联合定位结果。最终估计的姿态从两个结果的组合中获得。Luvizon等人(2018)设计了一个网络,可以从视频序列中联合处理2D/3D姿态估计和动作识别。网络中间估计的姿态可以作为动作识别的参考。

基于检测的方法

基于检测的方法是从身体部位检测方法发展而来的。在传统的基于部分的HPE方法中,首先从候选图像块中检测身体部分,然后组装以适合人体模型。早期工作中检测到的身体部位比较大,一般用矩形滑动窗口或面片来表示。我们参考(Poppe,2007;龚等,2016)进行了更详细的介绍。一些早期的方法使用神经网络作为身体部位检测器来区分候选贴片是否是特定的身体部位(Jain等人,2013),在预定义的模板中对候选贴片进行分类(Chen和Yuille,2014),或者预测属于多个类别的置信度图(Ramakrishna等人,2014)。身体部位检测方法通常对复杂的背景和身体遮挡很敏感。因此,仅具有局部外观的独立图像块对于身体部位检测可能没有足够的区分性。为了提供更多的监督信息,而不仅仅是联合坐标,也为了便于训练CNNs,最近的工作采用热图来显示联合位置的地面实况7(Tompson等人,2014年;Jain等人,2014年)。如图4所示,每个关节占据热图通道,2D高斯分布以目标关节位置为中心。此外,帕潘德里欧等人(2017)提出了一种改进的联合位置表示,这是一个二进制激活热图和相应的偏移的组合。由于热图表示比坐标表示更健壮,所以最近的大多数研究都是基于热图表示的。
神经网络体系结构对于更好地利用输入信息非常重要。一些方法主要基于经典网络并进行适当的改进,例如基于GoogLeNet的多尺度输入网络(Rafi等人,2016年),基于ResNet的具有反进化层的网络(肖等人,2018年)。在迭代细化方面,一些工作以多阶段方式设计网络,以通过端到端学习来细化粗预测的结果(Tompson等人,2015;Bulat和Tzimiropoulos,2016年;Newell等人,2016年;魏等,2016;杨等,2017;Belagiannis和Zisserman,2017年)。这种网络通常使用中间监督来处理消失的梯度。Newell等人(2016)通过使用剩余模块作为组件单元,提出了一种新的堆叠沙漏架构。魏等人(2016)提出了一个多阶段预测框架,每个阶段输入图像。杨等人(2017)设计了一个金字塔残差模块(PRMs)来代替沙漏网络的残差模块,以通过学习不同尺度上的特征来增强离散余弦变换神经网络的尺度不变性。Belagiannis和Zisserman (2017)将一个7层前馈模块与一个递归模块相结合,以迭代地完善结果。该模型学习预测关节和肢体的位置热图。此外,他们还分析了地面真实分布不平衡时的关键点可见度。为了在整个网络中保持高分辨率的特征表示,孙等人(2019)提出了一种新的具有多尺度特征融合的高分辨率网络(HRNet)。与早期试图将检测到的身体部位装配到身体模型中的工作不同,最近的一些工作试图将人体结构信息编码到网络中。Tompson等人(2014年)用类似MRF的空间模型联合训练了一个网络,用于学习关节之间的典型空间关系。Lifshitz等人(2016)将图像离散化为以每个关节为中心的对数极坐标箱,并使用基于VGG的网络来预测每个成对关节的关节类别置信度(二进制项)。有了所有相对可信的分数,每个关节的最终热图可以由一个反进化网络生成。杨等(2016)设计了一个两级网络。第一阶段是卷积神经网络,用于预测热图表示中的关节位置。第二阶段是根据人体结构手动连接的消息传递模型,通过最大和算法找到最佳关节位置。Gkioxari等人(2016)提出了一种卷积递归神经网络,按照链式模型一个接一个地输出关节位置。每个步骤的输出取决于输入图像和先前预测的输出。网络可以通过不同的连接策略处理图像和视频。Chu等人(2016)提出通过双向树来变换核,以在树体模型中的相应关节之间传递信息。楚等人(2017)用更复杂的模块取代了沙漏网络的剩余模块。条件随机场用于注意图,作为学习身体结构信息的中间监督。(宁等,2018)设计了一个分形网络,将人体先验知识强加给网络进行指导。通过使用学习的投影矩阵将外部知识视觉特征编码到基本网络中。柯等人(2018)提出了一种基于沙漏网络的多尺度结构感知网络,该网络具有多尺度监督、多尺度特征组合、结构感知损失和关节掩蔽的数据增强功能。在沙漏网络的基本框架上,唐等人(2018a)设计了用于中间监督的身体部位的分层表示,以代替每个关节的热图。因此,网络学习的是自下而上/自上而下的身体结构,而不仅仅是分散的关节。唐和吴(2019)提出了基于部件的分支网络(),以学习每个部件组的具体表示,而不是预测来自一个分支的所有联合热图。然后,通过计算关节的互信息来分割数据驱动的零件组。生成性对抗网络也被用来为学习身体结构或网络训练提供对抗监督。Chou等人(2017)引入了对抗性学习,两个沙漏网络分别作为发生器和鉴别器。生成器预测每个关节的热图位置,而鉴别器将地面真实热图与生成的热图区分开来。陈等人(2017)提出了一种结构感知的卷积网络,该网络具有一个生成器和两个鉴别器来合并人体结构的先验信息。该生成器是根据沙漏网络设计的,用于预测关节热图和闭塞热图。姿势鉴别器可以区分合理的身体配置和不合理的身体配置。置信度鉴别器显示

2D多人姿态估计

与单人姿势估计不同,多人姿势估计需要处理检测和定位任务,因为没有输入图像中有多少人的提示。根据从哪个层次(高层抽象还是低层像素证据)开始计算,人体姿态估计方法可以分为自上而下方法和自下而上方法。自顶向下的方法通常使用人检测器来获得输入图像中的一组人的边界框,然后直接利用现有的单人姿势估计器来预测人的姿势。预测的姿势在很大程度上取决于人体检测的精度。整个系统的运行时间与人数成正比。而自下而上的方法直接预测所有人的所有2D关节,然后将它们组装成独立的骨骼。复杂环境中关节点的正确分组是一项具有挑战性的研究任务。表4总结了最近在自上而下和自下而上类别中基于深度学习的2D多人姿势估计方法的工作。表4的最后一列是COCO测试开发数据集的平均精度分数。第5节描述了数据集和评估指标的更多细节。

自顶向下的方法

自顶向下HPE方法的两个最重要的组成部分是人体区域候选检测器和单人姿势估计器。大部分研究集中在基于现有人体检测器的人体部位估计上,如Faster R-CNN(任等,2015)、Mask R-CNN(何等,2017)、(林等,2017)。Iqbal和Gall (2016)利用基于卷积位姿机器的位姿估计器来生成初始位姿。然后应用整数线性规划获得最终姿态。方等(2017)采用了空间转换网络(STN)(Jaderbergetal)。,2015),非最大抑制(NMS)和沙漏网络,以促进精确人体包围盒中的姿态估计。黄等(2017)开发了以盗梦空间-v2网络(Szegedy等,2016)为骨干的粗-精网络()。对网络进行多级监督,学习粗预测和细预测。肖等人(2018年)在ResNet的最后一个卷积层上添加了几个反卷积层,以根据深度和低分辨率特征生成热图。陈等人(2018)提出了一种级联金字塔网络(CPN),该网络采用来自不同层的多尺度特征图,以获得来自局部和全局特征的更多推断,并具有针对困难关节的在线硬关键点挖掘损失。基于不同HPE方法的相似位姿误差分布,Moon等人(2019)设计了PoseFix网络,以从任何方法改进估计的位姿。通过组合现有的检测网络和单个HPE网络,可以容易地实现自顶向下的HPE方法。同时,这类方法的性能受人体检测结果的影响,运算速度通常不是实时的。

自下而上的方法

自底向上HPE方法的主要组成部分包括人体关节检测和关节候选分组。大多数算法分别处理这两个部分。DeepCut (Pishchulin等人,2016)使用基于快速R-CNN的身体部位检测器首先检测所有候选身体部位,然后将每个部位标记为其相应的部位类别,并通过整数线性规划将这些部位组装成完整的骨架。DeeperCut(Insafetdinov等人,2016)通过使用基于ResNetand的更强的零件检测器来改进DeepCut,并改进增量优化策略探索候选关节之间的几何和外观约束。OpenPose(曹等人,2016)使用CPM来预测具有部分亲和场(PAFs)的所有身体关节的候选。所提出的关节定位框架可以对肢体的位置和方向进行编码,以将估计的关节组装成不同的人的姿势。聂等人(2018)提出了一种姿态分割网络(),用于进行联合检测和密集回归的联合分割。然后PPN用联合划分对联合构型进行局部推断。与OpenPose类似,Kreiss等人(2019年)设计了一个预测零件强度场(PIF)和零件关联场(Paf)的PifPaf网络,以表示身体关节位置和身体关节关联。由于精细的PAF和拉普拉斯损失的利用,它在低分辨率图像上工作良好。上述方法都遵循联合检测和联合分组的分离。最近,一些方法可以在一个阶段内完成预测。Newell等人(2017)引入了一种单级深度网络架构,以同时执行检测和分组。该网络可以为每个关节生成检测热图,以及包含每个关节的分组标签的关联嵌入图。一些方法采用多任务结构。帕潘德里欧等人(2018)提出了一种用于姿态估计和实例分割的无盒多任务网络。基于ResNet的网络可以同步预测每个人所有关键点的联合热图及其相对位移。然后分组从最有把握的检测开始,基于树形结构运动图的贪婪解码过程。Kocabas等人(2018)提出的网络结合了多任务模型,采用一种新颖的分配方法来处理人类关键点估计、检测和语义分割任务。它的主干网络是一个由ResNet和FPN组成的组合,具有关键点和人员检测子网的共享功能。人体检测结果被用作人的空间位置的约束。目前自下而上方法的处理速度很快,有的(曹等,2016;聂等,2018)可以实时运行。然而,性能会受到复杂背景和人的遮挡的很大影响。自上而下的方法在几乎所有基准数据集上都获得了最先进的性能,而处理速度受到检测到的人数的限制。
Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods_第4张图片

Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods_第5张图片

你可能感兴趣的:(人体姿态估计,计算机视觉,神经网络,深度学习,python,机器学习)