应用:人机交互、运动分析、增强现实和虚拟现实等领域。
现状:最近发展的基于深度学习的方法在人体姿态估计中取得了较高的性能,但由于训练数据不足、深度模糊等问题,仍然存在挑战。
目的:通过对基于深度学习的二维和三维位姿估计方法进行系统的分析和比较,根据它们的输入数据和推理过程,对目前基于深度学习的二维和三维位姿估计方法进行全面的综述。
在HPE任务中使用深度学习技术已经取得了显著的进展和显著的效果。然而,诸如遮挡、训练数据不足和深度模糊等挑战,2DHPE可以很容易地从带有2D姿势标注的图像和视频中获得,并且对于单个人的姿势估计已经达到了很高的性能,获得准确的3D姿态标注要比2D对应的要困难得多。一些工作已经使用了诸如深度传感器、惯性测量单元(IMU)和射频设备等传感器,但是这些方法通常不划算,并且需要专用硬件。
2001-2015年间公布的这些调查主要集中在常规方法上,没有深入学习。
后期的文献要么只涵盖了少数深度学习的方法,要么不够全面。
本次调查旨在解决以往调查的不足之处,不仅系统地回顾了最近基于深度学习的2D和3DHPE解决方案,而且还涵盖了HPE的其他方面,包括(2D和3D)HPE方法在流行数据集上的性能评估,它们的应用,以及综合讨论。
HPE分为两大类:2DHPE和3D HPE
§3.1:对于单人方法,有两类基于深度学习的方法:
(1)回归方法,通过基于深度学习的回归直接建立输入图像到人体关节坐标的映射;
(2)身体部位检测方法,包括两个步骤:第一步是生成关键点(即关节)的热图用于身体部位定位,第二步是将检测到的关键点组装成整个身体的姿势或骨架。
§3.2:对于多人方法,也有两种基于深度学习的方法:
(1)自上而下的方法,通过先检测人,然后利用单人HPE预测每个人的关键点来构造人体姿势;
(2)自下而上的方法,在不知道人数的情况下,首先检测身体关键点,然后将关键点组合成单独的姿势。
人体建模是HPE的一个重要方面,用来表示从输入数据中提取的关键点和特征。例如,大多数HPE方法使用N关节刚性运动学模型。人体是具有关节和肢体的复杂实体,包含人体运动结构和体型信息。在典型的方法中,采用基于模型的方法来描述和推断人体姿势,并绘制2D和3D姿势。人体建模通常有三种模型,即运动学模型(用于2D/3D HPE)、平面模型(用于2D HPE)和体积模型(用于3D HPE),如图2所示。
运动学模型,也称为基于骨架的模型或运动链模型,如图2(A)所示,包括一组关节位置和肢体方向来表示人体结构。这种灵活直观的人体模型在2DHPE[16][17]和3D HPE[18][19]中得到了成功的应用。虽然运动学模型具有图形表示灵活的优点,但在表示纹理和形状信息方面存在局限性。
平面模型还被用来表示人体的形状和外观,如图2(B)所示。在平面模型中,人体部位通常用近似人体轮廓的矩形表示。
基于深度学习的3D HPE方法中常用的3D人体模型恢复3D人体网格的方法。
SMPL:蒙皮多人线性模型是一个基于蒙皮顶点的模型,它代表了广泛的人体形状。SMPL可以用表现为软组织动力学的自然姿势相关的变形来模拟。为了了解人们是如何随着姿势变形的,在SMPL中,有1786个高分辨率3D扫描对象使用模板网格来优化混合权重[26]、与姿势相关的混合变形、平均模板形状以及从顶点到关节位置的回归。SMPL易于部署,并与现有的渲染引擎兼容,因此在3DHPE方法中被广泛采用。
动态人体运动模型试图为不同的身体形状表现真实的软组织运动。运动相关的软组织变形用一个低维线性子空间来近似。为了预测软组织运动的低维线性系数,使用了全身的速度和加速度,身体各部分的角速度和加速度,以及软组织的形状系数。此外,Dyna利用身体质量指数(BMI)为不同体型的人产生不同的变形。
缝合木偶模型是一个基于零件的图形模型,集成了逼真的身体模型。不同的三维体形状和与姿态相关的形状变化可以转化为相应的图形节点表示,身体的每个部位都由它自己的低维状态空间表示。身体各部分通过图中节点之间的成对电位连接在一起,从而将各部分“缝合”在一起。通常,通过势函数的部分连接是通过使用诸如置信传播(BP)之类的消息传递算法来执行的。为了解决各部分状态空间不易离散化的问题,采用了基于粒子的D-PMP模型的最大乘积BP算法。
弗兰肯斯坦和亚当:弗兰肯斯坦模型不仅产生人体运动参数,还产生面部表情和手势参数。此模型是通过混合各个组件网格的模型生成的:身体的SMPL、面部的Face Warehouse[31]和手部的美工人员。所有变换骨骼都合并到单个骨骼层次中,而每个组件的本地参数化保持不变,以表达身份和运动变化。亚当模型是由弗兰肯斯坦模型使用对人们衣服的大规模捕捉进行优化的。由于亚当能够表达舒曼的头发和服装几何图形,所以更适合在现实世界中表现人类。
Ghum&GHUML(ITE):在[32]中提出了一种完全可训练的端到端深度学习管道来建模静态和关节3D人体形状和姿势,GHUM是中分辨率版本,GHUML是低分辨率版本。GHUM和GHUML通过深度变分自动编码器框架中的高分辨率全身扫描(其数据集中超过60,000种不同的人类配置)进行训练。它们能够推断出一系列组件,如非线性形状空间、姿势空间变形校正器、骨架关节中心估计器,以及混合蒙皮功能。
二维HPE方法从图像或视频中估计人体关键点的二维位置或空间位置。传统的二维HPE方法对人体部位采用不同的手工特征提取技术[33][34],这些早期的工作将人体描述成一个棒状图形来获得全局结构。近年来,基于深度学习的方法在HPE领域取得了重大突破,显著提高了HPE的性能。本文从单人和多人两种情况出发,对基于深度学习的二维HPE方法进行了综述。
当输入为单人图像时,使用二维单人姿态估计来定位人体关节位置,如果有多个人,则首先对输入图像进行裁剪,使得每个裁剪的块(或子图像)中只有一个人。这一过程可以通过上身检测器或全身检测器自动实现。
一般来说,采用深度学习技术的单人管道有两类:回归法和身体部位检测法。回归方法应用端到端框架来学习从输入到身体关节或人体模型参数的映射。身体部位检测方法的目标是预测身体部位和关节的大致位置[][38],这些部位和关节通常由热图表示法监督。基于热图的框架现在被广泛用于2D HPE任务。
(A)回归方法直接学习(通过深层神经网络)从原始图像到运动学身体模型的映射,并产生关节坐标。
(B)身体部位检测方法利用热图的监督来预测身体关节位置。
有许多基于回归框架的工作从图像中预测关节坐标。使用AlexNet[1]作为骨干,DeepPose: Human Pose Estimation via Deep Neural Networks中Toshev和Szegedy提出了一种从图像中学习关键点的级联深度神经网络回归算法DeepPose。
由于DeepPose令人印象深刻的性能,HPE的研究范式开始从经典方法转向深度学习,特别是卷积神经网络(CNNs)。
基于GoogLeNet,Carreira等人,[42]提出了一种迭代误差反馈(IEF)网络,它是一种自校正模型,通过将预测误差注入到输入空间来逐步改变初始解。
Sun等人。介绍了一种基于ResNet-50的结构感知回归方法–“组合姿态回归”,该方法采用了包含人体信息和姿态结构的重新参数化的基于骨骼的表示方法,而不是传统的基于关节的表示方法。
Luvizon等人,提出了一种用于HPE的端到端回归方法,该方法利用软soft-argmax函数将特征图转换为全可微框架下的关节坐标,是一种良好的RICE编码特征。
对于基于回归的方法来说,编码丰富的姿势信息的良好特征是至关重要的。学习更好的要素表示的一种流行策略是多任务学习。通过在相关任务之间共享表示(例如,姿势估计和基于姿势的动作识别),该模型可以更好地在原始任务(位置估计)上进行泛化。
顺着这一方向,李等人提出了自己的观点。[46]提出了一种异构多任务框架,该框架由两个任务组成:通过建立回归模型从全图像中预测关节坐标;使用滑动窗口从图像中检测身体部位。Fan等人的研究成果。[47]提出了一种双源深度卷积神经网络(DS-CNN),用于判断补片中是否含有人体关节,以及确定补片中关节的准确位置,并提出了一种双源深度卷积神经网络(DS-CNN)。每个任务都对应一个损失函数,两个任务的组合会带来更好的结果。Luvizon等人。[48]学习了一个多任务网络,用于联合处理视频序列中的2D/3D姿势估计和动作识别。
HPE人体部位检测方法的目的是训练人体部位检测器来预测人体关节的位置。最近的检测方法撞击提出了一个热图预测问题。具体地说,目标是估计总共K个关键点的Kheatmap{H1,H2,.,HK}。每个关键点热图中的像素值Hi(x,y)表示关键点位于位置(x,y)的概率(参见图。3(B))。目标(或地面真实)热图由以地面真实联合位置[39][53]为中心的二维高斯生成。因此,通过最小化预测热图和目标热图之间的差异(例如,均方误差(MSE))来训练姿态估计网络。与联合坐标相比,热图保留了空间分布信息,为卷积网络的训练提供了更好的监督信息。因此,最近人们对利用热图来表示联合位置和开发用于HPE的有效的CNN架构越来越感兴趣。
Tompson et al.[53]将基于CNN的人体部位检测器与基于部位的空间模型相结合的二维HPE的学习框架。
Lifshitz等人。[55]提出了一种基于CNN的关节位置预测方法,该方法结合关键点投票和联合概率确定人体姿态表征。
魏等人[40]介绍了一种基于卷积网络的序列框架,称为卷积姿势机器(CPM),它通过多阶段处理来预测关键关节的位置(每个阶段的卷积网络利用前几个阶段产生的2D信任图,产生对身体部位位置的日益精确的预测)。
Newell et al.[38]提出了一种名为“堆叠沙漏”的编解码器网络(该网络中的编码器通过瓶颈挤压特征,然后由解码器对其进行扩展),在中间监督下重复自下而上和自上而下的过程。堆叠沙漏(SHG)网络由汇集和增加采样层的连续步骤组成,以捕获每个尺度的信息。从那时起,为HPE开发了SHG体系结构的复杂变体。
Chu等人。[65]设计了一种新颖的Hourglas残差单元(HRU),它利用具有更大感受场的滤波器的侧枝来扩展残差单元,以捕获不同尺度的特征。
Yang等人。[59]设计了多分支金字塔残差模块(PRM)来代替SHG中的残差单元,增强了深层CNN的尺度不变性。
随着生成性对抗性网络(GANS)[66]的出现,人们在HPE中对它们进行探索,以生成生物逻辑上合理的姿势配置,并区分高置信度和低置信度的预测,这可以推断出被遮挡身体部位的潜在姿势。
Chen等人。[67]构建了一个结构感知的条件对抗网络AdversarialPoseNet,该网络包含一个基于沙漏网络的位置生成器和两个用于区分合理和不合理体姿的鉴别器。
周埃塔尔。[68]构建了一个对抗性学习网络,两个堆叠的沙漏网络分别作为鉴别器和生成器,具有相同的结构。生成器评估每个节理的位置,判别器区分地面真实热图和预测热图。
与基于Gans的方法以HPE网络为生成器,利用鉴别器提供监督不同,Peng等人提出了一种基于Gans的方法。[69]将HPE网络作为鉴别器,利用增强网络作为生成器进行对抗性增强,开发了对抗性数据增强网络,以优化数据增强和网络训练。
除了为HPE进行有效的网络设计所做的这些努力外,还对HPE的身体结构信息进行了研究,为HPE网络的建设提供更多和更好的监督信息。
Yang等人。[70]设计了一种面向HPE的端到端CNN框架,该框架通过考虑人体各部分之间的空间和外观一致性,能够找到硬性否定。
文献[71]提出了一种结构化的特征级学习框架,用于推理HPE中人体关节之间的关系,该框架更丰富了人体关节的信息,提高了学习效果。
Ke等人。[72]设计了一种多尺度结构感知神经网络,该网络结合了多尺度监督、多尺度特征组合、结构感知丢失信息方案和关键点掩蔽训练方法改进复杂场景下的HPE模型。
Tanget al.[73]构建了一个基于沙漏的监督网络,称为深度学习的组成模型,用于描述人体各部位之间复杂而真实的关系,学习人体各部位的组成模式信息(人体各部位的方位、比例和形状信息)。
唐和吴[74]指出并不是所有的零件都是相互关联的,因此引入了一个基于零件的分支网络来学习特定于每个零件组的表示,而不是所有零件的共享表示。
视频序列中的人体姿势是(3D)时空信号。因此,对视频中的时空信息进行建模对于视频的HPE来说是非常重要的。
Jain等人[75]设计了一个包含两个分支的CNN框架,将颜色和运动特征合并到帧对中,以在HPE中建立一个富有表现力的时空模型。
菲斯特·埃塔尔。[76]提出了一种卷积网络,该网络能够利用来自多个帧的时间上下文信息,利用光流来对齐来自相邻帧的预测热图。
与以往基于视频的方法计算量大不同,Luoo et al.[60]提出了一种长短期记忆(LSTM)的递归HPE结构[77],以捕捉不同帧的时间几何一致性和依赖性,提高了视频HPE网络的训练速度。
张等人。[78]介绍了一个用于从帧中获取空间和时间信息的关键帧提议网络和一个用于高效的基于视频的位姿估计的人体姿势插值模块。
与单人HPE相比,多人HPE的难度和挑战性更大,因为它需要计算出人数和他们的位置,以及如何针对不同的人对关键点进行分组。为了解决这些问题,多人HPE方法可以分为自上而下方法和自下而上方法。自上而下的方法使用现成的人物检测器从输入图像中获得一组框(每个框对应一个人),然后将单人姿态估计器应用于每个人物框以生成多人姿势。与自上而下的方法不同的是,自下而上的方法首先在一幅图像中定位所有的身体关节,然后将它们分组到相应的对象。在自上而下的流水线中,输入图像的人数将直接影响计算时间。自下而上方法的计算速度通常比自上而下方法快,因为它们不需要单独检测每个人的姿势。图4示出了二维多人HPE方法的一般框架。
图4:多人2D HPE框架图。(A)自上而下的方法有两个子任务:(1)人体检测和(2)单人区域的姿势估计;
(B)自下而上的方法也有两个子任务:(1)检测身体部位的所有关键点候选;(2)将不同人体中的身体部位关联起来,并将它们组装成单独的姿势表示。
自上而下的流水线中,有两个重要部分:用于获得人物包围盒的人体检测器和用于预测这些包围盒内关键点位置的单人姿势估计器
工作重点是设计和改进HPE网络中的模块。肖等人,[62]在ResNet中添加了几个解卷积层(骨干网)建立一个简单而有效的结构,以生成用于高分辨率表示的热图。
Sunet等人。[81]提出了一种新的高分辨率网络(HRNet),通过并行连接多分辨率子网并进行重复的多尺度融合来获得可靠的高分辨率表示。
为了提高关键点定位的精度,Wang等人提出了一种新的关键点定位方法。[84]介绍了一个基于两阶段图和模型无关的框架,称为Graph-PCNN。它由定位子网和图姿态精化模块组成,定位子网用于获取粗略的关键点位置,图姿态精化模块用于获得精化的关键点定位表示。
为了获得更精确的关键点定位,蔡等人对此进行了研究。[86]引入残差步长网络(RSN)模块和PoseRefineMachine(PRM)模块,通过有效的层内特征融合策略学习精细的局部表示,并引入PoseRefineMachine(PRM)模块在局部表示和全局表示之间寻找折衷。
估计遮挡和截断场景下的姿势经常发生在多人环境中,因为肢体重叠是不可避免的。人体检测器可能会由于遮挡或截断而在自上而下管道的第一步中失败。因此,对遮挡或截断的鲁棒性是多人HPE方法的一个重要方面。
为此,Iqbal和Gall[88]建立了一个基于机器的卷积位姿估计器来估计联合候选位姿。然后利用整数线性规划(ILP)来解决关节与人的关联问题,即使在严重遮挡的情况下也能得到人体姿势。
***为了提高HPE在复杂场景中的性能,方等[89]设计了一种新的区域多人姿态估计(RMPE)方法。***具体地说,RMPE框架包括三个部分:对称空间变换网络(用于检测不精确包围盒内的单人区域)、参数非最大值抑制(用于解决冗余检测问题)和姿态制导建议生成器(用于扩充训练数据)。
帕潘德里欧等人。[79]建议的两阶段结构,包括一个更快的R-CNN个人探测器,用于为候选人体创建边界框,以及一个关键点估计器,用于预测位置通过使用一种热图偏移聚合的形式对关键点进行聚合。
整体方法在遮挡和杂乱的场景中运行良好。为了缓解HPE中的遮挡问题。
Chen等人提出了一种新的解决方案。[90]提出了一个级联金字塔网络(CPN),它包括两个部分:GlobalNet(预测眼睛、手等不可见关键点的特征金字塔网络)和RefineNet(集成了GlobalNet的所有层次特征和关键点挖掘损失的网络)。结果表明,CPN在预测关键点方面具有较好的性能。
Su等人。[91]设计了通道洗牌模块和基于空间和通道的注意残留瓶颈模块,实现了通道方向和空间信息的增强,更好地实现了遮挡场景下的多人位置估计。
邱等人。[92]针对人群位姿估计中的遮挡问题,开发了遮挡位姿估计与校正(OPEC-NET)模块和遮挡位姿数据集。
Umer等人。[93]提出了一种关键点对应框架,利用前一帧包含场景的时间信息恢复遗漏位置。该网络使用自监督来训练,以改善稀疏标注视频数据集中的姿态估计结果。
如图4(B)所示,自下而上的管线(例如,[94][95][96][17][97][98][99][100][101][102][103])具有两个主要步骤,包括人体关节检测(即,提取局部特征并预测人体关节候选)和针对单个身体的关节候选组合(即,将关节候选分组以建立具有部分关联策略的最终姿势表示)。
Pishchlin等人。[94]提出了一种基于快速R-CNN的人体部位检测器DeepCut,这是最早的两步自下而上方法之一。该算法首先检测所有的候选身体部位,然后对每个部位进行标记,然后用整数线性规划(ILP)将这些部位组装成最终的位置,但是深度切割模型的计算量较大。
为此,Insafutdinov等人提出了。[95]引入了Deeper Cut,通过应用更强大的身体部位检测器和更好的增量优化策略以及图像条件成对项来对身体部位进行分组,从而改进了DeepCut,从而提高了性能和速度。
后来,曹等人。[17]构建了一个名为OpenPose的检测器,该检测器使用卷积位姿机器40通过热图和部分亲和场(PAF)预测关键点坐标,从而将关键点与每个人关联起来。PAF是一组二维矢量场,带有编码肢体位置和方向的矢量地图。OpenPose极大地加快了自下而上的多人HPE的速度。
在OpenPose框架的基础上,朱等人提出了一种基于OpenPose框架的。[104]改进了OpenPose结构,通过增加冗余边来增加PAF中节点之间的连接,获得了比基线方法更好的性能。
虽然基于OpenPose的方法在高分辨率图像上取得了较好的压缩效果,但在低分辨率图像和遮挡情况下性能较差。为了解决这个问题,Kreiss等人。[100]提出了一种自下而上的方法PifPaf,该方法使用部件强度场(PIF)来预测身体部位的位置,使用部件关联场(PAF)来表示关节关联。在低分辨率和遮挡场景下,该方法优于以前基于OpenPose的方法。
由OpenPose激发[17]和堆叠式沙漏结构[38],Newell等人。[97]引入了一种单级深度网络来同时获得位姿检测和分组分配。
跟随[97],金等人。[102]提出了一种新的可微层次图分组(HGG)方法来学习人体部分分组。
在[97]和[81]的基础上,Cheng et al.[103]提出了一种HRNet的简单扩展–更高分辨率网络(Higher Resolution Network,Higher HRNet),它对HRNet生成的高分辨率热图进行去卷积处理,解决了自下而上多人位姿估计中尺度变化的难题。
自下而上的HPE方法也采用了多任务结构。帕潘德里欧等人。[105]介绍了PersonLabto将姿态估计模块和人物分割模块相结合进行关键点检测和关联。PersonLab由短程偏移(用于细化热图)、中程偏移(用于预测关键点)和长程偏移(用于将关键点分组为实例)组成。Kocabas等人。[106]提出了一种基于姿态残差网络的多任务学习模型MultiPoseNet,该模型可以同时完成关键点预测、人体检测和语义分割任务。
综上所述,随着深度学习技术的蓬勃发展,2D HPE的性能有了显著的提高。近年来,更深层次和更强大的网络已经提升了二维单人HPE(如DeepPose[36]和Stack HourglassNetwork[38])以及二维多人HPE(如AlphaPose[89]和OpenPose[17])的性能。
虽然这些工作在不同的2D HPE场景中取得了足够好的性能,但仍然存在问题。回归和人体部位检测方法在二维单人HPE中各有优势和局限性。回归方法可以通过端到端的框架学习从输入图像到关键点坐标的非线性映射,这提供了快速的学习范例和亚像素级的预测精度。然而,由于高度非线性问题,它们通常给出次优解[44]。人体部位检测方法,特别是基于热图的框架,由于(1)热图中每个像素的概率预测可以提高关键点定位的精度;(2)热图保留了空间位置信息,提供了更丰富的监控信息,因此在二维HPE中得到了更广泛的应用。然而,预测关键点的精度取决于热图的分辨率。当使用高分辨率热图时,计算成本和内存占用显著增加。
对于二维多人HPE的自上而下和自下而上两种管路,很难确定哪种方法更好,因为这两种方法在最近的工作中都得到了广泛的应用,各有优缺点。一方面,自上而下的流水线方法首先使用检测方法检测图像中的每个个体,然后使用基于单人的方法预测关键点的位置,从而获得更好的效果。在这种情况下,由于很大程度上去除了背景,每个检测到的人区域内的关键点热图估计都变得容易。另一方面,自下而上方法通常比自上而下方法更快,因为它们直接检测所有关键点并将其分组使用诸如亲和力链接[17]、关联嵌入[97]和按像素的关键点回归[107]的关键点关联策略转换成各个姿势。
面临的挑战
二维HPE中存在一些挑战,需要在未来的研究中进一步解决。首先是在显著遮挡下(例如,在人群场景中)对个人的可靠检测。自上而下的二维HPE方法中的人检测器可能无法识别高度重叠的人体边界。同样,对于遮挡场景中的自下而上方法,关键点关联的困难更为明显。
第二个挑战是计算效率。虽然像OpenPose[17]这样的一些方法可以在中等计算能力的特殊硬件上实现近实时处理(例如,在配备NVIDIA GTX 1080Ti GPU的机器上实现22FPS),但在资源受限的设备上实现网络仍然是困难的。现实世界中的应用(如在线教练、游戏、AR和VR)需要在商业设备上使用更高效的HPE方法,以便为用户带来更好的交互体验。
另一个挑战在于罕见姿势的有限数据,虽然目前二维HPE的数据集已经足够大(例如COCO数据集[108])来估计正常姿势(例如站立、行走、奔跑),但是这些数据集对于特殊姿势(例如跌倒)的训练数据有限,数据不平衡可能会导致模型偏差,从而导致在这些姿势上表现不佳。开发有效的数据生成或增强技术来生成额外的姿态数据以训练更健壮的模型将是有用的。
3DHPE以预测人体关节在三维空间中的位置为目标,能够提供与人体相关的丰富的三维结构信息,近年来引起了人们的极大兴趣。它可以应用于各种应用(例如,3D电影和动画产业、虚拟现实和在线3D动作预测)。虽然近年来二维HPE已经取得了很大的进步,但三维HPE仍然是一项具有挑战性的任务。现有的撞击3DHPE研究大多是从单目图像或视频出发的,这是一个不适定的逆问题,因为从3D投影到2D会丢失一维。当有多个视点可用或部署其他传感器(如IMU和LiDAR)时,利用信息融合技术,3DHPE可能是一个适定的问题。另一个限制是深度学习模型需要大量数据,并且对数据收集环境非常敏感。与2D人类数据集不同,在2D人类数据集中可以很容易地获得准确的2Dpose注释,而收集准确的3Dpose注释是耗时的,并且手动标记是不现实的。此外,数据集通常是从室内环境中选择的日常操作中收集的。最近的工作[109][110][111]已经通过交叉数据集推理验证了有偏数据集约束的模型泛化能力差的问题[112],在这一部分中,我们首先关注来自单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。在这一部分中,我们首先讨论基于单目RGB图像和视频的3D HPE,然后讨论基于其他类型传感器的3D HPE。
单目摄像机是二维和三维场景中使用最广泛的HPE传感器。近几年来的研究进展基于深度学习的来自单目图像和视频的2D HPE使研究人员能够将他们的工作扩展到3D HPE。具体地说,基于深度学习的三维HPE方法分为两大类:单视图三维HPE和多视点3D HPE。
从单目图像和视频的单一视图重建三维人体姿势是一项非常重要的任务,它受到自遮挡和其他对象遮挡、深度模糊和训练数据不足的困扰。这是一个严重的不适定问题,因为不同的3D人体姿势可以投影到相似的2D姿势投影。此外,对于建立在2D关节上的方法,2D身体关节的微小定位误差可能会导致3D空间中的大姿势失真。与单人情况相比,多人情况更为复杂。因此,它们将在下面单独讨论。
图5:单人3D HPE框架。
(A)直接估计法直接从二维图像中估计三维人体位置。(B)2D到3D提升方法利用预测的2D人体姿势(中间表示)来进行3D姿势估计。©基于模型的方法结合参数化的人体模型来恢复高质量的三维人体网格。由3Dpose和Shape网络推断出的3D姿态和形状参数被馈送到模型回归器以重建3D人体网格。部分数字来自[113]。
根据是否使用人体模型(如第2节所列)来估计3D人体姿势,单人3D HPE方法可分为无模型方法和基于模型的方法。
无模型方法。无模型方法不需要使用人体模型来重建三维人体表示。这些方法可进一步分为两类:(1)直接估计法和 (2)2D到3D提升法。
直接估计:如图5(A)所示,直接估计方法从2D图像中推断3D人体姿势,而不中间估计2D姿势表示,例如,[114] [115] [116] [43] [117] [118] [119]。早期的深度学习方法之一是由Li和Chan[114]提出的。他们采用浅层网络训练滑动窗口和姿态坐标回归同步训练人体部位检测。Liet等人提出了一种随访方法。[115]其中图像-3D姿势对被用作网络输入。分数网络可以给正确的图像-3D姿势对分配高分,给其他姿势对分配低分,但是这些方法效率很低,因为它们需要多个前向网络推理。Sun等人[43]提出了一种结构感知回归方法。他们没有使用基于关节的表示法,而是采用了更稳定的基于骨骼的表示法。成分损失是通过利用3D骨骼结构和基于骨骼的表示来定义的,这种表示编码了骨骼之间的远程相互作用。 Tekin等人的研究成果。[116]通过学习3Dpose到高维潜在空间的映射,对关节之间的结构依赖性进行了编码。学习的高维姿势表示可以强制3D姿势的结构约束。Pavlakos等人。[117]引入体积表示法,将高度非线性的三维坐标回归问题转化为吸积空间中易于处理的形式。体积中每个关节的体素可能性由卷积网络预测。利用人体关节的正常深度关系,降低了对精确三维地面真实姿态的要求。
2D到3D提升:由于最近2DHPE的成功,从中间估计的2D人体姿势推断3D人类姿势的2D到3D提升方法已经成为一种流行的3D HPE解决方案,如图5(B)所示。得益于最先进的2D姿势检测器的优异性能,2D到3D提升方法通常比直接估计方法性能更好。第一阶段采用现成的二维HPE模型估计二维位姿,第二阶段采用二维到三维提升的方法获得三维位姿。Chen和Ramanan[120]从库中对预测的2D姿势和3D姿势进行了最近邻匹配。但是,当3D姿势不是有条件地独立于给定2D姿势的图像时,3D HPE可能会失败。Martinez等人。[121]提出了一种简单有效的全连通残差网络,用于基于二维节点位置回归三维节点位置。尽管当时获得了最先进的结果,但由于过度依赖2Dpose探测器的重建模糊性,该方法可能会失败[118]。Tekin等人的研究成果[122]和周等人的观点[123]使用2D热图代替2D姿势作为估计3D姿势的中间演示。Moreno-Noguer[124]通过距离矩阵回归推导出三维人体姿势,其中2D和3D人体关节的距离被编码成两个欧几里德距离矩阵(EDM)。EDM对于面内图像的旋转和平移以及应用归一化操作时的缩放不变性都是不变的。Wang等人。[125]开发了一种两两排序的卷积神经网络(PRCNN)来预测两两人体关节的深度排序。然后,利用由粗到精的位姿估计器从2D关节和深度排序矩阵回归出3D位姿。Jahangiri和Yuille[126],Sharma等人。[127],Li和Lee[128]首先生成多个不同的3D姿势假设,然后应用排序网络选择最佳3D姿势。
考虑到人体姿势可以表示为关节为节点、骨骼为边的图形,已经应用了图形卷积网络(GCNS)通过展示有希望的性能[129] [130] [131] [132] [133]来解决2D到3D姿势提升问题。Choi等人。[131]提出了一种基于GCN的Pose2Mesh方法,从PoseNet中提炼出中间三维姿态。使用GCN,网格网用从网格拓扑构建的图形来回归网格顶点的3D坐标。CI等人[129]提出了一个通用的框架,称为局部连接网络(LCN),它利用全连接网络和GCN来编码局部联合邻域之间的关系。LCN克服了GCN权值分担方案损害姿态估计模型表示能力的局限性,结构矩阵缺乏灵活性,不能支持定制的节点依赖。赵等人。[130]解决了GCN中所有节点卷积滤波器分权矩阵的局限性。提出了一个语义GCN来研究这些语义信息和语义关系。语义图形卷积(SemGConv)运算用于学习边的通道权重。由于SemGConv层和非局部层是交织的,节点之间的局部和全局关系都被捕获。
3D HPE数据集通常从具有选定日常运动的受控环境中收集。野外数据的三维姿态标注很难获得。因此,对于具有不寻常姿势和遮挡的野外数据,3DHPE仍然是一个挑战。为此,一组2D到3D的提升方法注重从没有3D姿势标注的原始图像中估计3D人体姿势,如[109] [134] [135] [110] [111]。周等人。[109]提出了一种将野外图像的2个标注作为弱标签的弱监督转移学习方法。三维位姿估计模块与二维位姿估计模块的中间层相连。对于野外图像,2Dpose估计模块执行有监督的2D热图回归,弱监督3D姿势估计模块应用3D骨长约束导致的损失。在弱监督3D姿势估计模块中,2Dpose估计模块执行有监督的2D热图回归,并且在弱监督3D姿势估计模块中应用3D骨长约束引起的损失。Habibie et al.[134]定制投影损失以优化没有3D注释的3D人体姿势。设计了一个3D-2D投影模块,用于根据预测的早期网络层的3D姿势估计2D人体关节位置。投影损失用于更新3D人体姿势,而不需要3D注释。在[136]的启发下,Chen et al.[135]针对提升-再投影-提升过程,提出了一种基于闭包和不变提升性质且具有几何自洽损失的无监督提升网络。闭合是指对于提升的3D骨架,经过随机旋转和重新投影后,生成的2D骨架将位于有效2D姿态的分布范围内。不变性是指从3D骨架改变2D投影的视点时,重新抬起的3D骨架应该是相同的。
与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在先前的工作中。与从单块图像估计3D人体姿势不同,视频可以提供时间信息来提高3D HPE的准确性和鲁棒性,例如[137] [138] [139] [140] [141] [142] [143] [144]。Hossain和Little[145]提出了一种递归神经网络,它使用带有快捷连接的长短期记忆(LSTM)单元来利用人体序列中的时间信息。他们的方法利用序列到序列网络中的过去事件来预测时间上一致的3D位置。注意到空间约束和时间相关性之间的互补性通常被忽略在[140]的基础上,Chen等人在[147]的基础上增加了骨骼方向模块和骨骼长度模块,以确保人体解剖在视频帧上的时间一致性,而Liu等人则增加了骨骼方向模块和骨骼长度模块。[148]利用注意机制识别重要帧,并对大的时间接受场中的长期依赖关系进行建模。Zenget al.[133]采用拆分重组策略来解决罕见且看不见的姿态问题。首先通过分离的时域卷积网络分支将人体分割成局部区域进行处理,然后将从每个分支获得的低维全局上下文进行合并以保持全局一致性。
基于模型的方法。如图5©所示,基于模型的方法不包括如第2节所述的参数化身体模型(如运动学模型和体积模型)来估计人体姿势和形状。
运动学模型是由具有运动学约束的骨骼和关节连接而成的关节体表示,近年来在三维HPE中受到越来越多的关注。许多方法利用基于运动学模型的先验知识(例如骨骼关节连接性信息、关节旋转特性和固定的骨骼长度比)来估计似是而非的姿势,例如,[149] [19] [150] [151] [152] [153] [154] [155]。周等人。[149]将运动学模型作为运动层嵌入到网络中,以实施方向和旋转约束。Nie等人[150]和Lee等人。[156]采用了LSTM骨架网络,以利用联合关系和连通性。根据运动学结构,观察到人体各部分有明显的自由度(DOF),王等人说。[151]And Nie等人。[154]提出了双向网络对人体骨骼的运动学和几何依赖性进行建模。Kundu等人。[152]设计了一种基于能量损失推断局部运动学参数的运动学结构保留方法,并基于双亲相对局部肢体运动学模型对二维零件段进行了探索。Xu等人。[153]论证了噪声2D关节是实现精确3D位姿估计的关键障碍之一,因此采用2D位姿校正模块对不可靠的2D关节进行基于运动学结构的精化。赞菲特·艾尔。[158]引入了一种具有可微语义部分对齐损失函数的运动学潜在归一化流动表示(应用于原始分布的可逆变换序列)。与生成人体姿势或骨骼的运动学模型相比,体积模型可以恢复高质量的人体网格,提供额外的人体形状信息。作为最流行的体积度量模型之一,SMPL模型[25]由于与现有的渲染引擎兼容,在三维HPE中得到了广泛的应用,如[159] [160] [161] [162] [163] [164] [165] [166] [167] [168]等。Tan等人。[161]、董等人的研究成果。[162]Pavlakos等人。[169]和Omran等人。[170]回归SMPL参数以重建3D人体网格。Kolotouros等人没有预测SMPL参数。[171]利用Graph-CNN结构回归了SMPL网格点的位置。[172]将SMPL模型与层次网格变形框架相结合,增强了树形三维变形的灵活性。Kundu等人。[173]在SMPL模型中加入颜色恢复模块,通过反射对称性获取顶点颜色。Arnab等人。[113]指出使用SMPL模型的方法在野外数据上通常是失败的。他们使用束调整方法来处理遮挡、异常姿势和对象模糊。Doerschand Zisserman[165]提出了一种转移学习方法,通过在合成视频数据集超现实[174]上训练来回归SMPL参数。Kocabas等人。[175]包括大规模运动捕捉数据集[176],用于对其基于SMPL的方法VIBE(Video Inference For Body Pay And Shape Estimation)进行对抗性训练,VIBE利用海量通过姿势回归模块区分真实人体运动和预测姿势。由于低分辨率的视觉内容在现实场景中比高分辨率的视觉内容更常见,当分辨率降低时,现有的训练有素的模型可能会失败。[177]将对比学习方案引入到基于自监督分辨率感知SMPL的网络中,自监督对比学习方案使用自监督损失和对比特征损失来增强特征和尺度的一致性
有几种扩展的基于SMPL的模型来弥补SMPL模型的局限性,如计算复杂度高,缺少手和面部标志。Bogo等人。[159]提出了一种基于SMPLify的三维人体网格估计方法,该方法将SMPL模型拟合到检测到的2D节点上,使重投影误差最小。Lassneret等人提出了SMPLify的扩展版本。[160]。
采用随机森林回归方法回归SMPL参数,减少了运行时间,但仍不能达到实时吞吐量。金泽等人。[178]在此基础上,提出了一种对抗性学习方法来实时直接推断SMPL参数。Pavlakoset al.[179]在SMPLify方法的基础上,提出了SMPLify-X模型,该模型是借鉴AMASSDataSet[176]的改进版本。Hassan et al.[163]进一步扩展了SMPLify-XTO Prox-一种通过添加3D环境约束来实施与对象排除的最近关系的方法。Kolotouros等人。[164]在训练循环中使用SMPLify的同时,将基于回归和基于优化的SMPL参数估计方法集成到一种名为SPIN(SMPL OPTIMIZATION In The Loop)的新方法中。奥斯曼等人[180]将SMPL升级为STAR,训练时增加了10,000次扫描,以实现更好的模型泛化。模型参数个数减少到SMPL的20%。
除了使用基于SMPL的模型之外,还使用其他体积测量模型来恢复3D人体网格,例如,[181][182][183][184]。Chen等人。[182]引入圆柱体人模型,为3D数据生成遮挡标签,并进行数据增强。引入姿态正则项来惩罚错误估计的遮挡标签。香等人。[183]利用亚当模型[30]来重建三维运动。提出了一种三维人体表示方法,称为三维零件方向场(3D Part Orientation Field,POFS),用于编码人体各部位在二维空间中的三维方位。Wang等人。[185]提出了一种新的人体网格的骨级蒙皮模型,该模型通过设置骨长和关节角度,将骨建模和特定于身份的变化解耦。Fisch和Clark[186]提出了一个定向关键点模型,该模型可以计算6DHPE的全三轴旋转,包括偏航、俯仰和横摇。
对于来自单目RGB图像或视频的3D多人HPE,此处注意到与2D多人HPE类似的类别:自上而下方法和自下而上方法,分别如图6(A)和图6(B)所示。3.2节中二维自上而下和自下而上方法的比较也适用于三维情况。
三维多人HPE自上而下的方法是先进行人体检测,再进行个体检测。然后对每个检测到的人,通过三维姿态网络估计绝对根(人体的中心关节)坐标和三维根相对姿态。基于每个人的绝对根坐标及其根相对姿势,所有姿势都与世界坐标对齐。**[188]定位每个人物的候选区域以生成潜在姿势,并使用回归算子联合细化姿势方案。这种定位-分类-回归方法(LCR-Net)在受控环境数据集上表现良好,但不能很好地推广到野外图像。为了解决这个问题,Rogez等人[189]提出了LCR-NET++,通过对训练数据进行合成数据扩充来提高性能。赞菲特·艾尔。[190]增加了带场景约束的3D多人HPE模块的语义分割。此外,采用匈牙利匹配方法解决了基于视频的多人三维HPE的三维时间分配问题。穆恩等人。[191]介绍了一种相机距离感知的方法,即将裁剪后的人体图像送入他们开发的RootNet中,以估计人体根部的相机中心坐标。然后是根相对3D每个修剪过的人的姿势都是由建议的PoseNet估计的。Benzine等人。[192]**提出了一种基于姿态估计和检测锚点的单发PandaNet(Pay Estimation and Detection Anchor-based Network)方法。为了避免遮挡问题,引入了一种基于锚点的低分辨率表示方法。开发了一个姿态感知锚点选择模块,通过去除模糊锚点来解决重叠问题,并使用不同尺度下损失的自动加权来处理不同体型的人的不平衡问题。Li等人。[193]解决了自上而下方法中缺乏全球信息的问题。它们采用层次化的多人序关系方法,利用本体层次、语义和全局一致性对交互信息进行层次化编码。
与自上而下的方法不同,自下而上的方法首先生成所有的身体关节位置和深度图,然后根据根部深度和部分相对深度将身体部位与每个人相关联。自下而上方法的一个关键挑战是如何对属于每个人的人体关节进行分组。赞菲尔·埃塔尔。[194]将人员分组问题表述为二进制整数规划(BIP)问题。肢体评分模块用于估计被检测关节的候选运动连接,骨架分组模块通过求解BIP问题将肢体组装成骨架。Nie等人[101]提出了一种单级多人姿态机器(SPM),为每个人定义唯一的身份根关节,利用密集的位移图将身体关节与每个根关节对齐。然而,该方法的局限性在于,只有配对的2D图像和3D姿势注释才能用于有监督学习。在没有配对的2D图像和3D姿势注释的情况下,Kundu等人。[195]提出了一种冰冻网络,在实际部署范例下开发两种不同模态之间共享的潜在空间,从而将学习归结为一个跨模型对齐问题。Fabbri等人。**[196]**提出了一种基于距离的多人设置关节连接启发式算法,从检测到的头部(即置信度最高的关节)开始,根据三维欧氏距离选择距离最近的关节进行连接。
自下而上方法的另一个挑战是遮挡。为了应对这个挑战,Metha等人。[197]提出了一种遮挡-鲁棒姿势图(ORPM)方法,将冗余率加入到位置图公式中,从而促进了热图中的人的关联,特别是对于被遮挡的场景。甄氏等人。[187]通过对人与人之间的遮挡和骨骼长度约束的推理,利用深度感知部分关联算法为个体分配关节。Mehta等人。[198]快速推断可见身体关节的中间3D姿势,而不考虑准确性。然后,利用学习到的姿态先验和全局上下文,通过推断被遮挡的关节来重建完整的三维姿态。通过应用时间相关性和拟合运动学骨骼模型,最终的3D姿势被细化。
自上而下和自下而上方法的比较自上而下的方法通常依靠最先进的人物检测方法和单人姿势估计方法来获得令人满意的结果。但是,随着人数的增加,特别是在拥挤的场景中,计算复杂度和推理时间可能会变得过大。而且,由于自上而下方法首先检测每个人的包围盒,场景中的全局信息可能会被忽略。裁剪区域的估计深度可能与实际深度排序不一致,并且预测的人体可能被放置在重叠位置。相反,自下而上方法具有线性计算和时间复杂性。然而,如果目标是恢复三维人体网格,那么自下而上的方法重建人体网格并不是一帆风顺的。对于自上而下的方法,在检测到每个人之后,通过结合基于模型的3D单人HPE估计器,可以很容易地恢复每个人的人体网格。而对于自下而上的方法,需要额外的模型回归模块来根据最终的三维姿态重建人体网格。
单视环境下三维HPE的部分遮挡是一个具有挑战性的问题。克服这个问题的自然解决方案是从多个视图估计3D人体姿势,因为一个视图中的遮挡部分在其他视图中可能会变得可见。为了从多个视图重建三维姿态,需要解决不同摄像机之间对应位置的关联问题。
一组方法[199] [200] [201] [202] [203]利用人体模型通过优化模型参数使模型投影与二维姿态相匹配来解决关联问题。广泛使用的3D图片结构模型**[204]就是这样的模型。然而,这些方法通常需要较大的内存和较高的计算代价,特别是对于多视点环境下的多人三维HPE。罗丁·埃塔尔。[205]在网络中采用了多视点一致性约束,但需要大量的三维地面实况训练数据。为了克服这一限制,罗丁·埃塔尔(Rhodin Etal)。[206]在此基础上,提出了一种编解码器框架,用于从多视图图像和背景分割中学习几何感知的3D潜在表示,而不需要3D注释。Chen等人。[207] [中英文摘要]、董某等人。[202]** [中英文摘要]、Chenet al.[208]、Mitra等人。[209],Iqbal等人。[210]、张某等人[211]、黄某等人。[212]提出了具有一致性约束的多视点三维人体姿态重建框架。Pavlakos等人。[199]和张等人的研究成果。[213]基于所有标定的摄像机参数,将多视角图像的2D关键点热图聚合成3D图片结构模型。但是,当多视角摄像机环境发生变化时,需要对模型进行重新训练。梁等人。[201]和Habermann等人[214]从多视图图像中推断出非刚体3D变形参数以重建3D人体网格,KadkhoDamohammadi和Padoy[215],邱等人。[200]和Kocabas等人。**[216]**采用对极几何匹配成对多视点姿态进行三维姿态重建,并将其方法推广到新的多视点摄像机环境中。应当注意,在没有周期一致性约束的情况下单独匹配每对视图可能导致不正确的3D姿势重建[202]。Tu等人[203]在3D体素空间中聚合了每个摄像机视图中的所有特征,以避免每个摄像机视图中的错误估计。设计了一个长方体建议网络和一个姿态回归网络,分别用于定位所有人和估计三维姿态。当给出足够的观点时(超过十个),使用所有视点进行三维姿态估计是不现实的。Pirinen等人。[217]提出了一种自监督强化学习方法,通过三角剖分选择少量视点进行三维姿态重构。
在多视点HPE中,除了精度外,还需要考虑轻量级的体系结构、快速的推断时间和对新摄像机设置的高效适应。与**[202]将所有视点输入匹配在一起相比,Chen等人提出了一种新的方法。[218]应用迭代处理策略,在迭代更新3D姿势的同时,将每个视图的2D姿势与3D姿势进行匹配。与以前的方法相比,它们的运行时间可能会随着摄像机数量的增加而爆炸,它们的时间复杂度是线性的。Remelli等人。[219**]将每个视图的编码图像编码成一个统一的潜在表示,使特征地图从摄像机视点中解脱出来,作为一种轻量级的规范融合,使用基于GPU的直接线性变换将这些2D表示提升到3D姿态,以加快处理速度。为了提高多视点融合方案的泛化能力,Xieet et al.[220]提出了一种预先训练的多视点融合模型(MetaFuse),该模型能够有效地适应新的摄像机场景,标签数据较少。他们部署了模型不可知的元学习框架来学习用于适应的通用融合模型的最佳初始化。
虽然单目RGB相机是3D HPE最常用的设备,但其他传感器(如深度传感器、IMU和射频设备)也可用于此目的。
深度传感器以其低成本和高利用率的特点在三维计算机视觉任务中受到越来越多的关注,作为三维HPE的关键挑战之一,深度传感器的使用可以缓解深度模糊问题。Yu等人在[221]中提出了一种称为DoubleFusion的单视图实时方法,可以在不使用图像的情况下从单深度传感器估计3D人体姿势。内层通过体积表示重建三维形状,外层通过融合更多的几何细节来更新体形和姿态。熊某等人。**[222]**提出了一种基于深度图像的锚杆-关节回归网络(A2J)。通过将估计的多个锚点与全局-局部空间上下文信息相结合来估计三维关节位置。KadkhoDamohammadi等人。[223]采用多视角RGB-D摄像机采集真实手术室环境中含有深度信息的彩色图像,采用随机森林先验算法融合先验环境信息。最后通过多视角融合和RGB-D优化估计最终的三维姿态。[224]从RGB-D视频中重建具有高分辨率反照率纹理的细节网格。
与深度图像相比,点云可以提供更多的信息。最先进的点云特征提取技术PointNet**[225]和PointNet++[226]在分类和分割任务中表现出了优异的性能。江等人。[227]将Point-Net++与SMPL人体模型相结合进行三维人体姿态回归,改进后的PointNet++结合图聚合模块可以提取更多有用的无序特征。映射后骨架图模块提取有序特征,回归SMPL参数,进行精确的三维位姿估计,通过关注模块将有序的骨架关节特征转化为有序的骨架关节特征。王等人。[228]**提出了基于时空网格卷积的PointNet++精细化三维人体网格预测方法。
可穿戴式惯性测量单元(IMU)通过记录运动,在没有物体遮挡和衣物遮挡的情况下,跟踪人体特定部位的方位和加速度。然而,在使用IMU时,可能会出现漂移问题。Marcard等人。[229]提出了一种稀疏惯性位置器(SIP),用于从附着在人体上的6个IMU重建人体姿势。收集到的信息被拟合到带有相干约束的SMPLbody模型中,以获得准确的结果。Marcard等人。**[230]进一步将6-17个IMU传感器与用于野外3DHPE的手持式移动摄像机相关联。介绍了一种基于图的优化方法,将每个2D人物检测分配给来自远程帧的3D姿势候选者。Huang et al.[231]解决了稀疏惯性位姿(SIP)方法的局限性[229],多个姿态参数可以产生相同的IMU方位,且采集IMU数据耗时。因此,通过在SMPL网格上放置虚拟传感器以从海量数据集[176]的运动捕获序列中获得方向和加速度,创建了一个大的合成数据集。提出了ABI-Directional RNN框架,利用过去和将来的信息将IMU方向和加速度映射到SMPL参数。张等人。[232]引入了一种定向正则化图像结构模型,用于从与IMU定向相关的多视图热图中估计3D姿态。Huang et al.[233]**提出了一种将IMU数据与多视图图像进行融合的两阶段方法DeepFuse,第一阶段只处理多视图图像来预测体积表示,第二阶段使用IMU来通过IMU骨骼精化层来细化3D姿势。
基于射频(RF)的传感技术也已用于定位人。无需携带无线发射器就可以在WiFi范围内穿越墙壁和弹离人体是部署基于射频的传感系统的主要优势,同时由于非视觉数据可以保护隐私,但是与可视摄像机图像相比,射频信号的空间分辨率相对较低,并且射频系统需要生成粗略的3D位姿估计。赵等人在**[234]中提出了一种基于射频的深度学习方法,称为RF-POSE,用于估计多人场景中的2D姿势。后来的扩展版本,命名为RF-Pose3D[235],可以估计多人的3D骨骼。在此基础上,赵等人[236]**提出了一种基于多头注意模块的时态对抗性训练方法RF-Avtal,利用SMPL人体模型恢复完整的3D人体模型。
除使用上述传感器外,Isogawa等人。[237]从由在线视距(NLOS)成像系统捕获的光子的3D时空直方图估计3D人体姿势。Tome et al.[238]解决了通过鱼眼摄像机进行以自我为中心的3D姿势估计的问题。Saini等人。**[239]使用多个自主微型飞行器(MAV)捕获的图像估计人体运动。聪明人等人。[240]**从压力图像中聚焦于床上睡觉位置的HPE由压力感应垫收集。
三维HPE近年来取得了很大的进展,由于大量的3D HPE方法采用了2D到3D的提升策略,使得3D HPE的性能有了很大的提高,OpenPose[17]、CPN[90]、AlphaPose**[89]和HRNet[81]**等2D HPE方法在3D HPE方法中被广泛用作2D姿态检测器。除了3D姿势之外,一些方法还可以从图像或视频中恢复3D人体网格,例如[164] [175] [241] [242]。然而,尽管到目前为止已经取得了进展,但仍然存在几个挑战。
其中一个挑战是模型泛化。高质量的三维地面真实姿态标注依赖于运动捕捉系统,而运动捕捉系统不容易部署在随机环境中。因此,现有的数据集主要是捕捉无约束场景。最先进的方法可以在这些数据集上取得令人振奋的结果,但当应用于野外数据时,它们的性能会下降。游戏引擎可以生成具有不同姿势和复杂场景的合成数据集,例如超现实数据集**[174]**和GTA-IM数据集[243]。然而,由于合成数据分布与真实数据分布之间的差距,从合成数据中学习可能达不到期望的性能。
与二维HPE一样,对遮挡的鲁棒性和计算效率也是3D HPE面临的两个关键挑战。目前的3D HPE方法在拥挤的场景中,由于严重的相互遮挡和可能的低分辨率内容,性能会有相当大的下降。三维HPE比二维HPE对计算的要求更高。例如,2D到3D提升方法依赖于2D姿势作为推断3D姿势的中间表示。因此,在保持高精度位姿估计的同时,开发计算效率高的二维HPE管线显得尤为重要。
在进行HPE时,非常需要数据集。为了在不同的算法之间提供公平的比较,它们也是必要的。由于应用场景的复杂性和多样性,收集一个全面的、通用的数据集是一个挑战。为了评估和比较基于不同度量的结果,我们收集了一些数据集。在这一部分中,我们介绍了用于HPE的传统数据集,以及用于基于2D和3D深度学习的HPE方法的更新的数据集,在这一部分中,我们将介绍HPE中使用的传统数据集,以及最近用于基于2D和3D深度学习的HPE方法的数据集。除了这些具有不同功能和任务要求的数据集之外,本节还涵盖了二维和三维HPE的几个常用评估指标。并总结了现有方法在流行数据集上取得的结果。
在深度学习应用于人体姿态估计之前,已经有了大量的二维人体姿态数据集。这些数据集有两种类型:(1)上半身姿势数据集,包括Buffy Stickmen[244]、ETHZ Pascal Stickmen[245]、We AreFamily[246]、Video Pose 2[247]和Sync。活动[248];以及(2)全身姿势数据集,包括Pascal PersonLayout[249]、Sports[250]和UIUC People[251]。然而,目前使用这些二维HPE数据集的工作很少,因为它们有很多局限性,如缺乏多样的目标运动和图像数量少。由于基于深度学习的方法是由大量的训练数据推动的,因此本节只回顾大规模的2D HPE数据集。它们在表2中归纳为两个不同的类别(基于图像和基于视频)。
[252]是最早的基于图像的二维HPE数据集之一,它包含了从好莱坞电影中自动收集的5003幅图像,其中约4000幅图像用作训练集,其余的用作测试集。FLIC数据集使用名为Poselets[260]的身体部位检测器,从30部流行好莱坞电影的每10帧中获得约20K个候选人物。这些图像中的对象有不同的姿势。从电影中获取的全套帧被称为FLIC-FULL数据集。它是原始FLIC数据集的超集,包含20,928个遮挡的非正面样本。在[53]中引入了一种新的基于FLIC的数据集,命名为FLIC-PLUS,它通过删除与FLIC数据集中的测试集包含相同场景的所有图像来实现。数据集链接:https://bensapp.github.io/flic-dataset.html
[16]有2,000张来自Flickr的注释图片和8个运动标签,涵盖不同的运动项目,包括田径、羽毛球、棒球、体操、跑酷、足球、网球和排球。在LSP数据集中,每个人的全身共标记了14个关节,此外,利兹运动姿势扩展数据集(LSP-Extended)[254]扩展了LSP数据集,仅用于训练。LSP扩展数据集具有超过10,000个来自Flickr的映像。在最近的研究中,LSP和LSP扩展的数据集已经用于单人HPE。数据集链接:https://sam.johnson.io/research/lsp.html
[253]是用于评估人工HPE的流行数据集。该数据集包含约25,000张图像,其中包含40,000多个带有注释的人体关节,并在[261]的基础上,采用两级分层的方法系统地收集图像,以捕捉日常的人体活动。整个数据集涵盖了410个人类活动,并且所有的图像都进行了标记。每张图片都是从YouTube视频中提取出来的,并提供了前后未加注释的帧。此外,丰富的注释包括工作人员在Amazon Mechanical Turk上重新标记了身体部位闭塞、3D躯干和头部方向。MPII中的图像适用于2D单人或多人HPE。数据集链接:http://human-pose.mpi-inf.mpg.de/#
[108]是目前使用最广泛的大规模数据集,它拥有33万多幅图像和20万个带有关键点的标记对象,每个人都被标记了17个关节。COCO数据集不仅可用于姿态估计和分析,还可用于自然环境中的目标检测和图像分割、上下文识别等。针对HPE的COCO数据集有两个版本:COCO Key Points 2016和COCO KeyPoints 2017,分别由COCO 2016 Keypoint Detection Challest和COCO 2017 Keypoint DetectionChallest托管。COCO 2016和COCO 2017的不同之处在于培训、验证和测试拆分。COCO数据集在多人HPE工作中得到了广泛的应用。此外,金等人也提出了自己的观点。[262]针对HPE提出了带全身标注的COCO-WholeBody数据集。数据集链接:https://cocodataset.org/#home
[255]是目前最大的二维HPE训练数据集。它有30万张带注释的图像,用于关键点检测。共有21万张图片用于训练,3万张图片用于验证,60多万张图片用于测试,这些图片是从互联网搜索引擎上收集的,主要集中在人们的日常活动上。数据集链接:https://challenger.ai/
[256]是适用于拥挤和遮挡场景中的二维HPE的最新数据集之一。该数据集包含从30,000幅图像中选取的20,000幅图像,使用人群指数(一种度量满足均匀分布来判断图像中的拥挤程度)。训练、验证和测试数据集分别有10,000个图像、2,000个图像和8,000个图像。数据集链接:https://github.com/Jeff-sjtu/CrowdPose
[257]由2326个视频序列和15个不同动作和人类联合注释组成,这些视频包含带有体育动作注释的帧:棒球场、棒球挥杆、网球正手、网球发球、板凳推举、保龄球、挺举、高尔夫挥杆、跳绳、跳跃千斤顶、向上拉、向上推、仰卧起坐、蹲下和弹奏吉他。图像的注释是使用Amazon Mechanical Turk标记的。数据集链接:http://dreamdragon.github.io/PennAction/
[258]是一个完全注释的视频数据集,用于动作识别、人体检测和HPE。有21个动作类别,包括刷发、接球、拍手、爬楼梯、高尔夫、跳、踢球、捡、倒、引体向上、推、跑、射球、射弓、射枪、坐、站、挥舞棒球、扔、走和挥手。有928个视频剪辑,包括31,838个注释帧。基于Amazon Mechanical-Turk的二维铰接式人体木偶模型被用来生成所有的注释。J-HMDB数据集中70%的图像用于训练,睡觉图像用于测试。数据集链接:http://jhmdb.is.tue.mpg.de/
[259]是一个用于视频分析中的多人姿态估计和关节跟踪的大规模数据集。视频中的每个人都有唯一的带有注释的曲目ID。PoseTrack包含1,356个视频序列、大约46,000个带注释的视频帧和276,000个身体姿势注释,用于训练、验证和测试。数据集链接:https://posetrack.net/
正确部位百分率(PCP)[263]是二维HPE早期工作中仅使用的一种测量方法,它通过评估预测来报告肢体的定位精度,当预测关节与地面真实关节之间的距离小于肢体长度的一小部分(在0.1~0.5之间)时,确定肢体的定位。在一些工作中,PCP度量也被称为[email protected],其中阈值是0.5。此度量用于LSP数据集,用于单人HPE评估。然而,最近的研究并没有广泛应用PCP,因为它对难以检测的短肢进行倾斜处理,当模型具有较高的PCP度量时,模型的性能被认为是更好的。为了解决PCP的缺点,引入了关节检测百分比(PDJ),其中如果预测关节与真实关节之间的距离在躯干直径的一定分数内,则认为预测关节是检测到的[36]。
[264]还用来衡量在给定阈值内不同关键点的定位精度。将阈值设置为每个测试图像的头部段长度的50%,并将其表示为[email protected]。当检测到的关节与真实关节之间的距离小于躯干直径的0.2倍时,PCK称为[email protected]。PCK值越高,模型性能越好。
AP Measure是根据查准率(真阳性结果与总阳性结果的比率)和召回率(真阳性结果与地面事实阳性总数的比率)来衡量关键点检测准确性的指标。AP计算的是查全率大于0到1的平均精确值。AP有几个类似的变体。例如,在[264]中引入了关键点平均精度(APK)。平均精度(MAP)是所有类别的平均精度的平均值,是MPII和PoseTrack数据集上广泛使用的度量。平均召回率(AR)是COCO关键点评估中使用的另一种度量[265]。目标关键点相似度(OKS)在目标检测中的作用类似于并集交集(IOU),用于AP或AR。这个度量是根据对象的尺度以及预测点和地面真实点之间的距离来计算的。COCO评估通常使用超过10OKs阈值的mAP作为评估指标。
表3:使用PCP测量(针对躯干、头部、腿部、手臂和全身等个体肢体)和“以人为中心”注释的LSP数据集上不同2D单人HPE方法的比较。最好的两个分数分别标为红色和蓝色。
表4:使用[email protected]测量的二维单人HPE的MPII数据集上不同方法的比较(即阈值等于每个测试图像头部段长度的50%)。最好的两个分数分别用红色和蓝色标记。表5:在使用mAPMeasure的MPII数据集的全部测试集上,不同的2D多人HPE方法的比较。最好的两个分数分别用红色和蓝色标记。表6:在使用AP MEASURE的COCO数据集的TEST-DEV集合上的不同2D多人HPE方法的比较(AP.5表示OKS=0.50的AP,AP.75表示OKS=0.75的AP,AP(M)用于中等对象,AP(L)用于大对象)。最好的两个分数分别用红色和蓝色标记。
在表3∼6中,我们总结了不同的二维HPE方法在流行数据集上的性能,以及相关的和常用的评估指标。为了在LSP数据集上进行比较,表3中采用了PCP度量来评估基于身体检测的方法和基于回归的方法的性能。表4显示了使用[email protected]度量在MPII数据集上使用不同的2D HPE方法的比较结果。值得注意的是,人体检测方法通常比回归方法具有更好的性能,因此在最近的二维HPE研究中得到了更多的关注。在表5中,报告了MPII数据集的完整测试集上的MAP比较。表6显示不同2D HPE方法在COCO数据集的TEST-DEV集上的实验结果,以及每种方法的实验设置(额外数据、模型中的主干、输入图像大小)和AP得分的汇总。
与众多具有高质量标注的二维人体姿态数据集相比,获取准确的三维人体姿态标注是一项具有挑战性的任务,需要运动捕捉系统(如MOCAP和可穿戴IMU)。由于这一要求,许多三维姿态数据集都是在受约束的环境中创建的。这里,表7总结了不同设置下广泛使用的3D位置数据集。
HumanEva数据集[266]包含7个校准的视频序列(4个灰度和3个彩色),其中地面真实3由商业MOCAP系统从ViconPeak捕获。该数据库由4名受试者组成,在3m×2m的区域内执行6种常见动作(步行、慢跑、打手势、投球和接球、拳击和组合)。数据集链接:http://humaneva.is.tue.mpg.de/
[267]是从单目图像和视频中获取3D HPE的最广泛使用的室内数据集。11名专业演员(6名男性和5名女性)在室内实验室环境中从4种不同的视角进行17项活动(如吸烟、拍照、打电话),该数据集包含360万个3D人体姿势,并通过基于精确标记的MoCap系统捕获3D地面真实注释。有3种协议,具有不同的训练和测试数据分割。协议#1使用对象S1、S5、S6和S7的图像进行训练,使用对象S9和S11的图像进行测试。协议#2使用与协议#1相同的训练-测试分离,但是预测在与地面事实比较之前通过刚性变换进一步后处理。协议#3使用对象S1、S5、S6、S7和S9的图像进行训练,使用对象S11的图像进行测试。数据集链接:http://vision.imar.ro/human3.6m/
这是一个由多摄像机摄影棚中的商用无标记MOCAP系统捕获的数据集,共有8名演员(4男4女)执行8项人类活动,包括行走、坐着、复杂运动和动态动作。超过130万帧来自14台摄像机的视频被记录在一个允许自动分割和增强的绿屏工作室中。数据集链接:http://gvv.mpi-inf.mpg.de/3dhp-dataset/
包含IMU和Vicon标签的完全同步视频,超过190万帧。有13个传感器放置在身体的关键部位,如头部、上下背部、上下肢和脚。这些数据是用8个校准的全高清摄像机在室内收集的,频率为60 Hz,大小约为4×6 m2。共有5名演员(4名男性和1名女性)表演动作,重复3次,包括行走、跑步和自由泳。数据集链接:https://cvssp.org/data/totalcapture/
包含65个序列(5.5小时),包含150万个多人的3D骨骼。此数据集由无标记运动捕获系统捕获,该系统具有480个VGA摄像机视图、超过30HD视图、10个RGB-D传感器和校准的基于硬件的同步系统。测试集包含4个活动(最后通牒、黑手党、讨价还价和披萨)的高清摄像机拍摄的9600帧。数据集链接:domedb.erception.cs.cmu.edu/
由手持摄像机收集,Imus在自然场景中捕捉日常活动(例如,在城市购物、上楼、做运动、喝咖啡和乘坐公交车)。这个数据集中有60个视频序列(超过51,000帧),相应的3D姿势是由可穿戴IMU计算的。测试集包含来自4个高清摄像机的9,600帧活动(最后通牒、黑手党、讨价还价和披萨)。数据集链接:https://virtualhumans.mpi-inf.mpg.de/3DPW/
是由MPI-INF-3dHP单人数据集和多视点无标记运动捕捉系统中的地面真实3D姿态组成的多人3D训练集。应用背景增强和人物外观的阴影感知前景增强来实现数据多样性。数据集链接:http://gvv.mpi-inf.mpg.de/projects/SingleShotMultiPerson/
是一个多人3D测试台,它的地面真实3D姿势是由一个包含20个真实世界场景(5个室内和15个室外)的多视点无标记MOCAP系统捕获的。有一些具有挑战性的样本,遮挡,剧烈的照明变化,以及一些户外镜头的闪光。8名受试者在20个序列中收集了8000多帧。数据集链接:http://gvv.mpi-inf.mpg.de/projects/SingleShotMultiPerson/
通过统一15个不同的基于光学标记的MOCAP数据集,并使用SMPL模型来表示人体运动序列来创建。这个庞大的数据集包含超过40个小时的运动数据,包含8593个900万帧的序列,采样频率为60 Hz。超过300名受试者记录了11000多个动作。数据集链接:https://amass.is.tue.mpg.de/
通过使用RenderDoc截取游戏引擎和显卡之间的调用,从NBA2K19视频游戏中提取。合成数据集包含27个受试者的27,144个篮球姿势。该数据集中提供了35个关键点的3D姿势和相应的RGB图像,质量很高。数据集Link:https://github.com/luyangzhu/NBA2K-dataset
是由GTA游戏引擎从GTA视频游戏中收集的GTA室内运动数据集。有一百万个1920×1080分辨率的RGB-D帧,包含98个关节的真实3D人体姿势,涵盖坐、走、爬和开门等各种动作。每个场景包含几个场景,如起居室、卧室和厨房,强调人与场景的互动。数据集链接: https://people.eecs.berkeley.edu/∼zhecao/hmp/
是一个多视图合成数据集,带有图像中关节的遮挡标签。Un-realCV[272]用于从3D模型渲染多视图图像和深度图。在半径为2米的圆周上,每45度共使用8台摄像机,该数据集包含73K帧,包含20.3%的关节。还提供了地面真实3D注释和遮挡标签。数据集链接:https://github.com/zhezh/occlusion Person
(每个关节的平均位置误差)是评估3D HPE性能的最广泛使用的评估指标。MPJPE是通过使用估计的3D关节和地面真实位置之间的欧几里德距离计算的,其中N是节理数目,Ji和J∗i分别是第i个节理的地面真实位置和估计位置。如下所示:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-W8pqWMPM-1646891579665)(C:\Users\w1732\AppData\Roaming\Typora\typora-user-images\image-20220309191315193.png)]
也称重建误差,是指估计出的位姿与地面真实位姿之间经过后处理进行刚性对准后的MPJPE。
定义为将尺度上的预测位置归一化到参考[205]之后的MPJPE。
(逐顶点平均误差)[169]测量地面真实顶点和预测顶点之间的欧几里得距离,其中N是顶点数,V是地面真实顶点,V∗是估计顶点。如下所示[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XXurNsdV-1646891579666)(C:\Users\w1732\AppData\Roaming\Typora\typora-user-images\image-20220309191551478.png)]
是2D HPE评估中使用的正确关键点百分比(PCK)度量的3D扩展版本。如果估计与地面真实之间的距离在一定阈值内,则认为估计的关节是正确的。通常,阈值设置为150 mm
表8∼11提供了在对应于单视图单人、单视图多人和多视图场景的广泛使用的数据集上的不同3DHPE方法的性能比较。
在表8中,大多数3D单视单人HPE模型在Human3.6M数据集上成功地估计了3D人体姿势,并且具有显著的精度。虽然人类3.6M数据集有大量的训练和测试数据,但它只包含11名演员(6名男性和5名女性),他们表演了17项活动,如吃饭、讨论、吸烟和拍照。当在更复杂的场景下对野外数据进行3D姿态估计时,这些方法的性能会降低。还观察到,基于模型的方法与无模型的方法性能相当。当视频数据可用时,利用时间信息可以提高性能。由于遮挡程度较高,3D单视多人HPE的任务比3D单视单人HPE更困难。如表9和表10所示,近年来,单视图多人HPE方法取得了良好的进展。通过比较来自表8和表11的结果,很明显,与使用相同数据集和评估度量的单视图3D HPE方法相比,多视图3D HPE方法的性能(例如,协议1下的MPJPE)得到了改善。
表8:在Human3.6M数据集上比较不同的3D单视图单人HPE方法。最好的两个分数分别标为红色和蓝色。这里,在无模型的方法中,“Direct”是指没有2D姿态表示而直接估计3D姿态的方法。“Lifting”表示将2D姿势表示提升到3D空间(即,3D姿势)的方法。“Temporal”是指利用时态信息的方法。
表9:MuPoTS-3D数据集上不同3D单视图多人HPE方法的比较最好的两个分数分别标为红色和蓝色。
表10:基于CMU全景数据集的不同3D单视图多人HPE方法的比较。最后通牒、黑手党、讨价还价和披萨表示四种活动。最好的两个分数分别用红色和蓝色标记。
表11:在Human3.6M数据集上不同3D多视图HPE方法的比较。最好的两个分数分别标为红色和蓝色。
由于人们对HPE的兴趣与日俱增,有关HPE的研讨会和挑战将与CVPR、ICCV和ECCV等计算机视觉会议场所一起举办。这些研讨会的目的是聚集HPE方面的研究人员和实践者,讨论当前的最新技术以及未来需要关注的方向。在表12中,我们总结了2017-2020年这一研究领域的相关2D和3D HPE研讨会和挑战。
表12:2D和3D HPE的会议研讨会和挑战。
图7:人体姿势估计的各种应用。
动作识别、预测、检测和跟踪:姿势信息已被用作各种应用的提示,例如动作识别、预测、检测和跟踪。安吉利尼等人。[274]提出了一种基于姿态的实时动作识别方法。严等人[275]利用动作姿势识别的动态骨架模态。Markovitz等人。[276]对视频中人体动作异常检测的人体姿态图进行了研究。[243]使用预测的3D姿势进行长期人体运动预测。Sun等人。[277]提出了一种视点不变的概率姿态嵌入方法进行视频对齐。
基于姿势的视频监控通过姿势和人体网格表示代替人的敏感身份进行监控,具有保护隐私的优点。Das等人提出了一种基于姿势的视频监控方法。[278]嵌入式视频,带姿势识别日常生活活动,用于监控人类行为。
一些活动,如舞蹈、体育和专业训练,需要精确的人体控制,以严格的反应作为标准姿势。通常情况下,私人教练负责面对面的体位纠正和行动指导。在3D HPE和动作检测的帮助下,AI个人训练扫描通过简单地设置摄像头而无需私人教练演示,使训练变得更加方便。Wang等人[279]设计了一个具有姿势估计模块的人工智能教练系统,用于个性化运动训练辅助。
电子商务趋势对包括服装购买在内的各个方面都产生了明显的影响。图片形式的服装产品已经不能满足顾客的需求,顾客希望在穿上自己选择的衣服时能看到可靠的外观,而衣物解析和姿势转换[280]可以通过推断穿着特定衣服的人的3D外观来实现。HPE可以为布料解析提供合理的人体区域。此外,推荐系统可以通过基于推断出的具有所选项目的客户的可靠3D外观来评估适当性来升级。Patel et al.[281]实现了从3D姿势、形状和服装款式进行服装预测
在动画、电影和游戏行业中,运动捕捉是呈现具有复杂动作和逼真物理交互的角色的关键组件。运动捕捉设备通常设置起来既昂贵又复杂。HPE可以提供逼真的姿势信息,同时缓解了对专业高成本设备的需求[282] [283]。
增强现实(AR)技术旨在增强数字对象在真实世界环境中的交互体验。虚拟现实(VR)技术的目标是为用户提供身临其境的体验。AR和VR设备使用人体姿势信息作为输入,以实现它们不同的应用目标。在真实场景中可以生成卡通人物来代替真人。Weng等人。[284]借助3D从单张照片创建3D角色动画姿态估计和人体网格恢复。张等人。[285]提出了一种基于姿势的系统,将转播的网球比赛视频转换成交互式的、可控的视频精灵,视频精灵中的球员保留了真正的职业球员的技术和风格。
HPE提供定量的人体运动信息,医生可以诊断一些复杂的疾病,创建康复训练,并进行物理治疗。Lu等人。[286]设计了一种基于姿势的帕金森病运动严重程度评估系统。Gu等人[287]开发了一种基于姿势的物理治疗系统,可以在家中对患者进行评估和建议。此外,可以建立这样的系统来检测异常动作并提前预测后续动作。如果系统确定可能发生危险,将立即发送警报。Chen等人。[288]使用HPE算法进行跌倒检测监测,以便提供即时辅助;同时,HPE方法可以为医院环境中的患者提供可靠的姿势标签,以加强神经与自然行为相关性的研究[289]。
在这篇综述中,我们对最近基于深度学习的二维和三维HPE方法进行了系统的综述。对这些方法进行了全面的分类和性能比较。尽管取得了巨大的成功,但正如第3.3节和第4.3节所讨论的那样,仍然存在许多挑战。在这里,我们进一步指出了几个有希望的未来方向,以促进HPE研究的进展。
A.针对HPE的域适配。对于一些应用,如从婴儿图像[290]或艺术品集[291]估计人体姿势,没有足够的带有地面真实注释的训练数据。此外,这些应用的数据表现出与标准姿势数据集不同的分布。在现有标准数据集上训练的HPE方法可能不能很好地跨不同领域推广。缓解领域鸿沟的最新趋势是采用基于GaN的学习方法,然而,如何有效地转移人类潜在知识来弥合领域鸿沟还没有解决。
B.使用SMPL、SMPLify、SMPL-X、Ghum&GHUML和ADAM等人体模型对人体网格表示进行建模。然而,这些模型有大量的参数。如何在保持重构网格质量的同时减少参数个数是一个耐人寻味的问题。而且,不同的人有不同的体型变形。更有效的人体模型可以利用其他信息,如BMI[180]和Silhouette[292],以便更好地推广。
C.现有的大多数方法忽略了人与3D场景的交互。有很强的人与景的关系可以探索的约束(例如人类主体)不能同时出现在场景中的其他对象的位置中。具有语义线索的物理约束可以提供可靠、逼真的三维HPE。
D.3DHPE用于视觉跟踪和分析,现有的从视频中重建三维人体姿势和形状不是平滑和连续的。原因之一是MPJPE等评价指标不能评价系统的平滑度和逼真度。应开发适当的帧级评估指标,重点关注时间一致性和运动平滑性。
E.现有训练有素的网络对求解失配的关注较少。HPE网络的训练数据通常是高分辨率的图像或视频,在从低分辨率输入预测人体姿态时,可能会导致不准确的估计。对比学习方案[293] (例如,原始图像及其低分辨率版本作为正对)可能有助于构建分辨率感知的HPE网络。
F.视觉任务中的深度神经网络很容易受到对抗性攻击。不可察觉的噪声会显著影响HPE的性能。很少有文献[294] [295]考虑HPE的对抗性攻击。研究对敌意攻击的防御可以提高HPE网络的健壮性,促进基于真实世界姿态的应用。
G.基于姿势的应用。·由于人体的异质性,人体各部分可能具有不同的运动模式和形状。单一的共享网络结构对于不同自由度的所有身体部位的预测可能不是最优的,神经结构搜索(NAS)[296]可以搜索最优的结构来估计每个身体部位[297]、[298]。此外,NAS还可以用于发现高效的HP网络体系结构,以降低计算成本[299]。当必须满足多个目标(例如,延迟、准确性和能耗)时,也值得探索HPE中的多目标NAS。