0、关键词
synthetic dataset, 3D human pose and shape estimation, SMPL-X
1、链接
该论文来自德国图宾根大学(University of Tübingen)的马克斯普朗克智能系统研究所(Max Planck Institute for Intelligent Systems),所长是著名CV教授Michael Black。MPII在CV领域十分高产,自是不用多提,论文中使用的大量baseline,同样来自这个研究所已经发布的研究成果。
论文链接:https://arxiv.org/pdf/2104.14643.pdf
论文主页:https://agora.is.tue.mpg.de/index.html
论文代码:https://github.com/pixelite1201/agora_evaluation
论文提供了一个全新的人工合成数据集AGORA。该数据集由逼真的3D场景和人体模型合成,包含有3D/2D人体关键点、3D人体模型、2D人体分割掩码等丰富的标注,主要用于3D人体姿态与形状(3D human pose and shape,3DHPS)估计任务。更多细节请访问论文主页。
2、主要内容概述
※ Introduction
首先,论文在Introduction中重述了现在已公开的用于3DHPS任务的benchmarks的缺陷,例如,limited clothing, focus on single subjects, have limited occlusion, are captured in laboratory environments, or have a limited range of ages and ethnicities.,基于这些有“缺陷”的数据集,评价标准只能是3D joints,而不是更精确的body shapes,所以还有与AGORA数据集相关的新的评价标准evaluation protocol;
然后,作者开始介绍构建AGORA的思路,其中有两点最为重要。1)购买高质量的带有纹理的人体扫描模型(包括四个商业付费网站3DPeople、AXYZ、Human Alloy、Renderpeople),再依赖合成数据与图形学渲染(rely on synthetic data and a graphics rendering pipeline),基于丰富的背景(HDRI panoramas and 3D environments),用Unreal游戏引擎合成了大量逼真的图像。2)对于每一个3D人体扫描模型(一系列三维点),作者使用SMPL-X人体参数模型(由大量顶点和相互连接的三角形组成,CG中的常用3D模型)来精准地匹配它的身体形状,包括三个主要部分:整体(body)、手部(hand)、面部(facial)。【值得一提的是,论文使用的模型SMPL-X,以及相关的fit方法SMPLify均来自它们自己的实验室,研究传承相当紧密~】
※ Related Work
因为是发布数据集类的文章,作者主要强调了现有的人体相关数据集的“缺陷”。
Datasets with real images. 包括使用multiple synchronized cameras + optical markers构建的数据集HumanEva, Human3.6M, and TotalCapture,他们的缺陷包括lack of background variation in lab scenarios, only one subject in each image, no scene occlusions, and little clothing variety due to the attachment of markers;另外,Alternatively,也有一些数据集构建方法使用了marker-less motion capture,包括MuPoTS-3D, PanopticStudio, MPIINF-3DHP-Test, and HUMBI。这类方法则存在精度较marker-based方法更低的缺陷(due to yaw drift)。AGORA认为这样得到的标签只能算是参考数据(reference data),不能用来作为GTs,作为比较,他们提出了的SMPL-X meshes具有高保真度(fidelity),可以作为伪标签(pseudo ground truth)。最后,上述数据集中,只有PanopticStudio和HUMBI两个数据集包含了身体(bodies)标签的同时,还包括人脸(face)和手(hands)的标签。
Synthetic datasets. 首先提到合成数据集需要足够真实(sufficiently realistic),并指出了具体的衡量点,包括body shape, ethnicity, motion, cloth deformation, texture, and interaction with environments. 数据集MHOF, LTSH, 3DPeople, and SURREAL直接在背景图像中放置3D人体模型(如SMPL, MakeHuman, or Mixamo),而数据集MPI-INF-3DHPTrain and MuCo-3DHP则直接将分割得到的真人图像作为前景粘贴到2D背景图像中。作者认为这些方法生成的图像都不够真实,Such composition does not faithfully reflect the local statistics of pixel intensity in real images and does not support methods that learn how humans interact with scenes。唯一与AGORA比较相近的工作是SimPose,其构建思路与作者类似,但作者认为其场景简单、人体类别单一,且该数据集未公开。还有一些基于GAN方法的数据集如Human synthesis and scene compositing(AAAI2020)和Generating 3D people in scenes without people(CVPR2020),但生成模型得到的结果总会存在人工瑕疵(images artifacts),合成图像不适合(unsuitable)用来作为GTs。
Other human-related datasets. 还有一些数据集不包括3D人体标注,但是包含2D人体关节点或人体分割掩码标注(如OCHuman,LSP-Extended, COCO, and MPII),或者使用真实图像+拟合的人体模型作为GTs(如EFT(arxiv2020), STRAPS(BMVC2020) and 3DOH50K(CVPR2020)),更进一步的,有些方法使用motion或multi-view matching来获得视频中复杂场景的人体模型。对于这类合成方式,作者认为尽管更鲁棒,但with unknown accuracy in body shape and pose.
最后,作者总结道,AGORA是集大成者,解决了上述众多缺陷AGORA provides realistic textures, complex body shapes and clothing, complex varied scenes and lighting, high-resolution (4K) imagery, varied occlusion, all with high-quality 3D ground truth.
※ Method: Obtaining reference data
作者的主要思路借鉴了三块内容:1)基于自己所在实验室之前的研究成果人体模型SMPL-X body model,和拟合人体的方法single-view SMPLify-X fitting,来拟合人体主体形状(包括body shape、face shape和hand shape),关于SMPL-X及SMPLify-X需要另外解读;2)借鉴另一项工作,即带有衣服的扫描人体的拟合方法fitting body shape under clothing(Detailed, accurate, human shape estimation from clothed 3D scan sequences (CVPR2017)),来拟合人体的皮肤(skin and hair)和所穿的衣服(clothing);3)再使用Graphonomy(CVPR2019)来人工地调整标注皮肤和衣服相关的顶点(vertices)。最终复合多个terms得到目标函数。
另外,作者发现小孩(child)的人体扫描并不能像成人(adults)那样使用同一套人体拟合模型和方法,因此进一步提出了改进的方法,即使用SMIL(the mean infant body template)生成小孩的模板Tchild,再取其与成人模板Tadult的插值平均,细节见论文。
※ AGORA Dataset
AGORA数据集总计包括公开标签的14529张训练集图像(包含2930个scans)、1225张验证集图像(包含259个scans),和未公开标签的3387张测试集图像(包含1051个scans)。总计包含了4240个扫描人体模型(high-quality textured scans),其中有257个是儿童扫描体(child scans)。
另外,经过再次的人工修正(manually curate),这4240个扫描体中,有3161个同时包含对齐的人体、人脸和手(those with well aligned body, face and hands (3161, BFH)),有1079个仅仅包含对齐的人体(those only with well aligned bodies (1079, B))。这意味着,如果基于AGORA做body estimation相关的任务,可使用全部数据集,如果需要做face或hand相关的estimation任务,仅一部分数据可用。
Fitting Accuracy 关于数据集中,3D人体的拟合精确度,作者基于the high-quality 3D scans,提出了两个考察关键因素Skin error和Penetrating clothing error。并用具体数值证明了伪标签的可信赖度(Thus, we believe that the SMPL-X fits provide valid pseudo ground truth.)
Evaluation metrics and Evaluation protocol 常见的用于3DHPS方法的度量标注,都需要在计算error之前,进行Procrustes alignment,制定的标注忽视了3D物体的尺寸、位移和旋转(eliminates discrepancies in scale, translation and rotation, measuring only the error in poses (PA-MPJPE) and shapes (PA-MVE/V2V))。作者指出,这是因为当前HPS数据集的构成造成的,因为他们只有pose和shape的标注,而AGORA包含了complete 3D pseudo ground truth: body parameters of each person and their spatial arrangement in the 3D scene,足够支持更全面的误差度量。因此,作者不采用Procrustes alignment,并提出了一系列新的度量指标(包括MPJPE、MVE、NMJE和NMVE),用于单张图像中多人的pose和shape的估计误差度量,细节见论文。
※ Experiments
由于是数据集文章,作者需要强调的是数据集的优越性。作者设计了两种实验,一种是在AGORA上测试SOTA的3DHPS方法,来证明该数据集是否能反映当前领域的问题(指数据集确实更具有挑战性?);另一种是测试AGORA是否能用来作为预训练数据集,帮助提升SOTA方法性能。【角度和思路值得借鉴~】
Baseline Evaluation. 通过比较发现,SOTA方法在旧的指标MPJPE和MVE下的表现好,但新的指标NMJE和NMVE下表现差,指出MPJPE alone is not enough to evaluate performance on multi-person images,说明AGORA揭示了多人姿态估计中的误检和漏检问题;接着,SMPL-X模型下,各个SOTA方法的表现并不统一,没有各项指标均表现最好的,于是提出了消融研究(ablation studies),讨论各项参数的影响occlusion, child shape, distance to the center of the image and orientation。【学会如何在自己的文章中,做此类消融实验】
Baseline Improvement. 作者选用三种不同的模型拟合方式,即Pretrained SPIN、SPIN finetuned with AGORA and EFT([MPII+LSPet+COCO])和论文提出的基于SPIN-ft的模型,然后再在两个数据集合(3DPW和AGORA)上进行测试,通过实验数据证明Training with AGORA leads to significant improvement in performance on both datasets。
※ Conclusions and Future Work
We have presented AGORA, a new dataset that goes beyond current datasets to include challenging cases of environmental occlusion, person-person occlusion, scale variation, children, crowds, etc. AGORA is challenging and reveals limitations of existing methods. Despite being synthetic, fine-tuning on AGORA improves performance of a SOTA method on the natural 3DPW dataset. We introduce a new metric to include misses and false positives and facilitate analysis of the SOTA methods on images with multiple people. We also introduce a simple child body model and provide better 3D ground truth for images with children. Future work should include adding images of varied camera height, indoor scenes, multi-view images, larger crowds, animals, and movement. 【贴个原文,学习一下总结方式】
3、新颖点
尽管是数据集论文,没有大量的公式,也没有提出花里胡哨的新算法,但是却解决了3DHPS任务中,始终没有真实且有可靠的GTs的多人姿态估计数据集的痛点。可以预见,这将推动一大批更高效的3DHPS方法的诞生。另外,本文有两个有趣之处:
1)站在巨人的肩膀上。AGORA的主要重难点在于生成并拟合逼真的3D人体模型,SMPL-X模型是关键,而其是现成的工作,且本就是作者自己所在实验室的成果,这个巨人正是自己的MPII实验室,提出AGORA事半功倍;
2)填补空白。尽管作者在文章中多次强调了AGORA如何解决了之前众多数据集的缺陷,但我认为,其主要贡献是融合了multi-person和in the wild两大特点,这是文章在做数据集对比时最大的优势。当然,在对比中也能发现,AGORA确实在各项指标中,都做到了更完备,因此可以作为可靠的挑战性更大的benchmark。
4、总结
AGORA数据集虽然被用来解决3DHPS问题,但其提供的丰富的标注GTs,可以使得其被用作做很多其它与人体相关的下游CV任务,包括2D mutli-person pose estimation、instance segmentation、hand keypoints detection、face landmarks detection、head pose estimation等。