说明本篇文章的主要工作 : 一是提出了一个用于人体解析的大数据集 Look into Person (LIP), 这个数据集相比之前的数据集更大,覆盖情景更多,更复杂,作者还在这个数据集上详细分析了之前的各种人体解析方法的优劣 。二是提出了一种 self-supervised structure-sensitive approaches 去结合 high-level 的人体关节特征去改进人体解析方法,达到了 state-of-the-art.
介绍了目前人体解析任务以及现状。
提出了存在的问题 :
介绍了当前领域的情况,包括数据集情况和深度学习方法在人体解析领域的应用情况。
这里详细介绍了新的数据集,分为了三个方面进行介绍 。
Image annotation :
LIP数据集中的人体图像是从microsoft coco训练集和验证集中裁剪的。我们定义了19个人体部件或衣服标签,它们是帽子、头发、太阳镜、上衣、衣服、外套、袜子、裤子、手套、围巾、裙子、连体裤、脸、右臂、左臂、右腿、左腿、右脚、右脚鞋、左鞋,以及背景标签。
Dataset split :
数据集中共有50462张图像,其中包括19081张全身图像、13672张上身图像、403张下身图像、3386张头部丢失的图像、2778张后视图图像和21028张有遮挡的图像。我们将图像分成不同的训练、验证和测试集。在随机选择之后,我们得到了一个唯一的分割,包括30462个训练、10000个验证图像,以及10000个测试图像,其中测试集的标注不公开,专门用于测试
Dataset statistics :
这里对数据集中的各种标签进行了详细的统计如下图,体现出了数据集的多样性和复杂性,更加体现出了数据集的意义所在。
这里主要是对各种人体解析以及语义分割方法在新建立的基准数据集上做一个测试,并且做了一个详尽的分析。目的是探究当前方法提取特征的 robust 以及当前存在的各种挑战,发现限制当前方法的原因。
分析了 FCN (全卷积结构)、SegNet (编码解码结构)、Deeplabv2 (多尺度以及空洞卷积结构)以及 Attention (attention 机制) ,每一个都训练 30 epochs , 并且在 validation set 和 test set 上分别估计,结果如下 :(不太理解钱)
发现 SSL 的使用确实提升了训练的结果。
对于不同的具有挑战性的场景 : 遮挡、全身、上身、头部缺失、背后视角。我们分别进行了测试。测试结果如下 :
不难发现,背后视角是最大的挑战,其次是头部的缺失,上身预测的效果最好,因为它比较大,语义部分较少。
从这些结果中,我们可以得出结论:Head(或Face)是现有人体解析方法的重要线索。如果头部部分在图像或在back-view中消失,则出现模糊结果的概率会增加。此外,由于存在,小尺度部件的存在(如,鞋子,袜子),导致下半身部件解析要比上半身更难。在这种情况下,人体关节结构在人体解析中会起到更重要的作用。
为了更详细地讨论和分析LIP数据集中的20个标签中每个类别,我们进一步报告了IOU在LIP验证集上每个类别的性能,如下表所示 :
可以发现,较大的部件表现的要好,较小的部件表现的差。原因在于小部件需要更加精准的预测。使用了 attention 的 Attention 以及 多尺度的 deeplabv2 在小物体上显然有着更好的效果。
对于上述 五种具有挑战的因素,给出了分析。
对于稍微遮挡的上身图像(a),四种方法都表现良好,误差较小.。对于back-view(b),所有四种方法都错误地将右臂标记为左臂。最糟糕的结果出现在头部漏掉的图像©上。SegNet [3]和FCN-8 不能识别手臂和腿,而DeepLabV2 和Attention 在手臂、腿和鞋子上都出现错误。此外,严重的遮挡(d)对性能影响也很大。全身性不那么具有挑战性,但像鞋子这样的全身图像中的小物体也很难精确预测。而且,从(c)和(d)观察可知,从人体配置的角度来看,由于现存的方法缺少人体结构信息,使得一些解析结果不合理,(例如,脚上的两只鞋)。总的来说,人体解析比一般的目标分割还要更困难。特别,为了增强对人体部位和服装结构的预测能力,我们应该更过注意的人体结构,才能使得分割结果会更合理,更符合人体配置。因此,我们考虑将人的解析结果和身体关节结构联系起来,以找到一种更好的人的解析方法。
主要是提出了一种结构性损失,使用身体关节点预测去 guide 人体解析工作,以获得结构的特征。但是我们 身体关节点不直接进行标记,而是通过计算中心点近似得到。然后计算一个 structure loss 作为权重系数去乘以 softmax loss 得到最后的 loss 然后进行反向传播。
这里每一个 joint 通过一个热度图来标记 (下图中的图是 9 个 joint 热度图叠起来出现的视觉效果),如果不存在这种 joint 则把热度图全部标记成 0,使用 MSE 作为损失函数。
过程 以及 计算公式如下图 :