【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation

论文地址:Occlusion-Aware Siamese Network for Human Pose Estimation

论文总结

  本文的网络名,作者命名为OASNet。本文的出发点就如名字所说的一般,设计方法的思路是朝着姿态检测中遮挡问题做的。其主要做法就是通过人工制作遮挡,使用attention机制将遮挡部分的信息擦除,然后使用领域信息重构回丢失的有用信息,这部分也就是信息擦除和重构模块。这个attention分支得到的东西是通过中间监督来保证遮挡部分的信息擦除。
  特征重构部分是想要将特征擦除中丢失的有用信息给找回来,其方式是通过两个连续的空洞卷积来得到上下文信息。在对特征重构做监督的时候,需要将自遮挡部分的区域信息给抹去,这是因为自遮挡部分对于特征重构而言也会造成一定的问题,因此其目的只是对抹除掉的有效遮挡信息做恢复。特征重构的监督,是通过共享权重,但不同输入(一个人工遮挡部分关键点,一个原图)的孪生网络得到的对应特征图所做的。至于将自遮挡部分的信息擦除的操作,是通过数据集中对可标不可见的自遮挡关键点有额外的标签,所以能有此操作,实际上也就是通过该label生成对应的mask进行处理。
  因为特征重构中不对自然遮挡部分(不是人工生成的遮挡)做监督,所以作者对该部分的损失函数权重较低(如果同为L2的话,则为1%)。整个网络的训练中还是添加了大量的Joint Heatmap的监督和中间监督。

论文介绍

结构介绍

  本文的网络结构入下图所示:在训练的时候,会生成数个Joint Heatmap,以及一个attention map,一个重构的特征表示。通过孪生网络,输入对应的添加遮挡的图片已经原图得到一组重构的特征表示,进行联合学习。

【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation_第1张图片

  由于有三组输出,所以网络在训练时也有三个对应的损失函数:其中 L J L_J LJ是Joint Heatmap的损失函数,一般为 L 2 L_2 L2损失函数, L o L_o Lo是Occlusion map的损失函数,Occlusion map ∈ R 1 ∗ h ∗ w \in R^{1*h*w} R1hw,损失函数一般也为 L 2 L_2 L2 L m i m i n c L_{miminc} Lmiminc是重构特征通过Mask产生的特征的损失函数,作者推荐使用基于分布匹配的OT(Optimal Transport)散度去寻找最优传播路径。

思路介绍

  本文利用attention机制来排除遮挡的干扰。对attention map添加中间监督,使其更有目的性,更能精确地预测遮挡部分。这样得到的attention map为特征消除和重构提供坚实的基础。

  在明确学习的遮挡感知attention map的知道下,可以消除遮挡引起的模糊性,获得相对干净的feature map。但这样也会删除一些有用信息,特别是在自遮挡的情况下。因此特征重构是获得更有效、更有信息的特征表示的必要方式。实际上,就是通过两个连续的空洞卷积获取上下文信息。两个空洞卷积,空洞率分别为 2 2 2 4 4 4,卷积核大小为 3 ∗ 3 3*3 33

  特征重构,一方面获得新的信息来替换被遮挡的特征;另一方面用于恢复那些被错误消除的有用的语义信息。因此,特征重构子模块可以在没有遮挡的情况下捕获周围区域的信息,从而为恢复提供方便。

  因此,提出一个孪生网络框架来促进这一进程,为重构提出充足的前期指导。孪生网络有两个分支,共享权重,第二个分支以无遮挡的图像作为输入,提供干净的特征表示;而第一个分支输入遮挡的图像,遮挡出现在第一个分支是手动生成的。孪生网络的目的是遮挡分支去模仿没有遮挡分支的行为,但如何让两个分支在高纬度上相近是由挑战性的,所以作者选择在低维空间上使用optimal transport(OT)散度,附加额外的mask作为正则化。

  作者总结的本文所做的三个贡献:

  1. attention map是遮挡感知的,以消除不同类型的遮挡引起的模糊问题;
  2. 为使遮挡的特征能模仿无遮挡特征的行为,提出了一种带有特征消除和重构子模块的孪生网络;
  3. 没有采用element-wise对齐的方法来减少两组特征的差距,而是使用最大传输(Optimal Transport)来完成这一任务。

  本文利用了额外标记的遮挡的flag来明确学习的注意力。在以前的工作中,很少有利用这个标签资源的,他们忽视了这种有价值的线索。Occlusion map的ground truth和预测如下图所示:所有的channel叠加到了一个通道上,然后clamp到 [ 0 , 1 ] [0,1] [0,1]的区间内,且只预测被遮挡部分的关键点。

【论文阅读笔记】Occlusion-Aware Siamese Network for Human Pose Estimation_第2张图片

  学习的occlusion heatmap通过 H A = 1 − H o H_A=1-H_o HA=1Ho取反操作得到对应的无遮挡区域信息,再通过元素乘积即可得所需要的无遮挡信息,即完成遮挡特征擦除工作。

你可能感兴趣的:(姿态检测,论文,读书笔记)