Self-Supervised Scene De-occlusion(2020CVPR 港中文
)
1.要解决的问题:
Natural scene understanding 是一个具有挑战的任务,特别是当多个物体因前后顺序位置而产生
遮挡时。有些时候需要去分析每个独立的物体,恢复其被遮掩的部分。
在
instance segmentation 的数据集中,像 COCO、KITTI、LVIS 这些。里面并没有遮挡关系和 amodal mask 的标注,所以有监督学习的思路是无法解决上述问题的。
论文能够实现的效果图:
仅使用自身的数据,将一张真实场景的,有遮掩关系的图片分解为完整的物体和背景。
2.贡献:
1.提供了一个新颖的框架,无需人为标注物体位置顺序关系,根据input data 和 mask 可以确定物体的前后位置信息,得到一个
遮挡关系图
2.依据遮挡关系图,确定任意一个物体被哪些物体所遮挡,依次一部分一部分(多次重复使用
PCNet-M
)的恢复被遮挡物体的缺失部分,最终得到整个物体
3.方法:
自监督的部分补全机制
因为被遮挡物体没有一个完整的ground truth 作为监督,把一次完整的补全分为多次部分补全。
在原始的被遮挡物体上,再补上一刀,将原始被遮挡物体作为mask,补刀后的物体作为train,
这个过程是可训练的,(监督训练)
确定物体前后关系:
当以 A1为目标物体,A2为surrogate object时,经过PCNet-M处理后,A1并没有增长。
反过来,以A2为目标物体,A1为surrogate object时,A2面积增加。
通过这种尝试,以此来确定A1与A2的前后关系。(任意两个物体都做此操作,以此来确定图像中的所有物体前后关系)
部分补全网络(Partial Completion Network - Mask PCNet-M) Mask
构建遮挡顺序图(有向图):一个节点的所有祖先节点,即为它的所有遮挡物。
判断出遮挡物后,再次利用部分补全网络(PCNet-M)来恢复出 amodal mask.
在恢复目标物体时,需考虑所有的祖先遮挡物节点,当只考虑直接遮挡物节点时,可能补全的并不完整。只有考虑所有祖先节点,才可以获得完整的不全结果。
以上PCNet-M是mask的不全网络结构。
内容补全网络训练方式:(Partial Completion Network - Content , PCNet-C)
目标物体A 和 surrogate object B,用 A^B表示要擦除图片的RGB(缺失的需要填充的内容),然后用A\B代表缺失的内容属于哪个物体 (实际应属于目标物体A)。
目标物体的modal mask也作为输入,用来表示缺失的区域属于该目标物体而非其他物体。
之后,PCNet-C将物体完整的样子补全出来。
4.实验:
1.amodal mask 自动生成
使用不同来源的amodal mask 作为监督,用 Mask R-CNN在KITTI上训练amodal instance segmentation 任务,并在人工标注的测试集上测试,将amodal mask 和人工标注 的结果做对比。
2.场景编辑和重组
可以对场景进行编辑和重组,其中的baseline modal-based manipulation 是基于普通的image inpainting 做的,只有modal mask, 没有ordering 和amodal mask.
此方法是基于ordering 和 amodal mask 的,能做到更加自然的场景编辑。