2019-CVPR-香港中文大学-UPSNet: A Unified Panoptic Segmentation Network

Semantic Segmentation Head:语义分割头的目标是在不区分实例的情况下分割所有的语义类。它可以帮助改进实例分割,在实例分割中实现对thing类的良好效果。

我们的语义头由一个基于可变形卷积子网络构成,该子网络以FPN的多尺度特征为输入。特别地,我们使用了包含256个通道的FPN的p2、p3、p4和p5特征图,它们分别是原始比例尺的1/4、1/8、1/16和1/32。这些特征图首先独立经过相同的可变形卷积网络,然后向上采样到1/4尺度。然后我们将它们串联起来,用带有softmax的1×1卷积来预测语义类。

实验证明,可变形卷积与多尺度特征级联的方法提供与其它模型一样好的语义分割结果,比如PSPNet。

语义分割头与规则的像素方向交叉熵损失有关。为了更加强调前景对象,例如行人,我们还考虑了RoI损失。在训练中,我们使用实例的ground truth bound box对经过1×1卷积后的logits map进行裁剪,然后根据Mask R-CNN将其调整为28×28。然后,RoI损失是在28×28个patch上计算的交叉熵,这相当于在实例中对不正确分类的像素进行更多的惩罚。在消融研究的后期,我们通过实验发现这种RoI损失在不影响语义分割的前提下,有助于提高全景分割的性能。

 

语义分割时,论文作者使用了cross entropy loss和ROI loss。

 

可变形卷积

标准卷积中的规则格点采样是导致网络难以适应几何形变的“罪魁祸首”。为了削弱这个限制,研究员们对卷积核中每个采样点的位置都增加了一个偏移的变量。通过这些变量,卷积核就可以在当前位置附近随意的采样,而不再局限于之前的规则格点。这样扩展后的卷积操作被称为可变形卷积(deformable convolution)

可变形卷积核的大小和位置可以根据当前需要识别的图像内容进行动态调整,其直观效果就是不同位置的卷积核采样点位置会根据图像内容发生自适应的变化,从而适应不同物体的形状、大小等几何形变。

你可能感兴趣的:(图像分割)