Improving Semantic Segmentation via Video Propagation and Label Relaxation

Improving Semantic Segmentation via Video Propagation and Label Relaxation_第1张图片

一篇使用视频信息提升semantic segmentation 精度的工作,可以看成合理的进行data augmentation方法,文章试验做的很全面,总体来说非常扎实。文章继承了英伟达该组之前的sdc net (见本文附录)的工作。

Methodology

  1. 使用SDC-net 预测某片段前后k 帧图像motion vectors从而得到相应的image和label,增加了网络的训练数据。
  2. 物体边缘的分割历来是分割任务中比较难的地方,使用motion vectors可能存在预测不准的case更是加重了这种问题,文章缓解这种问题的方法如下图:
    Improving Semantic Segmentation via Video Propagation and Label Relaxation_第2张图片

其中C是某像素周围3x3范围gt存在的种类数,直观来看softmax cross entropy中倾向于使单个类别的概率为1,本文中的label relaxation倾向于使得该像素成为相邻gt中若干类加在一起的概率为1,如果C只取一类就是标准的cross entropy,如果取全部类别相当于ignore。

文章的cityscape baseline也比较强,使用了ma’pi’llary pretrin, Class Uniform Sampling,resnext 50 的deeplab v3 val集miou 79.46%,video propagation 和label relaxation各提高接近一个点。 在camvid 和kitti这种小数据集上提升更明显。

Appendices

Improving Semantic Segmentation via Video Propagation and Label Relaxation_第3张图片
对于 video prediction,文中提到vector based 集kernel based的方法。 vector based方法根据之前帧出现的位置resample,相当于学到了某个像素在之前帧的位置,这种方法的缺点是不能很好的应对之前帧不存在的区域;另外 kernel based的方法根据之前帧相邻范围像素的关系得到当前帧的像素值,这样由于kernal的限制不利于捕捉远距离的移动关系。文中的sdc结合了以上两者的优点,同时做vector 集kernel的学习。
Improving Semantic Segmentation via Video Propagation and Label Relaxation_第4张图片
模型结构:
Improving Semantic Segmentation via Video Propagation and Label Relaxation_第5张图片

loss function:
除了pixel的l1 loss还用了以下loss:
Improving Semantic Segmentation via Video Propagation and Label Relaxation_第6张图片
L perceptual是用vgg等model的feature来约束。
Lstyle 是考虑feature的channel之间的关系
可视化结果还是不错的

你可能感兴趣的:(ConvNets)