【图像分割】RGMP:Fast Video Object Segmentation by Reference-Guided Mask Propagation

文章: Fast Video Object Segmentation by Reference-Guided Mask Propagation
代码:

  • https://github.com/seoungwugoh/RGMP
  • https://github.com/haofengac/RGMP

优点: 相较于之前的VOS方法,不需要微调或者数据增强和online adaptation,以及多数据多流然后特征融合,
具有非常快的速度的同时,还具有state of the art的精度。
难点: 在超声图像中使用Fine Tuning时,需要额外增加当前帧之后帧的标签。而且在测试时,还需要加入标签,这对于没有标签的数据不太友好,实用性不强。

网络:
【图像分割】RGMP:Fast Video Object Segmentation by Reference-Guided Mask Propagation_第1张图片
网络解析:网络的结构由Siamese encoder,Global Convolution Block,Decoder三个主要的部分。Siamese encoder将当前帧和前一帧的预测掩膜连接成一个四通道的图像,作为目标帧的输入流;将参考帧(第一帧)和掩膜连接成一个四通道的图像,作为参考流输入。将两条流分别输入第一层卷积,随后紧跟着权值共享的ResNet50网络。将两个流的编码器输出连接到一起,经过一个global convolution Block的处理,输出到Decoder中。除此之外,Decoder的输入还有编码器的层中对应的特征图,最终经过一个softmax层,得到预测掩膜。其中,想获得哪个目标的分割由参考帧决定。
Fine Tuning: 要想获得更高的精度,需要使用Fine Tuning,以下为Fine Tuning的示意图
【图像分割】RGMP:Fast Video Object Segmentation by Reference-Guided Mask Propagation_第2张图片
首先在一段视频中随机选择参考帧及其标签、当前帧和上一帧的标签,输入到模型当中,生成的mask与当前帧的mask做loss,且生成的mask作为下一帧的先前帧mask(后面采用递归的方式)。这样保证了长序列(当前帧和参考帧之间)和短序列(之前帧的mask和当前帧的图像之间)的分割表现都好。

你可能感兴趣的:(深度学习,人工智能,计算机视觉)