半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks

半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第1张图片

Aim

半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第2张图片
实现一种视频分割的工作流:在视频的任意一帧上进行交互得到当前帧的修正结果,并传播到剩余帧。

Contribution

  • 两个模块:Interaction Network 和 Propagation Network。
    Interaction Network: 接受用户的交互 (如涂抹) 来分割前景物体。
    Propagation Network:将交互的帧上的分割结果,传播到其他相邻的帧。
    – 将其通过 Feature Aggregation Module 的方式 internally 连接在一起,且相互的输出作为对方的输入而 externally 连接。
    半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第3张图片
  • Multi-Round Training Scheme:模拟真实的交互式视频分割的场景。一次 Training Iteration 包含 Multi-Round,即多次交互 + 传播的过程。通过这样的方式,网络能够理解交互的意向并且在训练过程中修正错误。

Motivation 和 Related Work

  • Frame-by-frame 的操作 => Round-based interaction:挑选一帧进行标记,然后计算视频中剩余所有帧的结果。Round 越多效果越好
  • Unsupervised Methods:基于 appearance 或者 motion 显著性,而不能准确地挑选感兴趣的物体。
  • Semi-Supervised Methods:所谓半监督就是仅仅给出视频的一帧的金标准 (注意这里不是交互的方式),然后目标是如何传播到整个视频序列。
    Online Learning: Fine-tuning at test time,然后对于每一帧进行 static image segmentation。
    Propagation-based:Bilateral Filter,Siamese two-stream networks (利用模拟的训练图像)也是本文 feature aggregation的启发

Methods

半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第4张图片

工作流

给定初始交互,仅仅根据交互信息得到所有帧上的分割结果。然后用户给出修正交互,算法根据初始分割结果和修正交互对上次结果进行修正。每个子网络的输入都有上一个round的分割结果。对于 Interaction Network,上一个 round 的分割结果是 Propagation Network 的输出;对于 Propagation Network,另一个输入上个时间点的分割结果是 Interaction Network 的输出

ROI 的设置

为了解决尺度问题。通过 ROI 使得 Training Loss 具有尺度不变性,而不用使用 balanced loss function。

Feature Aggregation Module

  • 目标:避免 Propagation 过程中的误差累加。
  • 方法:不同于传统方法比如用 Siamese network 直接考虑 reference frame,我们考虑的是用户交互帧中的信息。因此提出特征融合模块,积累所有之前的 Interaction Network 中编码的交互信息。将其 concat 在 Propagation Network 中尤其对于 Long-term 的传播具有很好的作用。
  • -Self-Attention机制
    半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第5张图片

Training 细节

  • Loss 的计算:对于每个 iteration, 对于每个中间结果计算 loss,然后进行反向传播。
  • 在 模拟的Static 图像上预训练,再在真实的 Video 上进行 Fine-Tuning:通过随机的形变等生成模拟的 video,只不过没有时间上的真实的信息。

Testing 细节

  • Propagation 还是存在误差累计,尤其是目标帧距离交互帧很远的时候。因此采用 continuous updating 和 restricted propagation。
    半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第6张图片

Ablation Study

测试各个模块,和在模拟图像上预训练的有效性
半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第7张图片
半监督交互式视频物体分割 Fast User-Guided Video Object Segmentation by Interaction-and-propagation Networks_第8张图片

Conclusion

  1. 其实之前就有一篇做交互式视频分割的文章 A. Benard and M. Gygli. Interactive video object segmentation in the wild. arXiv preprint arXiv:1801.00269, 2017.2,但是方法设计上没有本文来的巧妙 (Interaction-and-Propagation Network的贡献)。
  2. 另外,通过 Self-Attention 来设计 Propagation Network,能够直接考虑所有之前的交互信息,也是一个很值得玩味的点。
  3. 另一个小点:这样的修正 Multi-Round 结果,在设计框架时反应为每个 network 的输入都有上一个 round 的分割结果,其他的输入就是不同 network 的不同任务所需要的。

你可能感兴趣的:(机器学习,视频检测和分析,深度学习)