最近听了阿里巴巴王文冠老师“基于深度学习技术的视频分割”的讲座(可能需要报名比赛才能观看),我感到受益匪浅,学习到了许多关于视频目标分割(VOS)的知识,在这里进行整理总结。关于视频目标分割的分类,有的综述文章分为无监督VOS,半监督VOS,交互式VOS,弱监督VOS等,这里将视频目标分割任务分类成无监督VOS,半监督VOS,交互式VOS,背景移除或运动物体分割,视频语义分割/实例分割。
1.无监督VOS:在测试阶段,不要求任何用户输入,通常是自动分割视频中最关键,最显著的目标。
2.半监督VOS:在测试阶段,用户提供第一帧或者关键帧的目标掩膜(mask),然后分割剩下帧中的目标。
3.交互式VOS:在测试阶段,依靠用户的迭代交互来分割感兴趣的对象,目的是获取高精度的分割结果,需要大量的人力参与。
4.背景移除或运动目标提取:通常假定摄像机静止或运动缓慢,然后自动分割出运动的前景目标。
5.视频语义分割/实例分割:是图像语义分割/实例分割的拓展,不仅要求分割出视频中感兴趣目标,还要根据语义或者实例关系区分不同目标。
值得注意的是,无监督VOS和半监督VOS的区分并不是根据监督学习和无监督学习的分类方式区分,这两者都可以利用有标签的视频数据进行训练,区分是根据测试阶段的用户参与方式来进行的,并且这两者关注的都是分割前景和背景,并不关注分割目标的类别信息。此外,单独把背景移除提出来,应该是想强调这里指的是基于深度学习的背景移除方法。这篇博客简单介绍各个方向的传统方法,着重介绍基于深度学习的视频目标分割。
关于解决思路,这里主要讨论的是无监督VOS,半监督VOS和视频实例分割的基本方法。
随着时间的推移,出现了更多优秀的工作。RANet结合了基于传播和基于匹配的思路,利用孪生网络encoder结构获取第一帧的模板特征和当前帧特征,通过Correlation操作获取相似性特征图,根据第一帧前景和背景,经过RAM模块筛选前景和背景特征,再与预测的前一帧mask合并,通过decoder结构获取最终分割mask。
基于匹配的STM方法首先通过一个encoder结构将第一帧和当前帧之前的所有帧及相应的mask生成对应的特征,并且concat在一起形成memory,对于当前帧也通过encoder结构生成特征,通过当前帧特征在memory中查询最相关,最有用的信息,整合到当前帧的特征中,再通过decoder结构获得分割结果。这种基于memory的方法可以利用之前分割的所有帧信息,共同帮助分割当前帧。
State-Aware Tracker融合视频目标跟踪和分割为一个真正统一的pipeline,其中跟踪和分割之间没有约束限制,两个任务紧密合作,相互促进。其思想是将感兴趣目标视作一个轨迹,根据上一帧跟踪分支预测出的bbox作为当前帧的搜索区域,与第一帧目标区域通过相似性encoder,结合saliency encoder分支联合分割当前帧,并设计一个评估器来判断当前帧分割的mask状态,根据mask的评估状态,一个分支反馈更新用于分割当前帧的全局特征,从而优化分割结果;另一个分支则是用来确定送入下一帧的搜索区域。跟踪结果好了,则有助于确定正确的搜索区域,促进了分割;分割结果好了,则有助于确定mask的分割状态,促进了跟踪。
最后老师给出的关于参加竞赛的建议:
[1] Chen, X., Li, Z., Yuan, Y., Yu, G., Shen, J., & Qi, D. (2020). State-Aware Tracker for Real-Time Video Object Segmentation. ArXiv, abs/2003.00482.
[2] Yao, R., Lin, G., Xia, S., Zhao, J., & Zhou, Y. (2019). Video Object Segmentation and Tracking: A Survey. ACM Transactions on Intelligent Systems and Technology (TIST).
[3] Yeong Jun Koh, Young-Yoon Lee, and Chang-Su Kim. 2018. Sequential Clique Optimization for Video Object Segmentation. In The European Conference on Computer Vision (ECCV).
[4] Ignas Budvytis, Vijay Badrinarayanan, and Roberto Cipolla. 2012. MoT-Mixture of Trees Probabilistic Graphical Model for Video Segmentation… In BMVC, Vol. 1. Citeseer, 7.
[5] ZiqinWang, Jun Xu, Li Liu, Fan Zhu, and Ling Shao. Ranet: Ranking attention network for fast video object segmentation. arXiv preprint arXiv:1908.06647, 2019.
[6] S. Caelles, K. . Maninis, J. Pont-Tuset, L. Leal-TaixÃl, D. Cremers, and L. V. Gool. 2017. One-Shot Video Object
Segmentation. In 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5320–5329.
[7] Seoung Wug Oh, Joon-Young Lee, Ning Xu, and Seon Joo Kim. Video object segmentation using space-time memory networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 9226–9235, 2019.
[8] Hongmei Song, Wenguan Wang, Sanyuan Zhao, Jianbing Shen, and Kin-Man Lam. 2018. Pyramid dilated deeper ConvLSTM for video salient object detection. In Proceedings of the European Conference on Computer Vision (ECCV). 715–731.