论文笔记——OSVOS:One-Shot Video Object Segmentation

第一次看视频目标分割(Video Object Segmentation, VOS)的论文,选择了这篇比较经典的论文。

论文链接:https://openaccess.thecvf.com/content_cvpr_2017/papers/Caelles_One-Shot_Video_Object_CVPR_2017_paper.pdf

VOS问题大多是半监督问题,即给定某视频第一帧的mask,对于第一帧中标注的instance,预测接下来所有帧中的mask。例如下图中,第一帧给定了一个人的mask标注(红色区域),其任务是预测接下来每一帧中,这个人的mask(绿色区域)。
论文笔记——OSVOS:One-Shot Video Object Segmentation_第1张图片
该篇论文的主要贡献有以下三点:

(1)把一个在图像识别上预训练好的CNN模型,迁移到VOS任务中。首先是做预训练得到一个用于图像识别的模型,接着对该模型进行改造,并在人工分割的视频数据集上进行训练。最后在测试阶段,基于第一帧的标注mask,对模型进行微调。

(2)OSVOS独立地处理视频中每一帧,因为物体在帧之间的变化一般不会太大,这与主流的考虑时间连续性的方法不同。虽然那些考虑时间连续性的方法在连续帧上取得了不错的表现,但是对于遮挡或者剧烈的移动,会造成偏差,并且这个偏差会随着时间的推移而逐渐累积放大;同时,如果考虑motion estimation,就需要用到光流这类方法,这也是一个困难的问题。作者证明深度学习方法独立地处理每一帧,也可以达到很好的效果,所以OSVOS就可以避免时序上错误的累积,如一些遮挡等问题。

(3)OSVOS可实现速度和精度上的trade off,在给定第一帧的mask后,用户可以选择快速的模式和精确的模式,以进行fine-tune。每帧处理181ms可得71.5%的准确率,而每帧处理7.85s时可达79.5%的准确率。此外用户可以进行更多的标注来进一步提升准确率。

论文笔记——OSVOS:One-Shot Video Object Segmentation_第2张图片
OSVOS的总揽图如上:

(1)在VGG模型上,基于ImageNet数据集,训练一个图像分类模型,该模型称作Base Network;

(2)删除掉Base Network最后的分类层,改造成FCN的模式,使得输出维度与输入一致,在保留空间信息的基础上,每一个点负责预测对应像素属于前景或是背景。将该网络在DAVIS2016数据集上进行训练,损失函数采用了二分类交叉熵损失,并考虑到正负样本的均衡性,其定义如下图(1):
论文笔记——OSVOS:One-Shot Video Object Segmentation_第3张图片
β \beta β是一个平衡正负样本权重的因子,该网络称为Parent Network。

(3)给定一个新的视频序列,以及该视频第一帧标注的分割信息,对Parent Network进行微调,对于fine-tune的时间,作者做了trade off:微调时间短,那么整个流程速度就快,用户等待时间短,但分割效果可能相对较差;微调时间稍长,分割精确度相对较高,但等待时间较长。

值得注意的是,前两步训练属于offline training,而第三步训练属于online training。

看到这里,个人有几点想法不知对错

(1)半监督只是在训练的第三个阶段用到,指针对某一个特定的视频,只取其第一帧进行微调,预测出后续帧序列的分割标注。而对于前面训练base和parent时,采用的是完全监督的方法;

(2)每次对第一帧做fine-tune,模型只对当前的视频有效。如果有多个视频序列需要预测分割,需要在parent network上面进行多次微调,每次对应一个视频序列;

(3)我们只是对第一帧的标注进行了fine-tune,那么如果instance的外观产生了巨大的变化呢?OSVOS这种只基于一帧标注的微调会不会过拟合,从而分割不出外观变化较大的物体?所以OSVOS个人认为是基于一种假设,即不同帧之间,物体的大小外观变化不大的情况下,效果才会较好。

论文笔记——OSVOS:One-Shot Video Object Segmentation_第4张图片
作者还加了一个用于预测边缘的网络,因为分类网络只是识别出图像中有没有这个物体,而对于其出现的位置不加研究,但本文的task要求精准分割,因此加入这个分支以提取边缘,以辅助前景的分割。(这块有点云里雾里,不知和前面三个步骤的关系如何)。

部分实验结果:
论文笔记——OSVOS:One-Shot Video Object Segmentation_第5张图片
两个衡量指标:

Region Similarity:衡量的是预测掩码M与真实掩码G之间的IOU:
在这里插入图片描述
Contour Accuracy:将掩膜看成一系列闭合轮廓的集合,并计算基于轮廓的 F 度量,即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量:
在这里插入图片描述
论文笔记——OSVOS:One-Shot Video Object Segmentation_第6张图片
上图为消融实验:-BS是没有获取边界,-PN是没有在父网络上预训练,-OS是没有学习第一帧。

参考:https://blog.csdn.net/qq_20657717/article/details/81868182

你可能感兴趣的:(VOS,计算机视觉,半监督学习)