One-Shot Video Object Segmentation论文笔记

要解决的问题

半监督的视频目标分割

方法

给出一帧或多帧人工标注的分割掩码,学习追踪特定目标的模型,然后将后续的视频序列的所有像素分割为前景与背景

原理

基于一个Fully-CNN,可以连续的传递generic semantic information(在ImageNet上学习,用于前景分割任务),最后学习test sequence的single annotated object的表现

论文贡献

1.  针对一个特定的目标实例,给出一幅标注的图像,对video object segmentation预训练出一个image recognition的模型(首先对一系列带有人工标注目标的视频进行训练,然后在测试阶段,对人工标注单帧图像做fine-tuning)

2.  对视频的每帧进行独立处理,即从每个人工分割的帧得出目标的模型

3.  可以对speed和accuracy进行权衡(可以选择fine-tuning的级别;可以标注更多的帧)

FCN

    将最后一层fully connected layer换成一个1*1的convolution,就可以做到训练任何大小的图像(免去了patch-based方法的冗余计算;移除fully connected layer减少了训练的参数)

    训练FCN:首先,对大量目标进行训练,构建出一个可以区分前景的模型(offline);然后在test time,对要进行分割的网络做fine-tuning

Criteria for CNN

1.  对目标的准确定位

2.  较少的训练参数

3.  相对较快的测试时间

pixel-wise cross-entropy loss

One-Shot Video Object Segmentation论文笔记_第1张图片

modified version(平衡两个二进制类)


Training

Offline training

One-Shot Video Object Segmentation论文笔记_第2张图片

1.  在ImageNet上预训练,为图像做标签(base network)

2.  在DAVIS训练集的二进制掩码上训练网络,学习出一个分割目标的方法(parent network)

3.  给出第一帧图像及其分割,对parent network进行训练、fine-tuning,然后对整个序列用新的权重进行测试,分割出视频多有的帧(test network)


你可能感兴趣的:(cnn,deep,learning)