视频分割 / 跟踪

1. SiamFC(目标跟踪)

出自论文《Fully-Convolutional Siamese Networks for Object Tracking》
Siamese Network 对两个不同输入,使用同一个网络结构提取特征,然后根据提取的特征计算两个输入的相似度关系。这为目标跟踪(VOT)任务提供了新的研究方向。即通过比较后续帧和第一帧标注的模板图像的相似度关系,完成同一个目标的持续跟踪任务(相似度得分最高的位置,即认为是跟踪的目标位置)。
视频分割 / 跟踪_第1张图片

2. SiamMask(目标跟踪&分割)

出自论文《Fast Online Object Tracking and Segmentation: A Unifying Approach》
相比较于SiamFC:
(1)用 depth-wise cross correlation 替换了SiamFC中简单的cross-correlation,从而得到一个高维的相似度响应图
(2)增加了mask分支,利用高维相似度响应图,在完成目标跟踪的同时,实现像素级别的目标分割(半监督视频分割,仅利用第一帧的标定框)
下图three-branch variant 和 two-branch variant 分别是在SiamRPN 和 SiamFC基础上改造而来。
视频分割 / 跟踪_第2张图片
视频分割 / 跟踪_第3张图片

3.RANet(视频分割)

出自论文:《RANet: Ranking Attention Network for Fast Video Object Segmentation》
通过对第一帧和后续帧进行像素级别的匹配,得到模板每个像素点的Similarity maps, 借助第一帧的标定mask, 将这些maps分为前景maps和背景maps, 因为不同video的前景背景像素数不一致,所以为了得到一个固定尺寸的前景和背景图尺寸,提出了RAM模块,即排序选择模块,通过评分机制,从高到低选择出固定大小的maps作为后续模块输入(多了就丢弃,少了就补0), 得分越高的map, 代表该像素点在当前帧的匹配程度越高。最后,融合前景背景排序选择后Similarity maps特征和上一帧的mask,共同给出当前帧的预测结果。
半监督视频分割(利用第一帧标定的mask), 同时结合了matching 和 Propagation 两大半监督视频分割主流方法,给出了更好的性能表现。
视频分割 / 跟踪_第4张图片
视频分割 / 跟踪_第5张图片

4.《Improving Semantic Segmentation via Video Propagation and Label Relaxation》

核心思想为通过video prediction方法合成image–label对,扩充训练数据集,同时使用边界标签relaxation提升标签边界质量。
视频分割 / 跟踪_第6张图片

5. UVA-Net(视频注意力预测)

出自论文:《Ultrafast Video Attention Prediction with Coupled Knowledge Distillation》
视频分割 / 跟踪_第7张图片
核心思想:借用知识蒸馏技巧实现模型压缩
具体的,两个teacher model, 分别负责进行spatial和temporal预测,一个student model,附有两个分支,在对应teacher model的预测结果的指导下进行spatial和temporal预测,完成知识蒸馏过程。
为了进一步融合spatial和temporal特征,提升预测结果,设计了spatiotemporal model, 其结构与student model基本一致,只是后面对两个分支特征进行concatenate融合后给出最终预测。
视频分割 / 跟踪_第8张图片
其中的CA-Res 模块如下所示:
视频分割 / 跟踪_第9张图片

你可能感兴趣的:(视频分析)