论文:Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation

这是一篇2018ECCV的文章,几个月前看过了,当时看的时候记了很多笔记,不过不方便上传到博客中 /笑哭 大致写一些吧。
论文地址:https://arxiv.org/pdf/1803.07742.pdf
这篇文章没有开源!

这篇文章,作者的思路很明确,就是用运动矢量信息来做特征的扭曲,以期减少计算量。至于特征提取与分割,作者用的是deeplab。大概的思路如下,文中还有一些细节,手写的懒得码字。

Abstract:卷积网络在具有挑战性、密集预测任务的准确性方面进行了优化,但在视频的每一帧上运行速度都慢得令人望而却步。然而,附近视频帧的空间相似性意味着有机会重用计算。之前的工作探索了基于光流的基本特征重用和特征扭曲,但是遇到了这些技术所能达到的加速速度的限制。本文提出了一种新的视频加速推理的两部分方法。首先,我们提出一种快速的特征传播技术,利用压缩视频中出现的块运动矢量(如H.264编解码器)来实现特征在帧与帧之间的廉价传播。其次,我们开发了一种新的特征估计方案,称为特征插值,它融合了从封闭关键帧传播的特征,以呈现准确的特征估计,即使在稀疏关键帧频率。我们在城市景观和CamVid数据集上评估我们的系统,比较逐帧基线和相关工作。我们发现,我们能够大大加快视频分割,在保持主要竞争精度的同时,在大图像(960×720像素)上实现接近实时的帧率(20.1帧/秒)。这比单帧基线提高了6倍,比之前最快的工作提高了2.5倍。
首先,与基于光流的方法(如[39])相比,我们使用块运动矢量进行特征传播,可以在中间帧上减少53%的推理时间。其次,我们的双向特征扭曲和融合方案能够显著提高精度,特别是在高关键帧间隔。总的来说,这两种技术使我们能够以两倍于之前工作的平均推断速度的速度运行,在任何目标级别的精确度上都是最快的。

流程图很直接,直接上图

论文:Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation_第1张图片
Fig.3. In feature interpolation, features for intermediate frames are estimated as a fusion (F) of features warped (W) inward from enclosing keyframes.

(warp扭曲 其实就是通过光流和当前图片信息,推断下一时刻图片的信息)https://blog.csdn.net/ZYTTAE/article/details/42507541
在关键帧上(每n帧),执行特征网络N-feat以获得特征map。缓存这些计算出来的特性fc,然后对这些特性执行任务网络N-task,以获得关键帧分割。
在中间帧上,提取与当前帧索引对应的运动矢量图mv[i]。通过- mv[i]的双线性插值,将缓存的特性fc向前偏移一帧。(To warp forward,we apply the negation of the vector map.)同时也进行后向操作。在这里,我们使用可微的、参数可变的图像扭转Image warping操作([15]首次提出)。最后,对变形特征执行N-task,得到当前分割。
简单来说,关键帧用RGB信息做特征提取与语义分割,中间帧用运动矢量块与关键帧特征的扭曲操作来解决。(原文中的GOP为IPPPP)

论文:Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation_第2张图片

Fig.2. 一个示例运行时分解。F是用于[39]运动估计的光流网络。W是warp操作符。模型:DeepLab resnet - 101。GPU:特斯拉K80。
上图就是本文的大优势所在,极大的减少了计算量!

论文:Fast Semantic Segmentation on Video Using Block Motion-Based Feature Interpolation_第3张图片
Feature Fusion

你可能感兴趣的:(图像处理,目标检测追踪相关)