Towards High Performance Video Object Detection -CVPR 2018

Towards High Performance Video Object Detection

接着上面的工作(DFF,FGFA),这里在abstract中写的很霸气,直接说了基于之前的工作,提出三种不同的方法来提高检测的速度和精度。

Method

直接上图来解释他们的工作,其中a代表DFF(deep feature flow),b 代表FGFA(flow guided feature aggregation) 。右侧代表他们提出的3种不同的方法。

Towards High Performance Video Object Detection -CVPR 2018_第1张图片

c1 Sparsely Recursive Feature Aggregation

之前FGFA的aggregation是很dense的,所以计算量很大,这里他提出对于key frame而言,不做dense的aggregation而是做那种递归式地从前到后进行,这样大大减少了计算量,相当于两帧之间做aggregation,后面的帧会考虑前面所有帧的历史信息

c2 Spatiallyadaptive Partial Feature Updating

这里是文章的亮点,partially update feature代表对于不同区域,采用不同的策略,warp或者做cnn 提取特征,那么如何确定那个点是用warp还是用cnn呢?作者用了一个a sibling branch on the flow network,它的输出是一个mask(记为Q),1代表warp,0代表用CNN,(1和0 的确定是作者自己设置的一个阈值,让这个网络去学习,相当于这个网络的作用就是隐式地对帧和帧之间点的运动大小做prediction)。

这里还没做完,因为feature matters,对于每个非关键帧,也会采用c1的做法,从前向后递归地进行aggregation。

注意在实现的时候他是逐层实现。mask算出来后(光流分支),在计算n层特征时用n-1层计算结果,计算n-1层用n-2(如此递归进行),mask大小根据feature map的大小逐渐调整,这样相当于对于一些点(非key frame)不用进行计算,否则你还得从头算n层,尤其对于一些图完全可以warp的,尤其是那种场景变化很小的图。

c3 Temporallyadaptive Key Frame Scheduling

之前的mask每个点代表运动变化程度,那么它们的求和就代表整个图像的appearance变化的大小,所以这里用了一个很简单的策略来进行key frame 的选择,就直接设置一个阈值,大于这个阈值就是key frame,小于就不是。为了证明这个策略,作者还做了如下实验:

Towards High Performance Video Object Detection -CVPR 2018_第2张图片
可以看到内容变化大的会超过阈值。

这个 trainning framework可以说是相当复杂了。Towards High Performance Video Object Detection -CVPR 2018_第3张图片

结果

自然是state of artTowards High Performance Video Object Detection -CVPR 2018_第4张图片

note:1,作者还做了大量对比实验。

2,Key Frame 选择是至关重要的。

你可能感兴趣的:(ComputerVision)