【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention

来自CVPR2018的一篇文章
原文链接:
End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Motivation

作者认为目前的算法大都只考虑了目标在当前帧的表观特征,对帧间信息利用太少,而tracking本身是基于视频序列做的——这无疑是一种浪费,同时也会降低跟踪器的性能。所以作者提出了一种flow correlation tracker 的思想,用光流来利用时序信息。

Contribution

  • 提出FlowTrack(main contribution)
  • 提出一种空间&时间的注意力策略

Flow Track

【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第1张图片
主要的网络还是比较简单的,上面的蓝色part是histroical branch(相当于模版分支),前若干帧 i 都和t-1帧做光流,然后用光流warp 第 i 帧的feature,最后把这些warp之后的特征merge到一起,得到一个比较好的特征。
作者这样做的目的是:能够用前 i 帧的特征修补t-1帧的特征。比如,当t-1帧的目标在发生形变或部分遮挡时,t-1的特征可能并不能很好的表征当前的目标,而对前i帧先做一个光流的warp(可以解释为做一个特征对齐)再merge,一定程度上能弥补t-1帧的不足,得到一个更robust的特征。
下面黄色的part就更简单了,就是对当前帧的research region 提一个特征。最后通过一个CF layer找到相应最大的点,就是目标中心点的位置。

Spatial & temporal attention

Spatial attention
作者对前i帧的加权融合提出了一种新的加权策略
【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第2张图片
简单来讲,就是衡量 i 帧的特征和t-1帧像不像,像的话就给一个比较大的权值,不像就给一个比较小的权值(这个位置其实原理上有点怪,理论上用 i 帧的特征就是想弥补t-1,但是和t-1不一样的作者又会给一个比较小的权值,有一种诡异的感觉……)。

Temporal attention
【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第3张图片
这里更直白讲应该叫channel attention,就是对各特征通道进行加权。这个东西在今年很火,很多方法都用上了这个trick,具体的实现方案和解释可以看这篇文章:Squeeze-and-Excitation Networks

Experiments

OTB100
【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第4张图片

VOT2016
【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第5张图片

精度还不错,在OTB100上mIou有0.655,速度的话12FPS,达不到实时性,但是在深度网络方法中算比较快的了。

Ablation study
【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention_第6张图片
可以看到,单纯的加固定权值的flow trick涨点不明显,甚至会掉点。加上attention策略之后能够大幅涨点。

你可能感兴趣的:(【目标跟踪】FlowTrack:End-to-end Flow Correlation Tracking with Spatial-temporal Attention)