Recurrent Filter Learning for Visual Tracking(RFL)论文笔记

这是一篇ICCV2017的文章,文章条理清晰,通俗易懂,做以总结如下~  本人小菜鸟一个,水平有限,如有错误恳请指正。

第一次写博客,格式可能不够完美,望海涵~

 

【亮点】

加了LSTM,既保留了目标空间位置信息,也保留了时序信息。offline训练结束后,在线过程不再需要微调,降低了时间复杂度,速度快。

Exemplar image是一直在变化的,LSTM的状态也是实时更新的,相对于SiamFC(Fully-Convolutional Siamese Networks for Object Tracking,全程都是以第一帧作为模板)来讲有更好的适应性。

 

【用到的一些小Tricks】

(1)conv LSTM的初始状态是使用第一帧图像来进行的,而不是直接置零(实验证明了该tips将成功率提高了8-10%)

(2)SCNN和ECNN的参数不共享(实验证明了共享参数后效果很差)

(3)normal LSTM中filter的尺寸是1*1,本文将其改成了3*3*1024(除了output layer仍是1*1*256),Figure 5证明了效果确实提升了。

目标尺度的确定:采用缩放搜索图像金字塔,SCNN划过它产生三个不同尺度的response map,取效果最好的那个尺度作为最终尺度,而且response map还加了余弦窗处理。

(4)目标位置的确定:取了前k个高分的response map做平均,作为最终的目标位置。

 

【Mark】分类和跟踪任务的区别:
分类任务具有类内不变性(只需要区分狗这个类别即可,不需要区分白狗还是黑狗)而跟踪任务的目标是识别出每个特定的目标,是针对个体而言的,所以需要区分白狗和黑狗。

 

网络结构

RFL的结构

Recurrent Filter Learning for Visual Tracking(RFL)论文笔记_第1张图片

流程:

(1)第t步时,E-CNN从exemplar图像中捕获目标,生成exemplar feature map e_t,和上一步的状态C_t-1和h_t-1共同输入conv LSTM,更新当前状态C_t和h_t,

(2)目标滤波器f_t是由h_t经过一个output layer产生的,

(3)S- CNN从搜索图像(下一帧的图像)中提取特征S-t+1,它与f_t卷积产生响应图,用来定位目标。

【注意】

(1)SCNN的网络结构相同,但是参数不同,而且输入图像尺寸不同(ECNN的输入尺寸是127*127,为了获取更加精确的定位)

(2)每一个linear convolution后面都有一个Batch normalization为了加速收敛。

(3)每一个卷积层(除了conv5)后面都有RELU。

 

Convolutional LSTM的结构

Recurrent Filter Learning for Visual Tracking(RFL)论文笔记_第2张图片

 

状态的初始化

原理图见Figure 3,应用首帧图像进行。

 

Loss Function

在Figure1上的response map(17*17)上训练损失函数,损失函数是element-wise sigmoid cross-entropies

 

离线训练

从训练序列中采样N+1帧,其中1~N帧作为object exemplars,2~N+1帧作为搜索图像,样例图像和搜索图像都是以目标为中心进行中心裁剪后的图像,但是裁剪比例不一样(样例图像是目标大小的2倍,搜索图像是目标大小的4倍)。

由于使用的全卷积网络,具有平移不变性,所以以中心目标图像进行训练就已经足够了(不需要再对图像进行平移等操作扩充数据量了)

 

Online Tracking

不需要微调,直接使用双三次插值对response map进行上采样,选择value最大的地方作为目标中心位置。

为了考虑到不同尺度变化,使用图像金字塔生成三个尺度的response map,再把他们resize到相同的尺寸(和输入图像一样大的尺寸),计算每个response map的值(R^m),选择值最大的那个响应图作为最终预测的目标尺度

最终预测目标的位置:对值最大的前k个response map的位置做平均

 

更新:

对预测的目标进行裁剪,然后输入Figure 3更新LSTM的状态,产生新的object filter,用来和下一帧的特征图做卷积,以产生新的响应图

 

完整的算法流程(很清晰很完整)

Recurrent Filter Learning for Visual Tracking(RFL)论文笔记_第3张图片

 

 

 

你可能感兴趣的:(Recurrent Filter Learning for Visual Tracking(RFL)论文笔记)