Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记

该文是注意力机制应用的巅峰。简单的说本文就是:Siamese+CSR-DCF

该文首先对SRDCF.CSR-DCF等使用了特征加权的非深度学习方法和SimaseFC等的深度学习方法进行了介绍,指出非深度学习方法都是基于手动特征,然后优化理论的传统方法,而Siamese等深度学习方法则没有使用注意机制,从而无法消除边缘效应。该文将两类跟踪方法的优点进行结合并做了很多加强。代码地址(要等到六月份..)https://github.com/foolwood/RASNet.

网络结构:

 Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记_第1张图片

 

训练:首先通过imagenet的视频序列,离线训练一般注意力权重,然后输入a pair images Siamese,上面的网络接受前一帧的跟踪目标框,特征提取,然后输入到残差注意网络和通道注意网络里得到注意力权重, 然后三部分注意力进行融合得到最终注意力权重,最后将注意力权重,前一帧特征和当前帧搜索框进行互相关运算求出置信度映射。

试阶段:将测试图片对输入到Siamase和普通注意力网络,其他过程和测试阶段类似。

实验:在matlab with matconvnet上实现,Intel(R) Xeon(R) CPU E5-2630 v4 @2.20GHz and a NVIDIA TITAN Xp GPU.

OTB数据集:

Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记_第2张图片

VOT数据集:

  Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记_第3张图片


Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记_第4张图片

效果真的很棒,VOT效果好过ECO和CCOT,那岂不是比某讯的VITAL(http://xueshu.baidu.com/s?wd=paperuri%3A%28e45482204e16e29bdb602e35f9cde2ef%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fabs%2F1804.04273&ie=utf-8&sc_us=5643655420424511566)还要叼,而且速度干到了80!

 

总结:

优点:该文的三重注意力还是很有创新性的,尤其是残差注意力的提出,可以很好解决离线训练的过拟合问题。

缺点:1)单该文的模型结构过于松散,其中需要一个单独的结构去提取General attention,这与端到端的思想不符,是一个可以改进的地方。

2)WXCorr的运算用一个网络去近似,也是一个值得考虑的点。

3)由于Siamese的原因,使得网络的两端输入SIZE必须一致,所以作者才会在目标帧CROP出多个框,去计算WXC,很显然这使得网络的灵活性降低,如果在下端网络的特征后端加入一些用于特征对齐的层或者直接FC,可能处理起来更方便一些。





 




你可能感兴趣的:(Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Track笔记)