目标跟踪论文阅读笔记(一)Learning regression and verification networks for long-term visual tracking

这一篇又是大连理工卢湖川教授团队的论文,所以我觉得应该质量挺高的,所以今天来阅读一下。

针对的是长期跟踪,经常会出现目标消失的情况(这个在短期跟踪里基本没有),然后又有可能重现回到视野内。

本文提出了的算法将一个基于匹配思想的回归网络V(通用的匹配函数,类似于siamfc)和分类网络R协同起来,回归网络主要来生成一些概率比较大(得分高)的候选区域,这个网络需要去学习到鲁棒,可以抵抗目标形变的特征表达,而分类网来确定目标是否已经丢失。

当候选区域在V中的匹配分数和在R中的目标置信度得分不能同时达到较高的分值时,就被判定为目标丢失,这时候要在整张图片中搜索。

目标跟踪论文阅读笔记(一)Learning regression and verification networks for long-term visual tracking_第1张图片

(其实之前我也有想过增加一个跟踪置信度的变量,只是想在原有的孪生网络上增加一个分类分支,没想到要重新去训练一个分类网。而且我设置这个置信度是为了进一步的目标特征融合,加入更多的时间信息。而这里,置信度主要是为了去除复杂、相似背景的干扰)

回归网络R的结构

前面和siamfc很类似,用同一个网络(Mobile net,这个网络的效率比较高,适合跟踪这种实时任务)分别提取目标和搜索区域(目标区域的四倍大)的特征,但是两个分支网络的参数是不同的。搜索区域提取的特征是两个尺度的,为了适应目标的尺度变化。另外,更重要的是,siamfc直接用卷积层来代替匹配函数,而这里,将两个分支的特征融合,再通过一个RPN网络,输出一些候选区域(回归值)。最后,在所得的候选区域中,需要用到非最大值抑制这个算法去去除一些冗余的区域,IOU的阈值为0.6.

目标跟踪论文阅读笔记(一)Learning regression and verification networks for long-term visual tracking_第2张图片

特征融合的细节,如图所示:

目标跟踪论文阅读笔记(一)Learning regression and verification networks for long-term visual tracking_第3张图片

识别分类网络V的结构

输入一个107*107的候选区域,输出两个神经元,分别是目标和背景的概率。

受MDNet的启示,该网络的后三层权值是在线更新的,能更好地去区分特定目标和背景。

 

这篇文章其实是跟踪和目标检测SSD,RPN的一个结合,精准度很高。

算法的不足:太慢了,在NVIDIA GTXTITAN X上的FPS仅为2.主要原因是:

有两个网络,提取的特征应该是有很大程度上的冗余;

RPN的计算量又特别大,还包含了多尺度;

在候选区域丢失目标后,需要在整张图通过滑窗操作来寻找目标的位置,特别费时;

分类网络V类似于MDNet,采用一种在线更新的机制。

所以在算法速度上,还可以采取很多优化的措施。

你可能感兴趣的:(深度学习,目标跟踪)