当然之前也有相应深度跟踪的综述,例如:
“An in-depth analysis of visual tracking with Siamese neural networks,” 2017.“、、
Tracking noisy targets:A review of recent object tracking approaches,” 2018、、
“Handcrafted and deep trackers: Recent visual object tracking approaches and trends,2019(和前一个是同一篇文章的两个版本)、、
“Deep visual tracking: Review and experimental comparison,2018(传统的综述47-50)
这篇综述主要是系统的调研当前基于深度视觉跟踪方法、基准数据集和评价指标,并且评价和分析了优秀的视觉跟踪方法。
1.视觉跟踪方法最近企图利用RL和GAN方法的优势来refine他们的决策和减轻训练数据的缺乏,从而为视觉跟踪设计专门的神经网络
2.利用离线和在线训练方法可以产生更加鲁棒的视觉跟踪器
3.利用更深和更宽的backbone network,从而提供强大的判别力
4.最好的视觉跟踪方法同时使用分类和回归目标函数
5.利用不同的特征(深度、手工、上下文信息、时间等)来增强目标模型的鲁棒性。
6.对于基于深度学习的视觉跟踪方法最有挑战性的属性是:遮挡、out-of-view、快速运动
Generic visual tracking aims to estimate the trajectory of an unkown visual target when only an initial state of the target(in a video frame) is available.(或者目标跟踪是利用视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定目标位置的一种技术,是计算机视觉的一个重要基础问题)
传统的视觉跟踪方法利用各种框架(例如DCF),但是这些方法在没有限制的环境里不能提供满意的结果,主要的原因是,使用手工特征的目标表示和不灵活的目标模型,而基于深度学习的方法可以通过利用/融合 hierarchical feature,利用上下文信息或者运动信息来提高目标表示并且挑选最有判别力和鲁棒性的深度特征。首先,看一下最近几年深度视觉跟踪的简短发展历史:
CNN:
robust target representation
1.incorporating spatial and temporal information to improve model generalization [79], [82], [106], [119], [122],[137], [151], [153]
2.fusion of different deep features to exploit complementary spatial and semantic information [64], [101], [108], [109],[135]
3.learning different target models such as relative model[104] or part-based models [116], [127], [146] to handle partial occlusion and deformation
balancing training data
According to the definition of visual tracking,there is just one positive sample in the first frame that increases the risk of over-fitting.
Computational complexity problem
(利用轻量型结构,利用相关滤波的优势、压缩和剪枝训练采样空间、有效的更新过程、利用attention机制,进行部分采样策略、将CNN分成几个小网络等)
SNN:
Discriminative target representation:
online update strategies [81], [90], [93], [103], [111], [152],[156], [163],
background suppression [81], [111]],
formulating tracking task as a one-shot local detection task [111], [123],
giving higher weights to important feature channels or score maps [88], [124], [128], [148].
DaSiamRPN and MMLT use a local-to-global search region strategy and memory exploitation to handle critical challenges such as full occlusion and out-of-view and enhance local search strategy.
Balancing traning data:
exploiting multi-stage Siamese framework to stimulate hard negative sampling[157],random sampling[111],flow-guided sampling[133]
RNN:
考虑了目标的motion/movement,并且避免了预训练CNN模型的fine-tune,但是因为费劲的训练和相当多的参数,基于RNN的方法是有限的。大部分所有的这些方法尝试利用额外的信心和memory来提高目标模型。例如:spatio-temporal representation capturing[84],[139],[175],利用上下文信息来处理背景杂乱,编码了目标的self-structure[139],利用attention和背景抑制[175],卷积+LSTM[84]
GAN:
增强正样本,解决训练样本不平衡分布。[121],[136],[164]
Custom Networks:
Computational complexity problem(TRACA[120] and AEPCF[171] 使用了 AEs)
Model update:using RL[183],RDT[184]修正关于最好的目标模板决策
Limited traning data:SINT++[58]使用正样本生成网络生成正样本,使用困难正转化网络生成困难样本
Search strategy:
经典的搜索策略基于sliding windows,mean shift,partical filter,而基于深度的方法利用基于RL为了学习数据驱动的搜索策略。dynamic search process[110] and coarse-to-five verification[166].
Exploiting additional information(motion and contextual):
Decision making(RL):
现有的深度特征(deep off-the-shelf features)和深度特征(deep features for visual tracking)
利用多分辨率的深度特征来进行特征融合【59—61,64,69,83,109,129,130,143,152,172】,在最后阶段融合深度特征和浅层特征[109] ,利用motion information[92,106,172,202],为视觉跟踪任务挑选合适的深度特征【61】,但是利用现有的特征,限制了视觉跟踪的性能,由于不同任务的目标的不一致性。
离线训练(DAF,DMF DCTN)
在线训练
离线和在线同时训练(DAF,DMF MGNet\FPRNet )
基于回归
aim to directly localize target in the subsequent frames by minimizing a regularized least-squares function[refine the fomulation of L2 or L1 loss functions])
基于分类(二分类)
提取许多proposal BB–object proposal method,挑选最高分数的proposal)
基于分类和回归
(ATOM、DIMP、SiamRPN系列【their goal is to bridge the gap between the recent tracking-by-detection and continuous localization process of visual tracking】)BB regression methond【55,68,75,87,101-112,123,137,153,168,173】
置信图、Bounding Box、Object score、Action、特征图、分割mask
基于DCF方法、利用相关滤波器、层和函数
OTB2013 [185], VOT [40]–[46], ALOV[48], OTB2015 [186], TC128 [187], UAV123 [188], NUS-PRO[189], NfS [190], DTB [191], TrackingNet [192], OxUvA [193],BUAA-PRO [194], GOT10k [195], and LaSOT [196]
the VOT toolkit [45] has been modified to qualitatively compare different methods according to the TraX protocol [197]
performance measures(in terms of accuracy,robustness,and tracking speed) :
CLE(oldest metric)—average Euclidean distance between the groundtruth and estimated 's locations
Accuracy----交并比,考虑了location region,is calculated by the average overlap scores(AOS)
Robustness/failure score—the number of required re-initializations
EAO—combination of accuracy and robustness scores
AUC—average success rate(0-1),sum the AOS
performance plots:
Precision plot—given the CLEs
Success plot–estimated overlaps and the grond-truth ones
Expected average overlap cruve—re-initialize
One-pass evaluation with restart(OPER)
OTB and LaSOT precision and success plots
VOT2018 accuracy,robustness and EAO to provide the Accuracy-Robustness(AR) plots,expected average overlap curve,and ordering
分析了在不同数据集不同的评价指标下最好的5个跟踪器
最快的跟踪器:SiamRPN,SiamRPN++,CFNet,DAT,and DCFNet
在不同的数据集下最好的跟踪器是:VITAL [121], MDNet [68], DAT [137], ASRCF [155],SiamDW-SiamRPN [56], SiamRPN++ [55], C-RPN [157],StructSiam [11 3],SiamMask [57], DaSiamRPN [111], UPDT[109], LSART [127], DeepSTRCF [122], and DRT [126].
然后在不同的数据集不同的挑战属性下进行了对比分析,如下:
VOT2018 accuracy OCC,SV,IV (SiamRPN++,SiamMask ,SiamMask)
robustness OCC,MOC,IV(DRT,UPDT,SiamMask/CFCF)
OTB2015 precision OV,OCC,LR (ASRCF,ECO,SiamDW-SiamRPN)
success DEF,OV,LR(SiamRPN++,SiamRPN++,Siam-MCF)
LaSOT precision FM,OV,DEF success FM,OV,FOC(C-RPN,MDNet,VITAL are the top-3 trackers on the LaSOT dataset)
总之,OCC、OV、FM、DEF、IV、LR是基于深度学习跟踪器最有挑战性的属性。
the DCF-based methods have achieved fewer failures among the other methods,while the SNN-based methods have gained more overlap between the estimated BBs and ground-truth ones.
fusion of hand-crafted and deep features [109,122,126]
temporal regularization term [122]
reliability term [126]
data augmentation [109,111]
contextual [56,109,111,113]
temporal information [111,121,122,137]
尽管视觉跟踪做出了相当大的进步,最好的方法仍然不能处理现实世界的挑战,主要原因是缺乏情景理解。最好的视觉跟踪方法仍然不能以一种有意义的方式理解动态场景,立即识别整体结构,推理现有的物体,并且感知不同物体和事物的基本类别。
最后的参考文献是关键呀!!!
下图展示了各个时间点的代表性算法:
基于生成式的模型的方法不论采用全局特征还是局部特征,其本质是在目标表示的高维空间中,找到与目标模型最相邻的候选目标作为当前估计,但是它的缺陷是只关注目标信息而忽略了背景信息,而基于判别式模型的方法同时考虑了目标和背景信息,判别式模型将跟踪问题看做分类或者回归问题,目的是寻找一个判别函数,将目标从背景中分离,从而实现对目标的跟踪。基于回归判别模型的典型方法是相关滤波。
除了以上提到的网络结构,还有AE(自编码器),由编码器和解码器组成。变分自编码器(VAE)是对其的改进,(AE并不能生成任意的图片,因为隐向量无法人工构造,需要通过一幅图像输入至编码器才能得到隐向量,而VAE在编码过程中会增加限制,迫使其生成的隐向量能够大致遵循一个标准正态分布),通过VAE学习到的特征,可以应用于诸如识别、降噪、表示和可视化等任务中。
上面也提到了RL(强化学习),它主要解决的问题是,对于一个可以感知环境的智能体,通过学习选出能实现目标的最优动作,应用最广泛的为Q-learning,然后提出了Deep Q-learning。
另外,还可以使用元学习的方法Meta Learning,改方法的主要思想是首先训练一个好的初始化网络,在面对新任务时只使用少量数据即可更新出一个适应新任务的网络。主要做法是使用之前的历史经验(如历史的策略和历史的轨迹)创建出新的策略。这样的方式是对于人类思维防水的模仿,即利用历史经验来调整策略,从而快速适应环境。MLT(meta learning for real-time visual tracking)方法采用梯度预测的策略自适应更新网络参数,采用参数化网络梯度的方法学习网络模型,从而构建一个元学习网络。Meta-tracker 方法也采用基于预测梯度的策略学习方法获得普适性的初始化模型,可以使得跟踪自适应于后续帧特征的最佳梯度方向。该方法引入了两个待学习参数:初始化参数 θ 0 \theta_0 θ0 和梯度更新参数 α \alpha α 。目标跟踪的元训练过程主要分为两步:1.随机初始化参数,将第一帧图像输入跟踪模型进行预测,利用预测误差函数以及梯度更新参数,反复迭代T次作为 θ 1 \theta_1 θ1;2.检查参数 θ 1 \theta_1 θ1,对后续帧(每次迭代随机取一帧)的鲁棒性,累积损失函数对 θ 1 \theta_1 θ1和 α \alpha α的梯度,采用ADMM梯度下降算法优化参数 θ 0 \theta_0 θ0, α \alpha α的梯度。
改善的点:
1.没次只能对当前帧的跟踪目标进行建模,没有考虑当前帧和历史帧之间的关联性
2.提取出来的深度特征往往随着网络层数的加深变得高度抽象,丢失了目标自身的结构信息
3.池化操作会降低特征图的分辨率,损失了目标的空间位置和局部结构信息
4.只关注目标本身的局部空间区域,忽略了对目标周边区域的上下文信息进行建模