Deep Learning for Visual Tracking: A Comprehensive Survey(单目标跟踪目前最好的综述类文章)

Deep Learning for Visual Tracking: A Comprehensive Survey
https://arxiv.org/pdf/1912.00535.pdf

摘要

视觉目标跟踪是计算机视觉中最抢手但最具挑战性的研究主题之一。 鉴于问题的不适性及其在广泛的实际场景中的普遍性,已经建立了许多大规模的基准数据集,并在此基础上开发出了可观的方法,并证明了近年来的巨大进步– 主要是基于最近基于深度学习(DL)的方法。 这项调查旨在系统地调查当前基于DL的视觉跟踪方法,基准数据集和评估指标。 它还广泛评估和分析了领先的视觉跟踪方法。 首先,从以下六个关键方面总结了基于DL的方法的基本特征,主要动机和贡献:网络体系结构,网络开发,视觉跟踪的网络训练,网络目标,网络输出以及相关过滤器优势的开发。 其次,比较了流行的视觉跟踪基准及其各自的属性,并总结了它们的评估指标。 第三,在一系列公认的OTB2013,OTB2015,VOT2018和LaSOT基准上,对基于DL的最新方法进行了全面检查。 最后,通过对这些最新方法进行定量和定性的批判性分析,研究了它们在各种常见情况下的利弊。 它可以作为从业人员温和的使用指南,以权衡何时何地在什么条件下选择哪种方法。 它还促进了对当前问题的讨论,并阐明了有前途的研究方向。
Deep Learning for Visual Tracking: A Comprehensive Survey(单目标跟踪目前最好的综述类文章)_第1张图片

1 INTRODUCTION

通用视觉跟踪旨在在只有目标的初始状态(在视频帧中)可用时估计未知视觉目标的轨迹。 视觉跟踪是一个开放且有吸引力的研究领域(见图1),具有广泛的类别和应用。 包括自动驾驶汽车[1] – [4],自动驾驶机器人[5],[6],监视[7]-[10],增强现实[11]-[13],无人机(UAV)跟踪[ 14],体育[15],外科手术[16],生物学[17] – [19],海洋探险[20],仅举几例。 在复杂的现实世界场景中,视觉跟踪(即无模型跟踪,实时学习,单相机,2D信息)的不适定定义更具挑战性,其中可能包括任意类别的目标外观及其 运动模型(例如,人,无人机,动物,车辆),不同的成像特性(例如,静态/移动摄像机,平稳/突然移动,摄像机分辨率)以及环境条件的变化(例如,照明变化,背景杂乱, 拥挤的场面)。 尽管传统的视觉跟踪方法利用各种框架-例如判别相关滤波器(DCF)[21]-[24],轮廓跟踪[25],[26],内核跟踪[27]-[29],点跟踪[30], [31]等-这些方法无法在不受约束的环境中提供令人满意的结果。 主要原因是手工制作的目标表示(例如定向梯度直方图(HOG)[32]和颜色名称(CN))[33]和不灵活的目标建模。 受到ImageNet大规模视觉识别竞赛(ILSVRC)[39]中深度学习(DL)突破[34] – [38]和基于DL的视觉对象跟踪(VOT)挑战[40] – [46]的启发 这些方法吸引了人们对视觉跟踪社区的浓厚兴趣,以提供强大的视觉跟踪器。
Deep Learning for Visual Tracking: A Comprehensive Survey(单目标跟踪目前最好的综述类文章)_第2张图片
Fig. 2: Timeline of deep visual tracking methods.
2015: Exploring and studying deep features to exploit the traditional methods.
2016: Offline training/fine-tuning of DNNs for visual tracking purpose, Employing Siamese network for real-time tracking, Integrating DNNs into traditional
frameworks.
2017: Incorporating temporal and contextual information, Investigating various
offline training on large-scale image/video datasets.
2018: Studying different learning and search strategies, Designing more sophisticated architectures for visual tracking task.
2019: Investigating deep detection and segmentation approaches for visual tracking, Taking advantages of deeper backbone networks.

尽管卷积神经网络(CNN)最初一直是主导网络,但是广泛的体系结构,例如暹罗神经网络(SNN),递归神经网络(RNN),自动编码器(AE),生成对抗网络(GAN)和自定义 目前正在研究神经网络。 图2展示了近年来深度视觉跟踪器发展的简要历史。 基于DL的最新视觉跟踪器具有独特的特性,例如对深度架构的利用,骨干网络,学习过程,训练数据集,网络目标,网络输出,所利用的深度特征的类型,CPU / GPU的实现 ,编程语言和框架,速度等等。
此外,在过去的几年中,已经提出了一些视觉跟踪基准数据集,用于视觉跟踪方法的实际训练和评估。 尽管具有各种属性,但其中一些基准数据集具有共同的视频序列。 因此,本文提供了对基于DL的方法,其基准数据集和评估指标的比较研究,以促进视觉跟踪社区开发高级方法。
视觉跟踪方法可以大致分为DL在计算机视觉革命之前和之后的两个主要类别。 第一类视觉跟踪调查论文[47] – [50]主要回顾基于经典对象和运动表示的传统方法,然后系统地,从经验上或从系统和方法上考察其优缺点。 考虑到基于DL的视觉跟踪器的巨大进步,这些论文所审查的方法已经过时了。 另一方面,第二类评论了有限的深度视觉跟踪器[51] – [53]。 论文[51],[52](论文的两个版本)将81和93个手工制作的深度视觉跟踪器分为相关滤波器跟踪器和非相关滤波器跟踪器,然后应用了基于体系结构和跟踪机制的进一步分类 。 这些论文通过有限的研究来研究基于<40 DL的方法。 尽管论文[54]特别研究了9种基于SNN的方法的网络分支,层和训练方面,但它不包括基于SNN的最新跟踪器(例如[55] – [57]) 以及部分利用SNN的自定义网络(例如[58])。 上一篇综述文章[53]根据其结构,功能和训练对43种基于DL的方法进行了分类。 然后,使用不同的基于手工制作的视觉跟踪方法评估16个基于DL的视觉跟踪器。 从结构的角度来看,这些跟踪器分为34种基于CNN的方法(包括10种CNN匹配和24种CNN分类),5种基于RNN的方法以及4种其他基于体系结构的方法(例如AE)。 此外,从网络功能的角度来看,这些方法可分为特征提取网络(FEN)或端到端网络(EEN)。 FEN是在不同任务上利用预训练模型的方法,而EEN则根据它们的输出进行分类。 即对象得分,置信度图和边界框(BB)。 从网络培训的角度来看,这些方法分为NP-OL,IP-NOL,IP-OL,VP-NOL和VP-OL类别,其中NP,IP,VP,OL和NOL是缩写 分别没有预训练,图像预训练,视频预训练,在线学习和没有在线学习。
尽管付出了所有努力,但没有全面的研究不仅对基于DL的跟踪器,其动机和对不同问题的解决方案进行广泛分类,而且还根据不同的挑战性场景对最佳方法进行了实验性分析。 受这些关注的驱使,本次调查的主要目标是填补这一空白,并调查目前存在的主要问题和未来方向。 此调查与先前调查的主要区别如下。

Differences to Prior Surveys: Despite the currently available review papers, this paper focuses merely on 129
state-of-the-art DL-based visual tracking methods, which
have been published in major image processing and computer vision conferences and journals. These methods include the HCFT [59], DeepSRDCF [60], FCNT [61], CNNSVM [62], DPST [63], CCOT [64], GOTURN [65], SiamFC
[66], SINT [67], MDNet [68], HDT [69], STCT [70], RPNT
[71], DeepTrack [72], CNT [73], CF-CNN [74], TCNN
[75], RDLT [76], PTAV [77], [78], CREST [79], UCT/UCTLite [80], DSiam/DSiamM [81], TSN [82], WECO [83],
RFL [84], IBCCF [85], DTO [86]], SRT [87], R-FCSN [88],
GNET [89], LST [90], VRCPF [91], DCPF [92], CFNet [93],
ECO [94], DeepCSRDCF [95], MCPF [96], BranchOut [97],
DeepLMCF [98], Obli-RaFT [99], ACFN [100], SANet [101],
DCFNet/DCFNet2 [102], DET [103], DRN [104], DNT [105],
STSGS [106], TripletLoss [107], DSLT [108], UPDT [109],
ACT [110], DaSiamRPN [111], RT-MDNet [112], StructSiam
[113], MMLT [114], CPT [115], STP [116], Siam-MCF [117],
Siam-BM [118], WAEF [119], TRACA [120], VITAL [121],
DeepSTRCF [122], SiamRPN [123], SA-Siam [124], FlowTrack [125], DRT [126], LSART [127], RASNet [128], MCCT
[129], DCPF2 [130], VDSR-SRT [131], FCSFN [132], FRPN2TSiam [133], FMFT [134], IMLCF [135], TGGAN [136], DAT
[137], DCTN [138], FPRNet [139], HCFTs [140], adaDDCF
[141], YCNN [142], DeepHPFT [143], CFCF [144], CFSRL
[145], P2T [146], DCDCF [147], FICFNet [148], LCTdeep
[149], HSTC [150], DeepFWDCF [151], CF-FCSiam [152],
MGNet [153], ORHF [154], ASRCF [155], ATOM [156], CRPN [157], GCT [158], RPCF [159], SPM [160], SiamDW
[56], SiamMask [57], SiamRPN++ [55], TADT [161], UDT
[162], DiMP [163], ADT [164], CODA [165], DRRL [166],
SMART [167], MRCNN [168], MM [169], MTHCF [170],
AEPCF [171], IMM-DFT [172], TAAT [173], DeepTACF [174],
MAM [175], ADNet [176], [177], C2FT [178], DRL-IS [179],
DRLT [180], EAST [181], HP [182], P-Track [183], RDT [184],
and SINT++ [58].

2.1 Network Architecture

尽管CNN已在基于DL的广泛方法中使用,但近年来也主要开发了其他体系结构以提高视觉跟踪器的效率和健壮性。 根据基于各种深度结构的技术的范围,分类法包括基于CNN,基于SNN,基于GAN,基于RNN和基于自定义网络的方法。

你可能感兴趣的:(学习日常)