本节从三个方面概述了多模式跟踪:
请注意,在这项研究中,我们主要关注visible-thermal(RGB-T),visible-depth(RGB-D)跟踪,并且我们将可见模态作为主要模态,并将其他来源(即热和深度)作为辅助模态 方式。 分类结构如图1所示。
我们首先讨论多模式跟踪中的辅助模式目的。
主要分为三类:
(a)特征学习,其中提取辅助模态图像的特征表示以帮助定位目标;
(b)预处理,其中在目标建模之前使用来自辅助模态的信息;
(c)后处理,其中来自辅助模态的信息旨在改善模型或完善边界框。
基于特征学习的方法通过各种特征方法从辅助模态中提取信息,然后采用模态融合来合并来自不同来源的数据。 特征学习是一种利用多模态信息的显式方法,并且大多数相应方法都将辅助模态的图像视为模型的额外渠道。 根据不同的融合方法,如图2所示,可以将其进一步分类为基于早期融合(EF)和晚期融合(LF)的方法[31,90]。
基于EF的方法使用连接和求和方法在特征级别组合多模式信息。 基于LF的方法分别对每个模态建模,并通过考虑模态的两个决策来获得最终结果。
早期融合(EF): 在基于EF的方法中,将从两种模态中提取的特征首先聚合为较大的特征向量,然后发送到模型以定位目标。 基于EF的跟踪器的工作流程如图2的左侧所示。对于大多数跟踪器,EF是多模式跟踪任务的主要选择,而可见和辅助模式则使用相同的特征提取方法进行处理 。 Camplani等。 [43]将HOG功能用于可见图和深度图。 卡丁车等。 [47]提取多个功能以构建用于RGB-D跟踪的强大跟踪器。 [44、48、49、42、54、56、58、2、60、3]中也存在类似的方法。 但是,辅助模态通常针对可见地图指示不同的信息。 例如,热图像和深度图像分别包含温度和深度数据。 前述跟踪器应用特征融合,而忽略了模态差异,这降低了跟踪精度并导致跟踪器容易漂移。 为此,一些跟踪器通过应用不同的特征方法来区分异构模式。 在[45]中,梯度特征是在深度图中提取的,而平均颜色特征是用来表示可见模态中的目标的。 Meshgi等。 [52]使用原始深度信息和许多特征方法(HOG,LBP和LoG)来处理RGB图像。 在[29,57,64]中,HOG和强度特征分别用于可见模态和热模态。
由于特征级联和多模态数据的不对齐所涉及的成本不断增加,因此某些方法在通过修剪[67]或重新加权操作[50,72]进行特征提取后会调整特征表示,这会压缩特征空间 并利用交叉模式相关性。
在DAFNet [67]中,提出了一种功能修剪模块,以消除噪声和冗余信息。 Liu et al. [50]引入空间权重以突出前景区域。 Zhu et al. [72]利用提出的多模式聚合网络利用模式的重要性。
后期融合(LF): 基于LF的方法同时处理两种模态,并且为每种模态建立独立的模型以做出决策。
然后,通过使用加权求和[78、74、4、76],计算联合分布函数[73、8、77]和进行多步定位[75]组合决策。 Conaire et al. [73]假设多模式数据之间具有独立性,然后通过将两种模式中目标的可能性相乘来获得结果。 文献[77]采用了类似的方法。 Xiao et al. [4]通过自适应权重图融合了两个单模式跟踪器。 在MCBT [75]中,逐步使用了来自多个源的数据来定位目标。 首先通过可见域中的光流估算出大致的目标位置,然后通过基于零件的RGB-D数据匹配方法确定最终结果。
由于可用的深度图,辅助模态的第二个目的是在通过RGB-D数据进行目标建模之前将目标转换为3D空间。
这些类型的方法不是在图像平面中进行跟踪,而是在世界坐标系中对目标进行建模,并设计了3D跟踪器[38,39,7,30,40,41]。 刘等。 [30]将经典的均值漂移跟踪器扩展到3D扩展。 在OTR [7]中,由3D目标模型生成的动态空间约束增强了DCF跟踪器在处理视线外旋转和严重遮挡时的辨别力。 尽管获得了显着的性能,但是3D重建的计算成本却不能忽略。 此外,性能在很大程度上取决于深度数据的质量以及2D和3D空间之间映射功能的可访问性。
与提供更详细内容的RGB图像相比,深度图像突出显示了对象的轮廓,可以通过深度变化在周围环境中分割目标。 受深度图的性质启发,许多RGB-D跟踪器利用深度信息来确定是否发生遮挡并估计目标比例尺[43、46、49、79]。
遮挡推理(OR):遮挡是跟踪任务中的一个传统挑战,因为引人注目的外观变化会导致模型漂移。深度信息是检测目标遮挡的有力特征,因此,跟踪器可以采用全局搜索策略或模型更新机制来避免对遮挡目标的学习。在文献[43]中,当深度方差较大时,会检测到遮挡。然后,跟踪器放大搜索区域,以检测出重新出现的目标。Ding et al. [44]提出了一种遮挡恢复方法,其中记录深度直方图来检查是否发生遮挡。如果检测到遮挡,跟踪器将定位遮挡器并搜索周围的候选对象。在文献[10]中,Zhang et al. 提出了一种基于模板匹配方法和跟踪可靠性的跟踪切换器来检测遮挡。跟踪器可以动态地选择用于跟踪外观和运动线索的信息,从而显著提高跟踪器的鲁棒性。
尺度估计(SE):尺度估计是跟踪任务中的一个重要模块,它可以获得一个紧凑的边界盒,避免漂移。基于CF的跟踪器通过对搜索区域进行多分辨率采样来估计目标的尺度[91],学习用于尺度估计的滤波器[92],这不能有效地适应目标的尺度变化[49]。热图和深度图都提供了清晰的轮廓信息和粗像素的目标分割图。利用这些信息,可以有效地估计目标形状。在[46]中,标度的数量被自适应地改变以适应标度的变化。SEOH[49]利用深度信息的空间连续性,以较小的时间成本实现精确的尺度估计。在深度图中采用K-means方法对属于目标的像素进行聚类,根据聚类结果确定目标和搜索区域的大小。
在这一部分中,根据目标建模中所使用的方法,对多模态跟踪器进行了分类,包括生成法和判别法。生成框架的重点是直接对目标的表示进行建模。在跟踪过程中,通过匹配传入帧中的数据分布来捕获目标。然而,生成方法只学习前景信息的表示,而忽略了环境的影响,存在背景混乱或干扰[93]。相比之下,判别模型构造了一个有效的分类器来区分物体和周围环境。该跟踪器输出样本候选样本的置信度,并选择最佳匹配块作为目标。采用了多种分片采样方式,如滑动窗口[50]、粒子滤波[38,45]和高斯采样[11]。此外,一个关键的任务是利用强大的特征来表示目标。多亏了新兴的卷积网络,通过高效的cnn建立了更多的跟踪器。我们将在下面的段落中介绍各种框架。
稀疏学习(SL):SL在许多任务中都很流行,包括图像识别[94]和分类[95]、目标跟踪[96]等。在基于sl的RGB-T跟踪器中,跟踪任务可以用学习的稀疏字典表示为重构误差的最小化问题[57,29,56,58,60,63,64,1]。Lan等人[29]提出了一个统一的学习范式来学习目标表征、模态可靠性和分类器。在RGB-D跟踪任务中也采用了类似的方法。Ma等人[51]构造了一个由目标和遮挡模板组成的扩充字典,即使在严重遮挡情况下也能实现精确跟踪。基于SL的跟踪器在降低计算成本的前提下取得了很好的效果。这些跟踪器不能满足实时跟踪的要求。
均值漂移(MS):基于MS的方法最大化候选直方图与目标模板的相似度,并利用meanshift技术进行快速局部搜索。这些方法通常假设对象在连续帧中重叠[77]。在[39,30]中,作者将2D-MS方法扩展到使用RGB-D数据的3D。Conaire等人[77]提出了一种使用空间图代替直方图的MS跟踪器。与判别法相比,基于MS的跟踪器直接回归目标的偏移量,省略了密集采样。这些具有轻量级特性的方法可以实现实时性,但性能优势并不明显。
其他框架:其他生成方法也被应用于跟踪任务。Coraire等人[73]通过高斯分布对被跟踪的目标进行建模,并通过相似性度量来选择最佳匹配块。Chen等人[53]使用期望最大化算法对每个单独模态的统计以及RGB和热数据之间的关系进行建模。这些方法可以对单个或互补的模式进行建模,从而为不同场景提供灵活的框架。
粒子过滤器(PF):PF框架是一种贝叶斯序列重要性抽样技术[97]。它包括预测和更新两个步骤。在预测步骤中,给定先前t帧期间的状态观测z1:t={z1;z2;…;zt},使用贝叶斯规则预测状态xt的后验分布,如下所示:
where p (xt j z1:t1) is estimated by a set of N particles. Each particle has a weight, wit. In the updating process, wit is updated as
在PF框架下,放宽了卡尔曼滤波对线性度和高斯性的限制,从而实现了精确和鲁棒的跟踪[8]。对PF方法在多模态跟踪任务中的应用进行了改进。Bibi等人[38]提出了三维PF框架,该框架考虑了表示和运动模型,并提出了一种粒子剪枝方法来提高跟踪速度。Meshgi等人[52]在近似步骤中考虑遮挡,以改进遮挡处理中的PF。Liu等[64]提出了一种新的PF似然函数来确定粒子的优度,从而提高了性能。
相关滤波器(CF):基于CF的跟踪器学习用CF表示的判别模板来表示目标。然后,利用在线学习滤波器检测下一帧的目标。由于圆卷积可以在傅里叶域中加速,所以这些跟踪器可以保持较高的速度精度。近年来,为了提高跟踪性能,人们提出了许多基于CF的变体,如增加空间正则化[98]、引入时间约束[99]、配置判别特征[100]。由于基于CF的跟踪器的优越性,许多研究者致力于用CF框架构建多模态跟踪器。翟等[65]引入低秩约束来协同学习两种模式的滤波器,从而利用RGB和热数据之间的关系 Hannuna等人[46]在深度图的指导下有效地处理尺度变化。Kart等人提出了一种基于CSRDCF[101]设计的长期RGB-D跟踪器[7],该跟踪器应用在线三维目标重建来帮助学习鲁棒滤波器。从目标的三维模型中学习空间约束。当目标被遮挡时,利用视图特定的dcf对目标进行鲁棒定位。Camplani等人[43]在保持实时速度的同时,改进了CF方法在尺度估计和遮挡处理方面的应用。
深度学习(DL):由于CNN在特征表示方面的识别能力,CNN被广泛应用于跟踪任务中。各种网络提供了一个强大的替代传统手工制作的功能,这是最简单的方式利用CNN。Liu等人[50]从VGGNet[102]中提取深层特征,并手工制作特征,以学习健壮的表示。Li等人[68]将可见光和热图像中的深层特征串联起来,然后使用所提出的FusionNet自适应地融合它们,以实现鲁棒的特征表示。此外,一些方法的目的是学习用于多模态跟踪的端到端网络。在[11,67,69]中,借鉴MDNet[103]的一个类似的框架,用于不同结构的跟踪,以融合交叉模态数据。这些跟踪器在速度较差的情况下,性能得到了明显的提升。Zhang等人[71]提出了一种实时速度和平衡精度的端到端RGB-T跟踪框架。它们采用ResNet[104]作为特征抽取器,在特征层融合RGB和热信息,用于目标定位和盒估计。
其他框架:有些方法使用显式模板匹配方法来本地化对象。这些方法通过预定义的匹配函数找到与帧中捕获的目标最匹配的候选者[75,41]。Ding等人[44]学习贝叶斯分类器,将得分最大的候选作为目标位置,这样可以减少模型漂移。文献[83]通过最大化分类分数来学习结构化支持向量机[105],避免了训练过程中的标注模糊。
With the emergence of multi-modal tracking methods, several datasets and challenges for RGB-D and RGB-T tracking are released. We summarize the available datasets in Table 2.
自2019年以来,VOT委员会举办了RGB-D和RGB-T挑战赛[6,5]。对于RGB-D挑战,在CDTB数据集[87]上使用相同的评估指标评估跟踪器。所有的序列都基于5个属性进行标注,即遮挡、动力学变化、运动变化、尺寸变化和相机运动。RGB-T挑战将数据集构建为RGBT234的一个子集,该数据集包含60个RGB-T公共视频和60个隔离视频。与RGBT234相比,VOT-RGBT采用了不同的评估指标,即EAO,来测量跟踪器。在VOT2019-RGBT中,当检测到跟踪失败时(边界盒与地面真相的重叠为零),需要重新初始化跟踪器。此外,VOT2020-RGBT引入了一种新的锚定机制,以避免第一次重置与后一次重置之间的因果关联[5],而不是重新初始化机制。
在本节中,我们将对公共数据集进行分析,并从整体比较、基于属性的比较和速度三个方面进行挑战。为了公平地比较速度,我们参考了使用的设备(CPU或GPU),使用的平台(M: Matlab, MCN: Matconvnet, P: Python, PT: PyTorch),以及设置(CPU和GPU的详细信息)。跟踪器的可用代码和详细描述已收集并列在补充文件中。
多模式融合。 与单模态数据跟踪相比,多模态跟踪可以轻松利用强大的数据融合机制。 现有方法主要集中在特征融合上,而其他融合类型的有效性尚未得到开发。 与早期融合相比,晚期融合消除了从不同模式中可以学习到异质特征的偏差。 此外,后期融合的另一个优点是我们可以利用各种方法来独立地对每个模态进行建模。 结合了早期和晚期融合策略的混合融合方法已用于图像分割[123]和体育视频分析[124],这也是多模式跟踪的更好选择。
**辅助模态专用网络。**由于存在不同模态的鸿沟,并且语义信息也是异构的,因此传统方法使用不同的功能来提取更多有用的数据[57、64、45]。尽管已经对可见光图像分析的网络结构进行了足够的工作,但是深度和热图的特定体系结构尚未得到深入探讨。因此,基于DL的方法[11、66、67、71]将辅助模态中的数据作为具有相同网络架构(例如VGGNet和ResNet)的RGB图像的附加维度进行交易,并提取相同级别的特征(层)。一个关键任务是设计一个用于处理多模式数据的网络。自2017年以来,AutoML方法(尤其是神经体系结构搜索(NAS))开始流行,它可以自动设计体系结构并在许多领域(例如图像分类[125]和识别[126])获得高度竞争的结果。但是,研究人员对NAS方法进行多模式跟踪的关注较少,这是一个很好的探索方向。
具有实时速度的多模式跟踪。 额外的模态使计算倍增,这使现有的跟踪框架难以达到实时性能的要求。 需要设计加速机制,例如特征选择[67],知识蒸馏技术等。 此外,Huang et al. [127]提出了一种权衡方法,其中代理决定哪一层更适合精确定位,从而提供100倍的速度提升。
用于训练的大规模数据集。 随着深度神经网络的出现,CNN配备了更强大的方法来实现精准而强大的性能。 但是,现有的数据集专注于没有训练子集的测试。 例如,大多数基于DL的跟踪器在测试RGBT234时都将GTOT数据集用作训练集,因为RGBT234数据量小,场景有限。 基于DL的方法的有效性尚未得到充分利用。Zhang et al. [71]通过使用图像转换方法[120]从众多现有的可见数据集中生成合成热数据。 但是,这种数据增加并没有带来显著的性能改进。首先,构建大规模的训练数据集是多模态跟踪的主要方向。
**模态注册。**由于多模态数据是由不同的传感器捕获的,而双目相机在目标小、分辨率低的情况下存在着不可忽视的视差误差,因此对数据进行时空注册就显得尤为重要。如图9所示,目标是开箱即用的,并且通过学习无意义的背景信息来降级模型。 在VOT-RGBT挑战中,数据集可确保在红外模态中进行精确注释,并且跟踪器需要处理RGB图像的未对准情况。 我们指出,通过裁剪共享视野并应用图像配准方法,在数据集构建过程中必须进行图像预配准过程。
鲁棒性评估指标。 在一些极端的场景和天气条件下,例如下雨,低照度和炎热的晴天,可见或热传感器无法提供有意义的数据。 当物体远离传感器时,深度相机无法获得精确的距离估计。 因此,当某个模态数据在特定时期内不可用时,强大的跟踪器需要避免跟踪失败。 为了处理这种情况,必须在定位中应用互补和区分特征。 但是,没有一个数据集可以测量缺少数据时的跟踪鲁棒性。 因此,需要考虑一种用于跟踪鲁棒性的新评估指标。