分享 | 无监督视觉目标跟踪

第一次在知乎写文章,想谈谈博士期间比较熟悉的视觉目标跟踪。过去每一年的这个时候都在忙碌的赶CVPR,今年突然闲下来,有点不适。工作之余,写点文章当作是怀念科研的时光。步入正题,谈谈最近在CVPR2021和ICCV2021上看到的几篇无监督单目标跟踪算法。

单目标跟踪任务,给定初始目标的位置和尺寸,要求跟踪器持续地对目标进行定位。不同于多目标跟踪,单目标跟踪要求可以处理任意的物体,而多目标跟踪通常是固定类别的物体,如行人、车辆等。因此,单目标跟踪算法的这种“物体不定性”就好比一把双刃剑,一方面,待跟踪物体包罗万象,各种奇奇怪怪的物体为该任务带来诸多挑战;另一方面,不限制目标类别,又为跟踪任务的建模和训练带来无限可能。

早年间,相关滤波器统治跟踪领域时,基于局部的相关滤波器算法将物体划分成小块,并对小块进行逐帧跟踪。曾让我惊讶的是,这些细小的目标(比如一个人的衣角、身体局部)等仍然可以在较短的时间内跟踪的不错。后续算法甚至跟踪目标的边缘,以实现跟踪框的自适应变化。既然跟踪器被要求跟踪任意的物体,包括不规则物体、物体局部、物体边缘等,那么在模型训练时是否真的需要标注一个个明确的物体?我们是否可以在深度学习时代,无监督地训练深度跟踪器?

UDT (CVPR 2019)

在“Unsupervised Deep Tracking”[1]中,基于跟踪器对于物体类别不敏感的这种特性以及物体在是视频中的时序特性,我曾经将DCFNet算法[2]进行了无监督训练。基本出发点在于,随机选择视频中的一个区域,对其进行前向和反向跟踪,并依据前后跟踪轨迹的一致性进行模型的训练。第一版实验结果便出乎我的意料,随意选择视频中的一个区域作为目标,进行无监督训练,就可以将DCFNet训练的还不错。我知道,这一方面源于Correlation Filter的强大辨别能力,哪怕将图片变为灰度图怼进去,DCF也能跟踪的七七八八,何况现在又训练了一个CNN作为特征提取网络。

但当初让我惊讶的点在于,在ILSVRC2015中即便使用随意选取的目标(或者说是图片中随意的区域),无监督训练的结果也仅仅和全监督相差5~6点的AUC。后面又增加了一些trick,引入多帧无监督训练,修改loss函数等,又将DCFNet的无监督训练和全监督训练的性能差距缩小到3% AUC。

分享 | 无监督视觉目标跟踪_第1张图片

UDT算法的流程示意图

其实当初选择DCFNet作为Baseline有很大的私心,因为我知道DCF的强大辨别能力以及在后端可以设计trick并调整各种超参数(比如跟踪尺度惩罚因子、DCF学习率等),使得无监督算法的性能有基础的保障,快速水一篇论文,赶上当年的CVPR deadline。当时由于时间的紧迫,很多实验也并没有测试。后续在期刊中(简记LUDT算法[3]),经过进一步的验证࿰

你可能感兴趣的:(CVPR2021,ICCV2021,计算机视觉,目标跟踪)