Autoregressive Visual Tracking论文笔记

    该论文提出了一个针对视觉目标跟踪的自回归框架,即ARTrack。它将跟踪看作是一个坐标序列解释任务,也就是逐步估计目标轨迹,当前的估计由以前状态所影响,进而影响子序列。这种时间自回归方法对轨迹的顺序演化进行建模从而跨帧跟踪对象。ARTrack的框架如下图所示: 

Autoregressive Visual Tracking论文笔记_第1张图片

    先通过编码器嵌入模板和搜索图像的视觉特征,然后,解码器根据先前的估计(时空prompts)以及命令和视觉tokens来解释当前时间t的坐标tokens。其中,时空prompts为先前的输出结果。

    文中所提到的ARTrack由以下主要组成部分组成:

    1)序列构建:给定一个视频序列和初始目标框,视觉跟踪器来预测一系列的边界框。它们被映射到统一的坐标系当中,并且使用一个共享的词汇将其转化为离散的token序列。

    2)网络架构:使用编码器-解码器结构,其中编码器嵌入视觉特征,解码器解释目标序列。

    3)目标函数:在视频帧上使用结构化损失函数训练模型,使得目标序列的对数似然性最大化。

序列构建:

    Tokenization:为了避免描述连续坐标时所需的大量参数,从而对连续坐标进行离散化,这个过程被称为Tokenization。

    轨迹坐标映射:大多数跟踪器通过裁剪搜索区域来降低计算成本,而不是在全分辨率的帧上进行跟踪。这也就意味着网络在当前帧输出的目标坐标是相对于搜索区域而言的,要想获得一个统一的表示,就有必要将不同帧的框映射到相同坐标系当中。在本文的方法中,将先前N帧的框的坐标缓存到全局坐标系中,并在裁剪搜索区域之后将它们映射到当前坐标系中。

    词汇的表示范围:词汇的表示范围依据搜索区域的尺寸所设置,但由于物体的快速移动,先前的轨迹序列有时可能延伸到搜索区域的边界之外。为了解决这个问题,本文将表示范围扩展为搜索区域范围的倍数。

网络架构:

    Encoder:本文使用ViT encode作为视觉特征编码的OSTrack。模板和搜索图像先被切割成块,然后展平并投影以生成token embeddings序列,接着,添加带有位置和身份嵌入的模板和搜索tokens,将它们连接并输入到普通的ViT主干中,进而对视觉特征进行编码。

    Decoder:使用Transformer解码器来生成目标序列,它以先前的坐标tokens、命令token和视觉特征为条件逐步解码整个序列。解码器的工作方式有两种,自注意力(带有因果mask)实在坐标token之间执行的以传达时空信息;交叉注意力将运动线索与视觉线索相结合,从而做出最终预测。在每个解码器层中交替执行这两个操作,来混合这两种嵌入。下图(a)中说明了解码器的结构,为了提高跟踪效率,通过修改解码器层来研究一种改进的解码器,如下图(b)所示。Autoregressive Visual Tracking论文笔记_第2张图片

训练:

    除了每帧的训练和优化,ARTrack是通过视频序列学习的。它采用一个结构化的目标,该目标使用softmax交叉熵损失函数最大化token序列的对数似然性:

maximize\sum_{t=1}^{T}logP(Y^{t}|Y^{t-N:t-1},(C,Z,X^{t}))

其中T是目标序列的长度。

    引入了SIou损失,来更好地预测边界框和真实框地空间相关性,首先从估计地概率分布来得到坐标token,由于采样不可微,文章应用分布地期望来表示坐标,然后,能得到预测地边界框,并根据真实框来计算SIou,整体的损失函数为:L = L_{ce} + \lambda L_{SIoU},其中L_{ce}为交叉熵损失,\lambda是平衡两个损失地权重。

你可能感兴趣的:(目标跟踪,论文阅读,目标跟踪)