不知道什么原因学校认证账号进不去,下载不了最新的PDF
zhihu指路【VL tracking】MMTrack阅读
一方面,传统的VL tracking方法需要昂贵的先验知识。例如,一些tracker是专门用于bounding box的,它们使用区域建议网络(基于锚点的机制)和ROI池化来生成跨模态融合和对齐的建议实例。
另一方面,在多任务学习中,寻找一个有利于vision-language理解的训练目标是困难的。例如,将各种损失函数用于某个特定的模块或任务中,如果一个模型想要有效地学习所有类型任务的特征,调整会是困难的并且泛化能力有限。
为了简化VL tracking建模,本文提出一种概念简单但有效的VL多模态跟踪pipeline,称作MMTrack。
pix2seq采用语言建模的方式解决了目标检测任务,取得了较好的结果。受其理念启发,作者为跟踪社区贡献了一种新颖的VL多模态跟踪模型,工作区别在以下几个方面:
SeqTrack与本文研究相似,但区别在以下几个方面:
本文提出的MMTrack框架如上图,包含两个输入:图像对和语言描述。首先,通过文本编码器和视觉编码器分别来提取这两种类型输入的特征。为了提高计算效率,作者使用两个线性层,将两类特征的通道维度从C降到d。然后,将语言和视觉特征喂到多模态编码器中进行统一的VL表征学习,因为通过融合操作形成统一表示是实现多模态学习的关键。
为了构建条件查询,作者将文本嵌入和边界框进行分词(tokenize),生成多个一维标记序列,然后将它们连接起来得到条件查询。接下来,将条件查询和VL表示输入到多模态解码器中。按照 自回归
的方式,条件查询学习从VL表示中生成带有边界框信息的目标序列。
最后,作者设计了一个简单的与任务无关(task-agnostic)的序列头部,可以直接预测最终的跟踪结果。
在这种模式下,不同模态可以通过encoder-decoder架构在MMTrack中传播。多模态编码器负责更新VL表示,而多模态解码器以自回归方式预测离散坐标标记。我们可以看到,整个pipeline简单而灵活。
x ~ = r o u n d ( x i s × K ) y ~ = r o u n d ( y i s × K ) \tilde{x}=round(\frac{x_i}{s}\times K) \ \tilde{y}=round(\frac{y_i}{s}\times K) x~=round(sxi×K) y~=round(syi×K)
如上图所示,本文提出一个task-agnostic序列预测器,生成一个属性序列来描述目标实例。具体而言,在多模态解码器的顶部添加了三个连续的线性层,以进一步学习坐标token。预测头输出坐标token序列的概率,其中前4个最大分数的索引代表当前帧的目标定位。By doing so, 模型能够摆脱传统分类器的引导,降低预测头的设计复杂度。
【多阅读多思考,有想法立刻写】相近领域或方向中,对最新方法的迁移和借鉴,比如单模态->多模态,检测->跟踪。
【绝对充分的实验】