CVPR 2022 | End-to-End Referring Video Object Segmentation with MultimodalTransformers

End-to-End Referring Video Object Segmentation with MultimodalTransformers
阅读笔记

论文下载地址

1.摘要
参考视频对象分割(The referring vedio object segmentation ,RVOS)包含了对于给定视频帧中文本参考对象实例的分割,由于这种模态任务的复杂性,它结合了文本推理,视频理解,实例分割和跟踪,现存的方法依赖于使用复杂的管道去解决它,在本文中,我们提出一种基于transformer的RVOS方法,称为多模态跟踪transformer(MTTR),将RVOS任务建模为序列预测问题,MTTR 是基于视频和文本信息能够在一个多模态 transformer模型中同时高效优雅的处理,MTTR 可以通过端到端的训练,它没有文本相关的归纳偏执模块,也不需要额外的掩模优化的后处理步骤,在数据集 A2D-Sentences 和JHMDB-Sentences上进行评估,精确度提高了,检测速度为76帧每秒。
2.介绍
基于注意力的深度神经网络在计算机视觉和自然语言处理上取得的进展,使得这类网络,如transformer称为处理多模态问题的候选网络,依靠自注意力机制,使得序列中的每个token能够聚合全局的每个其他令牌的信息,transformer擅长对全局依赖关系建模,使它在计算机视觉上如果识别,目标检测等显示出希望,并超过长期使用的CNN ,
在参考图像的分割任务中(RIS),目标主要通过外观来表示,在RVOS中,目标可以通过他们正在执行或参与的动作来表示,对于涉及到动作的文本描述无法通过单个静态帧推断出来,RVOS 可能需要跨越多帧(如跟踪)建立参考对象的数据关联,以处理遮挡或者运动模糊这类的干扰。为了将视频与文本对齐,大多依赖于复杂的管道,这里我们提出一个简单的,端到端的基于transformer方法的RVOS
给定一个视频和一个文本查询,我们的模型就能为视频中所有对象生成预测序列,并确定文本所指的对象,该方法使用交叉熵来对齐视频和文本。
使用基于transformer的text encoder 提取不同的文本特征,然后使用时空encoder提取不同的视觉特征,然后将这些特征传入到多模态的transformer中,输出一些预测目标的序列,然后确定那是一个预测序列与参考对象最相关,为此我们提出了一种时序分割投票方案,使我们的模型在作出决策时,使我们的模型更加关注于视频中相关的部分。
本文的贡献如下:
(1)我们提出一个基于transformer的RVOS框架,称为多模态跟踪框架(MTTR),该框架将人物建模为并行的序列预测问题,并在选择参考文本对象之前输出视频中所有对象的预测结果
(2)我们序列选择策略基于时序分割投票方案,该方案允许我们的模型跟风更加关注于视频中与文本相关的部分。
(3)这种方法采用端到端的训练,没有与文本相关的归纳偏执模块,也不需要额外的掩模优化,相比现存的方法,它极大的简化了RVOS管道。
(4)我们在基础数据集A2D-Sentrences,JKMDB-Sentences上评估了我们的方法,除此之外,我们还报告了一个在RVOS任务上更具有挑战性的公共数据集上的评估结果。

#3.相关工作
(1)Gavrilyuk 用于将视频中演员和他们的动作分割出来,将视频和文本中的视觉,时序,文本信息对齐,提出了一种基于I3D的编码器解码器结果。从文本特征生成动态滤波器,并将其与视觉特征卷积,以获得分割mask。
(2)Wang et al. 通过引入相关的可变形卷积,为卷积核增加了空间上的上下文
(3)为了或得比卷积更加高效的效果, VT-Capsule,在capsule中对每种模态编码
(4)
ACGA利用协同注意力机制提高多模态特征
PRPE提出了positional encoding mechanism
URVOS
AAMN
CMPC-V
Transformer:DETR,VisTR,ViT,Swin Transformer,MDTER
#4.方法
##4.1任务定义
我们的输入包含帧序列,以及一个文本查询内容,我们的目标是从视频的每一帧中分割出与文本相关的对象
##4.2特征提取:
先从视频中的每帧中使用深度时空编码器提取特征,同时使用基于transformer的文本encoder从文本内容中提取语言特征,将时空特征和语言特征线性投影到共享维度D 中
##4.3实例预测
接下来,每个感兴趣的帧的特征被展平,并与text embedding 单独连接,产生一组多模态序列,这些序列被并行输入到transformer,在encoder中,每个帧的text embedding 和视觉特征交换信息,在decoder中,解码器输入对每个输入帧提供对象查询,查询与实体相关的多模态序列,并将其存储在对象查询中,不同帧的相应的查询共享相同的训练权重,通过训练可以关注视频中的同一实例,我们将这些查询称为相同实例序列的查询
##4.4输出
对于transformer输出的每个实例序列,我们产生一个对应的掩码序列,使用一个类似于FPN 的空间解码器,动态生成条件卷积核,使用一个文本参考评分函数,基于文本和掩码的关系,确定那个对象查询与文本描述的对象具有最强的关联性,并将其分割序列作为模型预测结果返回。
CVPR 2022 | End-to-End Referring Video Object Segmentation with MultimodalTransformers_第1张图片##4.4 时间编码器
一个合适的用于RVOS的时间编码器能够提取视频中每个实例的视觉特征如(形状,尺寸,位置等)和动作语义,而I3D可能会由于时间下采样造成空间的错位,无法满足精细的任务,因此提出了vedio swin transformer ,作为swin transformer在视频领域的泛化, Video Swin在动作识别的基准上做了大量实验,与I3D相反,Video Swin 仅包含单个时间下采样层,并且研究者可以轻松修改输出每帧的特征图,因此他是完成连续视频帧分割任务的更好的选择。
CVPR 2022 | End-to-End Referring Video Object Segmentation with MultimodalTransformers_第2张图片

你可能感兴趣的:(transformer,计算机视觉)