Video Graph Transformer for Video Question Answering 论文笔记

论文地址: http://arxiv.org/pdf/2207.05342
代码地址: https://github.com/sail-sg/VGT

摘要

本文提出了一种Video Graph Transformer用于视频问答:1)设计了一个动态图转换器模块,该模块通过显式捕获视觉对象、它们的关系和动态来对视频进行编码,以进行复杂的时空推理; 2)利用解耦的视频和文本 Transformer 进行视频和文本之间的相关性比较来执行 QA,而不是使用纠缠的跨模态 Transformer 进行答案分类。视觉-文本通信由额外的跨模式交互模块完成。VGT在VideoQA任务上性能优异,甚至超过了那些用数百万外部数据进行预训练的模型,无需百万数据预训练。

介绍

Transformer及大规模图像文本数据推动了多模态预训练的成功[8,21,31,34,38,44,52,53,54,63] ,也推动了VideoQA的发展[14,16,20,23,28, 60,71]。
基于Transformer取得的进步主要在于对视频内容进行整体识别或描述的问题[30,48,62,63,64,68,72]。回答挑战现实世界视觉关系推理的问题的问题,特别是具有视频动态[20,59]的因果关系和时间关系,在很大程度上没有得到充分探索。跨模式预训练似乎很有希望 [29,67,70]。然而,它需要处理令人望而却步的大规模视频文本数据 [15,70],否则性能仍然不如最先进的 (SoTA) 传统技术 [29,47,67]。
原因总结如下:1)视频编码器过于简单。2D CNN[18,45] 或Transformers[13]或3D CNN [5,37,61]难以建模细粒度的对象之间的时空交互。2) VideoQA 问题的表述是次优的。通常,在多选 QA 中,视频、问题和每个候选答案都被附加(或融合)到一个整体Token序列中,并馈送到跨模态 Transformer 以获得答案分类的全局表示 [72,29],这种具有歧义的全局表示导致模型错误选择与问题相似的错误答案,而忽略了正确的简短答案。在开放式QA(通常被表述为多类分类问题 [62])中,答案被视为类索引,它们的词语义(对 QA 很有帮助)被忽略。信息建模不足加剧了数据饥渴问题,并导致次优性能。

贡献总结:

  • 我们提出了 Video Graph Transformer (VGT),它将 VideoQA 从浅层描述推进到深度推理。
  • 我们设计了一个动态图转换器模块,它显示了视觉推理的强度。 该模块与任务无关,可以轻松应用于其他视频语言任务。
  • 我们在 NExT-QA [59] 和 TGIF-QA [20] 上实现了 SoTA 结果,任务是对动态视觉内容进行视觉推理。 此外,我们的结构化视频表示为数据高效的视频语言预训练提供了承诺。

相关工作

  • 传统VideoQA技术:跨模态注意力[20,33,22]、运动外观记忆 [16,14,36] 和图神经网络 [23, 35,41]大多利用帧或片段级的表示作为输入。最近在对象级表示上构建的图 [19,36,47,60] 表现出卓越的性能,尤其是在强调视觉关系推理的基准上 [20,49,50,59]。然而,这些图方法要么构建不区分 1) 空间和时间、2) 局部和全局范围 [19,57] 中的关系的整体图,要么在帧级别构建静态图而不明确捕获时间动态[36,42,60]。对于多个对象在时空中交互的长视频来说,整体图很麻烦。此外,静态图可能导致不正确的关系(例如,拥抱与打架)或无法捕捉动态关系(例如,带走)。在这项工作中,我们将视频建模为局部到全局的动态视觉图,并设计图形转换器模块来显式建模对象、它们的关系和动态,以利用相邻帧中的对象和关系来校准在静态帧级。重要的是,我们还集成了强大的语言模型并探索了跨模态预训练技术,以自我监督的方式学习结构化视频表示。
  • Transformer for VideoQA:Pioneer 的工作 [32,48,63,64,72] 通过应用各种辅助任务 [72] 或策划更量身定制的监督(例如,过去预测未来 [48] 和 QA pairs [64]) 用于 VideoQA。 然而,他们专注于回答需要整体识别 [62] 或浅层描述 [68] 的问题,而他们在视觉关系推理 [20,59] 方面的表现仍然未知。 此外,最近的工作 [3,70] 表明,由于噪声大 [1,39] 和 HowTo100M 的数据范围有限,这些模型可能会在开放域问题上遭受性能损失。近年来一个趋势是利用大规模数据做端到端学习,如ClipBERT[29]用于图像文本描述[7,27],[15,70]收集了百万级的视觉-文本对用于预训练但成本高,[6,12]在目标小数据集上表现潜力,但它们要么旨在通过使用图像-文本预训练特征(例如来自 CLIP [44])来揭示基准数据集的单帧偏差,要么仅证明模型在合成数据上的有效性 [65]。总体而言,现有转换器式视频语言模型中的动态推理能力差和数据量大的问题在很大程度上推动了这项工作。为了缓解这些问题,我们明确地对动态视觉推理的对象和关系进行建模,并将结构先验(或关系归纳偏差 [4])合并到转换器架构中,以减少对数据的需求。
  • Graph Transformer[56,66,69]:通过将图专业知识(例如,节点度数)合并到 Transformer [66] 的自注意力块中,或设计 Transformer 式卷积块来融合来自异构的信息,在对自然图数据(例如社交连接)建模方面取得了重大进展 图[69]。最近的一项工作 [17] 结合了图形和 Transformer 用于视频对话。 然而,它只是将全局变换器应用于从静态帧构建的池化图表示,并且没有明确编码对象和关系动态。 我们的工作与它的不同之处在于设计和学习视频对象上的动态视觉图,并使用转换器在本地和全局范围内捕获时间动态。

方法(To Be Done)

概述

Video Graph Representation

Dynamic Graph Transformer

Cross-modal Interaction

Global Transformer

Answer Prediction

Pretraining with Weakly-Paired Data

你可能感兴趣的:(Video Graph Transformer for Video Question Answering 论文笔记)