ActBERT:视频文本表征自监督学习

ActBERT能够从未标记的数据中,进行视频文本联合表征的自监督学习。首先,ActBERT能够利用全局动作信息来促进语言文本和局部区域对象之间的相互作用。它从成对的视频序列和文本描述中发现全局和局部的视觉线索,用于视觉文本关系的建模。其次,ActBERT引入了TNT块(TaNgled Transformer Block)来编码全局动作、局部区域对象、语言描述三种信息源。它可以从上下文信息中提取合理的线索来发现全局和局部的对应关系。作者利用视频描述、动作分割、动作步骤定位、文本视频片段检索、视频问答等下游任务验证了ActBERT的泛化能力。结果表明,ActBERT在视频文本表征学习中的优势明显优于其他方法。

ActBERT:视频文本表征自监督学习_第1张图片

Tangled Transformer以三种信息源作为输入,增强了语言特征和视觉特征之间的交互作用。

ActBERT:视频文本表征自监督学习_第2张图片

作者利用跨模态匹配、掩码语言建模、掩码动作分类、掩码目标分类四项任务对ActBERT进行了预训练。

ActBERT:视频文本表征自监督学习_第3张图片

基于YouCook2数据集的视频描述(Video Captioning)实验结果表明,ActBERT在所有指标上的表现都超过了VideoBERT。

ActBERT:视频文本表征自监督学习_第4张图片

基于COIN数据集的动作分割(Action Segmentation)实验结果显示,ActBERT的性能显著优于NN-Viterbi、VGG、TCFPN-ISBA等方法。

ActBERT:视频文本表征自监督学习_第5张图片

基于CrossTASK数据集的动作步骤定位(Action Step Localization)实验结果表明,ActBERT的性能显著优于Supervised、TVJE等方法。

ActBERT:视频文本表征自监督学习_第6张图片

基于YouCook2和MSR-VTT数据集的文本视频片段检索(Text-Video Clip Retrieval)实验结果显示,ActBERT显著优于TVJE和其他基线。

ActBERT:视频文本表征自监督学习_第7张图片

基于MSR-VTT数据集的视频问答(Video Question Answering)实验结果表明,即使没有花哨的联合建模,ActBERT也明显优于JSFusion等方法。

ActBERT:视频文本表征自监督学习_第8张图片

基于LMSDC数据集的视频问答(Video Question Answering)实验结果表明,当目标视频是电影时,ActBERT 能够学习泛化特征,从而获得可观的收益。

总结

ActBERT能够以自监督的方式进行视频文本联合建模。ActBERT可以直接对全局和局部视觉线索进行建模,以细粒度地学习视觉和语言的关系。ActBERT将全局动作、局部区域对象、语言描述三种信息源作为输入,并用Tangled Transformer进一步增强了三个源之间的交互作用。五项视频文本基准上的定量结果证明了ActBERT的有效性。未来,可以考虑利用视频动作识别与检测任务对ActBERT进行评价,也可以设计更强大的视频文本建模模块来提升 ActBERT的性能。

ActBERT:视频文本表征自监督学习_第9张图片 

 

你可能感兴趣的:(ActBERT:视频文本表征自监督学习)