[算法调研] 2021CVPR论文导读-VinVL: Revisiting Visual Representations in Vision-Language Models

第一作者:Pengchuan Zhang 来自于微软

原文链接:https://arxiv.org/abs/2101.00529

1 摘要

在以往的多模态-vison language(VL)模型中都很少在图像表示上深入研究,更多的是在多模态融合层进行相关优化,因此本论文主要提出了在VL上的一个优化,即希望图像特征能够在多模态中起到更好的作用,使图像特征能够包含更多的信息在里面,同时实验表明在基于新的物体检测任务所产生的图像特征和新的多模态预训练方式下可以显著提升模型效果,最终达到SOTA.

2 介绍

目前,很多的多模态相关研究会在预训练上做文章,同时在VL任务中也证明了视觉语言预训练 (VLP)起着很大的作用,VLP 通常由两个阶段组成,如下图1所示:

(1) 物体检测经过预训练获取内容丰富的图像特征。

(2) 多模态模型经过预训练以混合文本和图像特征。

以往的多模态研究更注重于融合层面上,很少以图像特征的优化作为主要目标来提升多模态的效果,因此本文提出了一项全面的实证研究,以证明图像特征在 VL 任务中很重要。在这里作者从新设计了OD(物体检测)模型,并且在更大量的数据上进行了训练,结合了多个公开数据集,包括 COCO、OpenImages、Objects365 和Visual Genome(VG),实验表明新的OD在很多的VL任务重都起到了很好的作用,和其他典型的OD模型相比(X152-FPN),新OD可以编码更多样化的图像对象和概念(例如,融入了1848 个对象类别和 524 个属性类别来生成图像表示)。

[算法调研] 2021CVPR论文导读-VinVL: Revisiting Visual Representations in Vision-Language Models_第1张图片

  

 

 [算法调研] 2021CVPR论文导读-VinVL: Revisiting Visual Representations in Vision-Language Models_第2张图片

 

你可能感兴趣的:(自然语言处理,神经网络,数据挖掘)