ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision

如今,在多模态领域,同样采取先预训练,再进行微调的方式。

解决问题

视觉和语言预训练 (VLP) 提高了各种联合视觉和语言下游任务的性能。之前的工作发现,在视觉方面网络的模型越复杂越好,最终的结果就会越好。即当前的 VLP 方法严重依赖图像特征提取过程,其中大部分涉及区域监督(例如,对象检测)和卷积架构(例如,ResNet)。
作者认为此前的工作存在以下两个问题:
(1) 效率/速度方面存在问题,简单地提取输入特征需要比多模式交互步骤更多的计算;
(2) 表达能力,因为它是视觉嵌入器及其预定义视觉词汇表达能力的上限。仅仅用一个预训练好的模型去抽取特征,模型的表达能力是受限的,由于不是端到端的学习,可能抽取的特征非最优解。
为了解决上述问题,作者提出了一个极简化的模型。
ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision_第1张图片

为什么要选择目标检测?
  • 目标检测是天然的离散化的过程,并且有明确的语义信息,这正是transformer所需要的。
  • 下游任务往往和物体有直接的联系,即对物体有依赖性。
    虽然大部分数据集可以事先通过目标检测抽取特征。事实上,速率是个十分严重的问题,因为当你在真实世界中,去做这种应用的时候,数据是每时每秒在实时生成的,对于新数据,再做推理的时候,就没有那么多时间来做这种目标检测。
    所以,重心就转移到怎么设计一个更轻量更简单的图像特征抽取的方法。

研究方法和创新点

ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision_第2张图片

模态融合方法

single-stream
将image和text输入直接concatenation起来。
dual-stream
对于image和text,各自先各自将自己的输入进行一些处理,充分挖掘单独模态里包含的信息,然后再去在之后的某一个时间点做一个融合。

特征抽取
  • region features
  • grid features
  • patch projection

流程和模块

ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision_第3张图片
single-stream
ViLT:Vision-and-Language Transformer Withoout Convolution or Region Supervision_第4张图片

你可能感兴趣的:(transformer,深度学习,人工智能)