ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)

原文:Kim, Wonjae, Bokyung Son, and Ildoo Kim. "Vilt: Vision-and-language transformer without convolution or region supervision." International Conference on Machine Learning. PMLR, 2021.

源码:https://github.com/dandelin/vilt

视觉-语言预训练(VLP)提高了各种视觉-语言下游任务的性能。当前的VLP方法严重依赖于图像特征提取过程,其中大多数涉及region supervision(如目标检测)和卷积架构(如ResNet),这在模型效率和表达能力方面都存在问题。在本文中,我们提出了一个极简的VLP模型,即视觉-语言Transformer(ViLT),将视觉输入的处理被简化为无卷积方式,与文本输入的处理相同。我们表明,ViLT比之前的VLP模型快几十倍,并且在下游任务上具有相当甚至更好的性能。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第1张图片

图1:ViLT与传统VLP架构的比较。我们在不影响下游任务性能的前提下,将卷积神经网络从VLP流程中完全移除。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第2张图片

图2:四种视觉-语言模型的比较。VE、TE和MI分别表示视觉嵌入器、文本嵌入器和模态交互。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第3张图片

如3:模型总览图。插图的灵感来自Dosovitskiy等人的论文(2020年)。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第4张图片

表1:预训练数据集的信息。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第5张图片

表2:ViLT-B/32与其他模型在VQA、NLVR下游任务上的比较。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第6张图片

表3:ViLT-B/32与其他VLP模型在零样本检索任务上的比较。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第7张图片

表4:ViLT-B/32与其他模型在下游检索任务上的比较。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第8张图片

表5:ViLT-B/32的消融研究。w表示预训练期间是否使用全词掩码。m表示预训练期间是否使用MPP。a表示微调期间是否使用RandAugment。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第9张图片

表6:VLP模型的参数量、FLOPs、推理延迟的比较。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第10张图片

表7:VLP模型的组件。

ViLT:不用卷积/区域特征监督信号的视觉-语言Transformer(速读版)_第11张图片

图4:word patch对齐的可视化结果。

在本文中,我们提出了一种极简的VLP架构——视觉-语言Transformer(ViLT)。相比于那些大量配备卷积视觉嵌入网络(如Faster R-CNN和ResNets)的VLP模型,ViLT是有竞争优势的。未来,我们希望更多地关注Transformer模块内部的模态交互。尽管ViLT-B/32很了不起,但它更像是一个概念的证明,即没有卷积和region supervision的VLP模型仍然可以work。最后,我们指出了一些可以增加到ViLT家族的因素。

多模态人工智能

为人类文明进步而努力奋斗^_^↑

欢迎关注“多模态人工智能”公众号^_^↑

你可能感兴趣的:(transformer,深度学习,人工智能)