2021: ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
摘要现有的VLP方法严重依赖图像特征提取过程,大多包含区域监督(如目标检测)和卷积的结构(如ResNet)。尽管在文献中忽略,但我们发现有两个问题:1)效率/速度,仅仅提取特征就比多模态交互步骤需要更多的计算;2)表达能力,因为它是视觉嵌入器及其预定义的视觉词汇的表达能力上限。本文,我们提出一个最小的VLP模型--视觉和语言Transformer(ViLT),将视觉输入的处理大大简化为与处理文本输