《论文阅读》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

《论文阅读》ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

      • 简介
      • 解决的问题
      • 模型构架
      • 数据集
      • 实验分析
      • 创新点

出版: Proceedings of the 38 th International Conference on Machine Learning, PMLR

时间:2021

类型:多模态融合

特点:不使用特征抽取,借鉴ViT思路直接使用Patch projection,极大提高模型效率

作者:Wonjae Kim, Bokyung Son, Ildoo Kim

第一作者机构:NAVER AI Lab, Seongnam, Gyeonggi, Republic of Korea.

简介

视觉和语言预训练(VLP)提高了各种视觉和语言联合下游任务的性能。目前的VLP方法在很大程度上依赖于图像特征提取过程,其中大部分涉及区域超视距(如目标检测)和卷积结构(如ResNet)。但我们发现它在以下两个方面存在问题:(1)效率/速度,简单地提取输入特征需要比多模态交互步骤多得多的计算;(2

你可能感兴趣的:(NLP,论文阅读,transformer,深度学习,ViLT,多模态)