2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)

论文地址

基于端到端预训练模型的视觉语言表征学习

** (VLP 和VQA本论文个人认为是继文字识别领域后融合计算机视觉与自然语言最大的技术突破)

论文动机
当前大多数文章都是先抽取出图像中的显著性区域,再将其与文字一一对齐。由于基于区域的视觉特征通常代表图像的一部分,因此现有的视觉语言模型要充分理解配对自然语言的语义是一项挑战。由于基于区域的视觉特征通常代表图像的一部分,现有的视觉语言模型很难完全理解成对自然语言的语义。

论文方法
本文提出SOHO“开箱即看”的概念,将完整的图像为输入,以一种端到端的方式学习视觉语言表达。SOHO不需要边界框标注,这使得推理速度比基于区域的方法快10倍。特别地,SOHO学会了通过视觉词典(VD)来提取全面而紧凑的图像特征,这有助于跨模态理解。

论文结果
大量的实验结果也验证了本文SOHO的有效性。

2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第1张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第2张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第3张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第4张图片

用于视觉问答的统一视觉语言预训练模型

论文地址
论文源码
论文动机
采用两阶段培训方案。第一阶段称为预训练,通过预测蒙蔽词或图像区域来学习语境化的视觉语言表征

论文方法
本文提出了统一的视觉语言预训练(VLP)模型。该模型的统一之处在于:(1)可以针对视觉语言生成(例如,图像描述)或理解(例如,视觉问题)任务进行微调,(2)使用共享的多层transformer网络进行建模编码和解码,这与许多现有方法不同,在现有方法中,使用单独的模型来实现编码器和解码器。在大量的图像-文本对上对统一VLP模型进行了预训练,使用以下两项任务的无监督学习目标:双向和序列对序列(seq2seq)掩码视觉-语言预测。两项任务的区别仅在于预测所基于的上下文。这是通过为共享的transformer网络使用特定的自注意掩码来控制的,下图是作者提出的用于一般视觉语言预训练的统一编码器-解码器模型。

2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第5张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第6张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第7张图片
2021CVPR计算机视觉最前沿研究领域多模态(VLP和VQA)_第8张图片

你可能感兴趣的:(系统科学,神经科学,认知科学)