CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记

目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

本文是在NIPS 2019 ViLBERT上的拓展,首先修改了预训练过程,有两个小修改:1. 对regions进行mask时,将IoU大于0.4的regions也mask掉,避免视觉信息泄漏;2. 在多模态对齐的负样本采样时,不强制masked multi-modal modelling loss,这样可以有效地降低负样本带来的噪声。其次,有两处不同(创新):1. 提出Clean V&L Multi-Task setup,可以在多任务训练过程中,确保没有任务泄漏;2. 提出多任务训练模型,在12个V&L数据集上同时训练,在四个任务上进行了验证:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。
论文链接

动机

贡献

方法

实验

你可能感兴趣的:(vision&language,#,visual,BERT)