2020:UNITER: Universal Image_Text Representation Learning
摘要本文引入UNITER,一种通用的图像-文本表示,从四个图像-文本数据集(COCO,VisualGenome,ConceptualCaption,andSBUCaptions)的大规模预训练学习,通过联合多模态嵌入为下游V+L任务提供动力。我们设计四个预训练任务:掩码语言建模MLM,掩码区域建模MRM,图像-文本匹配ITM,和单词-区域对齐WRA。与之前将联合随机掩码应用到这两个模态的工作不同,