CVPR2021 用更好的目标检测器提取视觉特征!微软提出VinVL,基于更好的视觉特征,达到更强的多模态性能...
关注公众号,发现CV技术之美0写在前面本文详细研究了视觉语言(VL)任务中更好的视觉表示,并开发了一种目标检测模型,来提供以对象为中心的图像表示。与最广泛使用的bottom-upandtop-down模型相比,新模型更大,更适用于VL任务,并在结合多个公共目标检测数据集的更大训练语料库上进行预训练。因此,它可以生成更丰富的视觉对象和概念集合的表示。虽然之前的VL研究主要集中在改进视觉语言融合模型,