R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻摘要:最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式。现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的联合特征嵌入。最近的一些研究利用外部VQA独立模型来检测图像中的候选实体或属性,其作为与VQA任务互补的语义知识。但是,这些候选实体或属性可能与VQA任务无关,并且语义容量有限。为了更好地利用图像中的语义