论文-《MUREL: Multimodal Relational Reasoning for Visual Question Answering Remi》笔记
重点翻译拓展摘要:如今在涉及真是图像的VQA任务中,多模态注意力网络时性能最好的,但是这种简单的机制不足以对复杂的推理特征或者高层次的任务进行建模。因此,我们提出了MuRel,一个能在真实图像中学习端到端推理的多模态关系网络。我们的贡献主要有两个:一是引入了MuRel单元,一种通过丰富的向量表示来对问题和图像区域间的交互进行自动推理,和对成对结合区域关系进行建模的结构;二是合并MuRel单元到Mu