Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA 阅读笔记
解决VQA(VisualQuestionAnswering)问题的关键在于如何从图片和问题中提取有用的特征,并将二者进行有效地融合。目前对于VQA问题的研究路线分为两个主要部分,一是更好的attention机制,二是改进的特征融合方式。一般而言这两部分属于模型独立模块,而本文认为两者是有联系的,应该进行有机的结合,因而提出了一种新的co-attention机制来改善视觉特征与语言特征的融合。我们展