《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想
跟随attetion工作阅读该文摘要该文给我带来的思考首先于注意力的使用,它采用的co-attention结构,注意力函数类似于attentionisallyouneed类似采用多层尺度乘法注意,第二它对齐图像和问句特征采用多层的co-attention网络,通过拉伸的特征矩阵表示句子或图像。模型结构如图所示,Q和V分别是图像和问句的特征表示,大小为d×T,d×N,T为特征图展平后长度,N为句子长