《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

跟随attetion工作阅读该文

摘要

该文给我带来的思考首先于注意力的使用,它采用的co-attention结构,注意力函数类似于attention is all you need 类似采用多层尺度乘法注意,第二它对齐图像和问句特征采用多层的co-attention网络,通过拉伸的特征矩阵表示句子或图像。

模型结构

如图所示,Q 和V分别是图像和问句的特征表示,大小为d×T, d×N,T 为特征图展平后长度,N为句子长度。该模型共有L个堆叠的Dense Co-attention层,模型采用最后一层的图像和问句的注意力特征,最后采用不同参数的自注意层(文章上这样说。实际采用的两层MLP和一层softmax计算出一组权重,然后再通过权重对得到特征进行加权和作为图像或问句的语义表示。个人见解:这里的query和key不能算同一种东西,不能算自注意)分别得到图像和问句的聚合表示,最后计算图像和问句表示的得分,来预测答案。
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想_第1张图片
Dense Co-Attention如下图示,首先根据两个输入计算出各自的注意力状态,再每个元素的状态表示拼接上原始的特征表示向量,再采用全连接层得到新的状态表示,最后与原始特征表示逐点求和得到新的特征表示。

《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想_第2张图片
注意力计算如下:通过降维计算多个带尺度的乘法注意力计算出N*K 的矩阵(计算方式和Attention is all you need类似,不同在于这里用的时),列对应每个图像区域在词上的注意力概率,行对应每个词在图像区域的注意力概率,按列取softmax计算每个图像区域在词上的注意力权重,再右点乘图像的特征表示,得到图像针对各个词的注意力状态;按行取softmax再转置右点乘各个词组成的特征表示矩阵,得到整个问句对每个图像区域的注意力状态。

《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想_第3张图片

你可能感兴趣的:(《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想)