论文解读:Where To Look: Focus Regions for Visual Question Answering

可能要很久时间开始关注vqa问题,vqa问题就是图像的问答问题,即对图像提问,并产生答案。关于图像问答综述性文章推荐:Visual Question Answering:
Datasets, Algorithms, and Future Challenges
。今天开始可能要跟大家分析关于vqa的相关论文解读,今天是第一篇文章Where To Look: Focus Regions for Visual Question Answering。如果有不准确的欢迎大家指出。(论文我只会记录作者的模型部分,以及值得借鉴的地方)

1,想法

主要想法是学习语言和视觉区域的非线性映射将特征纳入共同的潜在空间以确定相关性。


2,模型部分

vqa问题就是需要提取问题特征和图像特征,然后利用这两个特征来产生输出。下面将分别介绍:问题特征提取,图像特征提取,如何预测结果。模型图如下:
论文解读:Where To Look: Focus Regions for Visual Question Answering_第1张图片

a.模型整体介绍:

  • 图像先经过区域选择,对问题进行embedding操作;
  • 用问题embedding对图像区域计算注意力权重;
  • 融合问题特征和图像特征;
  • 预测输出

b.图像先经过区域选择,对问题进行embedding操作

图像区域选择,可以看成是对图像产生N个候选框,具体怎么产生在另外的文章中介绍,简单理解就是对象重要的模块建立一个候选框,然后再用交并比过滤产生最终结果。至于文本embedding的方式我觉得可以值得我们参考,是一种非常简单有效的特征提取方法,过程如下:

  • 采用Stanford Parser 解析问题,把问题分层四个部分,每个部分都采用word2vec词向量的平均值作为表示。然后再把四个部分拼接起来作文文本表示。
  • 第一个部分:前面两个单词。作者认为问题前两个单词代表问题的类型,比如How many
  • 第二个部分:主语部分。
  • 第三部分:其他的名词部分。
  • 第四部分:其他所有单词,除了限定词。

c.其他过程

嵌入的语言特征通过区域选择层以与视觉特征组合。 区域选择层内部,A和B将视觉和语言表示为900维度。然后计算内积权重,通过加强和得出输出的最终特征。然后最终通过两个更完全连接的层,输出维度为900和1,其中输出标量是问答对分数。

d.损失函数

采用最大间隔损失函数,和支持向量机的损失函数很像。

3,模型主要创新:

  • 对问题采用分箱拼接的思路embedding
  • 整个架构采用注意力思路,即根据问题应该关注图像的哪一个部分
  • 图像的注意力采用分区域的思路,提前分好区域

你可能感兴趣的:(vqa问题,vqa,图像问答)