现有方法主要从抽象的低层视觉特征推断答案,而忽略了高层图像语义的建模和丰富的区域空间上下文。为了解决这一问题,作者提出了一个多层次的视觉问题回答注意网络,该网络既可以通过语义注意减少语义鸿沟,并有利于通过视觉注意进行细粒度的空间推理。首先,从卷积神经网络的高层语义中生成语义概念,并选择那些与问题相关的概念作为语义注意。其次,通过双向递归神经网络将CNN的基于区域的中层输出编码成空间嵌入的表示,并通过多层感知器进一步确定与答案相关的区域作为视觉注意。第三,我们通过softmax联合优化语义注意、视觉注意和问题嵌入来推断最终答案。
目前的VQA的首先,人类语言问题传达了强有力的高级语义和明确的查询意图,而具有数万像素的真实世界图像是相对低级和抽象的,由于众所周知的语义鸿沟,这对深入理解图像提出了巨大的挑战。第二,视觉问题回答需要精细的空间推理,因为一些答案只能从“What”和“Where”问题的高度定位的图像区域中推断出来。
目前的方法是从分别对两个输入进行改进,首先,一些方法通过将语义概念、图像字幕甚至外部知识库引入典型的CNN-RNN框架来开发图像的高级语义表示。其次,其他人关注于使用基于区域的特征来发现最重要的区域来回答问题。然而,以往的研究仍然忽略了使用语义注意为自然语言问题选择最具鉴别性的概念,以及使用图像区域的显式空间编码。
为了同时从图像中学习语义和空间表征,作者提出了一个整体学习框架。同时强调与问题有关的语义信息以及跟问题有关的区域区域。模型包括以下三个部分:
成分(A)被定义为语义注意,旨在从图像中发现与问题相关的概念。成分(B)被定义为情境感知视觉注意,旨在发现问题相关区域并学习这些区域的视觉表征。成分(C)被设计成通过联合注意学习将来自不同层次的信息合并到CNN中。这三个组件是端到端联合优化的,它桥接了语言和视觉之间的语义鸿沟,并从图像区域学习细粒度的表示。
将视觉模态和语言模态结合起来的一个核心挑战是具有不同的抽象层次,其中语言通常指的是一般类别,而图像中的数百个像素可以指向一个实例。之前的已经表明从图像中提取显式高级概念有助于在语义层次内视觉内容与问题之间的关联,虽然一个图像可以传达多种语义,但并不是所有的语义都有助于回答特定的问题。因此,我们建议关注概念,这些概念不仅应该与图像相关,而且应该在语义上接近问题。我们通过两个步骤来实现这些目标。
第一步,我们用深度CNN训练一个概念检测器,它可以产生图像语义概念的概率。首先建立一个概念词汇表,其中每个概念被定义为一个单词。在停止词去除后,概念词汇中收集问答训练对中出现次数为C的最高频繁词。此外,基于这些概念的多标签图像数据集是基于用于训练概念检测器的COCO图像字幕数据集构建的。对于一个图片可以产生一个固定长度的数组,通过在CNN的预测层中进行fc的激活:(总结来说,第一步就是利用COCO数据集训练一个概念检测器,输入一个图片,得到图片的概念)
第二训练一个注意力网络来测量提取的概念与问题的相关性,首先给定一个问题,其中单词的one-hot表示,
对于给定一个概念,使用两层网络将其映射至一个空间,第一层与上述的问题映射矩阵共享参数,第二个是单独的一个矩阵,如下:
然后将上述两者点乘,然后通过sigmoid的激活函数得到两者的相关性分数,然后将分数与概念相乘得到概念的语义注意力权重:
最后将所有的注意力权重与概念相乘得到图像的高阶语义信息:
目前的视觉注意力是将整个图片分割开来,而很多概念应该是互相有动作或者位置联系的,不能单独看待。比如“猫站在什么东西上?”,回答这个问题不光要找到猫,还要找到猫脚下的东西。
具体来说,首先通过双向GRU编码器将上下文信息合并到每个区域的表示中。我们使用微调后的CNN模型进行概念检测,从之前的步骤中提取局部区域的视觉特征。我们将CNN模型中最后一个卷积层的特征图作为我们的视觉表示,它可以保留每个区域的完整空间信息。
将每个图片区域的特征表示为,将这些特征向量输入到双向GRU中,并将每一步的正方向和反方向的输出结合起来,形成每个区域的新特征向量,新的特征向量不仅包含了相应区域的特征信息,而且还包含了周边区域的上下文信息。我们将每个GRU中的隐藏状态的维数设置为与问题向量相同。
给每个区域分配一个注意力分数,用于建模区域和问题之间的关系。语义注意通过两个向量的点积来度量问题和概念词之间的语义相似性,与此不同,通过两个向量的元素相乘来对齐问题和每个区域,然后将它们输入到多层感知器(MLP)中。这种设计使得在MLP通过参数优化能够自动学习注意力功能。更具体地说,我们通过多步推理来搜索区域。
其中代表矩阵与向量之间的乘法,它是通过矩阵的每一列都乘以向量来实现的。是图像区域的注意力权重。与语义注意力相似,将注意力权重与区域特征相乘。
使用问题作为查询来搜索不同级别的图像信息。在低层视觉特征中,通过视觉注意关注问题相关区域,而在高层语义特征中,通过语义注意关注问题相关概念。两个层次的注意力通过融合他们所关注的代表而结合在一起。
表示两个向量之间的元素相乘。就是最终的预测概率,其中最大值即答案。