深度学习中的VQA(视觉问答)技术

视觉问答(Visual Question Answering,VQA)是一个需要理解文本和视觉的新领域。由于深度学习技术显著地改善了自然语言处理和计算机视觉结果,我们可以合理地预期VQA将在未来几年变得越来越准确。视觉问答主要涉及图像文本俩种模态信息。

目前的方法一般来说,我们可以概述VQA中的方法如下:

  • 从问题中提取特征。
  • 从图像中提取特征。
  • 结合这些特征来生成答案。
    对于文本特征,可以使用诸如Bag-Of-Words(BOW)或Long Short Term Memory(LSTM)编码器等技术。就图像特征而言,在ImageNet上预先训练的CNN是最常用的选择。关于答案的生成,这些方法通常将问题建模为分类任务。

深度学习中的VQA(视觉问答)技术_第1张图片
因此,几种方法的主要区别在于它们如何将文本特征和图像特征结合起来。例如,它们可以简单地使用串联将它们组合,然后提供一个线性分类器。或者它们可以使用贝叶斯模型来推断问题,图像和答案的特征分布之间的基础关系。
建议阅读由Kafle和Kanan撰写的关于VQA的优秀调查

基于关注(attention)的方法

基于关注的方法的目标是将算法的重点放在输入的最相关部分上。例如,如果问题是“球是什么颜色?”,则包含球的图像区域比其他球体更相关。用同样的方式,“颜色”和“球”这两个词,比其他的词更加attention。
VQA中最常见的选择是利用空间注意力来生成特定区域的特征来训练CNN。有两种常见的方法来获取图像的空间区域。首先,通过在图像上投射网格。

深度学习中的VQA(视觉问答)技术_第2张图片
使用网格将注意力集中到一起
网格应用后,每个区域的相关性由具体问题决定。

提出自动生成的边界框。

深度学习中的VQA(视觉问答)技术_第3张图片

详细内容如下:

VQA视觉问答

你可能感兴趣的:(深度学习中的VQA(视觉问答)技术)