文献阅读(十四):面向深度学习的视觉问答技术的分析

文献阅读(十四):面向深度学习的视觉问答技术的分析

  • 摘要
  • 引言
  • 1 视觉问答技术
  • 2 视觉问答模型分类
    • 2.1 联合嵌入模型
    • 2.2 注意力机制模型
    • 2.3 基于外部知识的模型
  • 3 相关公开数据集的分析
  • 4 小结

  • 主要内容:简单介绍了应用在VQA上的模型方法分类(联合嵌入模型、注意力机制模型、基于外部知识的模型)具体的研究进展;VQA数据集。

摘要

当输入图像和自然语言问题时,视觉问答技术能够理解图像和问题中的信息自动回答问题。文 章梳理近年来视觉问答技术的研究进展,分析了视觉问答技术的工作机制、模型的分类和公用数据集的特点,总结了目前 研究工作的不足及发展方向。

引言

人们提出在计算机视觉领域中引入交互式问答的方法对视觉对象进 行交互式内容理解,由此,视觉问答(visual ques- tion answer,VQA)应运而生。
视觉问答技术涵盖了计算机视觉和自然语言处理两个领域,它需要 建立模型去分析图像并理解问题,即在输入一张 图像及与图像相关的问题,模型能自动输出一个预测答案[1-4]。

1 视觉问答技术

VQA 技术面临着对图像分析和问题理解的挑战, 有时甚至还需要从图像中不存在的信息进行推理 回答,这些额外需要的信息可能是常识,也可能是 关于图像中特定元素的外部知识。
文献阅读(十四):面向深度学习的视觉问答技术的分析_第1张图片

2 视觉问答模型分类

已经提出了许多方法来处理视觉问答,这些方法按照模型结构可分为联合嵌入模型、注意力机制模型和基于外部知识的模型

2.1 联合嵌入模型

联合嵌入模型允许我们在同一个特征空间中学习视觉和文本这两个不同模态的联合表示,其结构如图 2。
文献阅读(十四):面向深度学习的视觉问答技术的分析_第2张图片
VQA 被看成是一个多标签分类问题。使用卷积神经网络(convolutional neural networks,CNN)对图像进行编码提取视觉特征,使用递归神经网络(recurrent neural networks,RNN)编码文本问题,并生成固定长度的问题特征向量。 把所有候选答案作为相互独立的标签,将图像特征和问题特征的联合表示输入由线性或多层感知机构成的答案分类器,产生预测答案。
随着时间间隔的变长 RNN 传递 的信息会逐渐减弱,长短期记忆单元(long short- term memory,LSTM)能够很好地处理长距离序列 中的文本问题。
Malinowski 等[6] 提出了 Neural- Image-QA 模型,该模型以 CNN+LSTM 为基础, 将问题词和通过 CNN 提取的图像特征一起送入 LSTM 网络,不断迭代直至问题词全部抽取完毕, 最后输出答案。
Fukui 等[7]提出了多模态紧凑双线性池化方法 (multi- modal compact bilinear pooling,MCB),该方法使用视觉和语言这个两个 特征向量的外积进行融合,提高了预测精度,但得到的特征仍然趋向于高维而且参数较多。
Kim 等[8]提出了多模态低秩双线性池化 (multi-modal low-rank bilinear pooling,MLB),使用 两个特征向量的 Hadamard 乘积,产生更低维度的 输出特性并减少了参数使用。
Yu 等[9]指出 MLB 存在收敛速度慢的问题,提出了多模态分解双线 性池化(multi-modal factorized bilinear pooling, MFB),该方法利用矩阵分解的方法计算融合特 征,降低了特征维度,提高了收敛速度。
Ben 等 [10] 引 入 MUTAN(multimodal tucker fu- sion for visual question answering) 框 架 ,使 用 相关张量的 Tucker 分解,融合概括了 MCB 和 MLB 模 型,模型参数数量得到了有效控制,同时表达能力更强。

2.2 注意力机制模型

改进联合嵌入模型的最有效方法之一是使用注意力机制。
之前介绍的大多数模型 是使用整个图像的全局特性来表示视觉输入,这很有可能引入与给定问题无关的噪声信息影响答案的预测。
注意力机制主要思想是让模型专注于图像中特定的视觉区域或问题中的某些词,与图 像或问题中别的信息相比,对问题的回答能够提
供更有效的信息,注意力机制模型结构如图 3。
文献阅读(十四):面向深度学习的视觉问答技术的分析_第3张图片
在该模型中,注意力能够根据提出的具体问题,将关注的重点聚焦于相关的图像区域得到注意权重,然后对图像区域特征进行加权求和得到图像特征,最后和问题特征联合输入分类器得到预测答案。

注意力机制的不同变体能够自适应地选择最重要的特征,提高视觉问答的准确性。
Xu 等[11]提出的软、硬注意机制已经成为 VQA 的主流方法。
Yang 等[12]提出层叠式注意力网络,以顺序的方式在图像上生成多个注意力图,逐步集中到最重要的视觉区域。
Kim 等[13]将这一想法进行扩展, 将其纳入到剩余连接的体系结构中,产生更好的注意力机制,与没有使用注意力机制的方法相比, 使用注意力机制的模型实验结果明显优于它们。
Lu 等[14]提出了共同注意机制,同时对图像区域和问题进行注意,学习它们的注意权重以获取这两个模态的交互作用。
Nguyen 等[15]提出 了一种紧密连接的 VQA 共同注意机制,对图像和 问题进行多步交互的注意堆叠。
在视觉问答的整体框架中,模态内和模态间的关系从来没有被共同研究过,Gao 等[18] 认为每个模态内关系是对模态间关系的补充,提出了 DFAF(dynamic fusion with intra- and in- ter-modality attention flow)模型,该模型包含了跨模态的共同注意和模态内的自注意,对于图像模态,每个图像区域不仅要从问题词中获取信息,还 要从相关的图像区域中获取信息,问题模态也是如此。
Gao 等[19] 又提出了 MLIN模型构 ,和 以 往 的模型相比,MLIN 不仅可以从大量的单个视觉单词对中提取特征,还可以从多模态潜在概要向量中提取特征,从而以更小的模态容量捕获高级 的视觉语言交互,极大的提升了模型的结果。
VQA 的注意力机制模型性能令人印象深刻,但它 们还不足以回答需要复杂推理或常识知识的问 题。因此,引入外部知识对 VQA 是有益的。

2.3 基于外部知识的模型

在回答有关图像问题时,人类可以很容易地 将可视化的内容与从书籍、百度搜索和个人经验 等不同来源获得的知识结合起来。对 VQA 而言, 将一般知识和观测结果结合起来是非常具有挑战 性的,大部分 VQA 模型是通过直接分析问题和图 像内容来回答问题。
Wu 等[20]提出将外 部知识库引入联合嵌入模型的方法,首先将提取 图像中的语义属性与外部知识库中的知识形成关 联,然后使用 Doc2Vec 形成固定大小的知识向量 并送入 LSTM 模型,最后和问题特征融合输入分 类器进行答案预测,该方法从知识库中提取离散 的是文本片段而忽略知识库中的结构。
Wang 等[21]提出 FVQA(fact-based visual question answering)方法,该方法使用了具有特定 结构的知识库。知识被表示为三元组结构,例如:
(橘子、属于、水果)和(豹子、跑的更快、狮子)。提 取问题中的关键字以对外部知识库进行查询,从 而找到与问题答案最相关的知识。
Su 等[22] 提出视觉知识记忆网络模型,该模型使用视觉知识库提高了视觉问答的准确性,从预先建立的视觉知识库中检索与问题相关的知识条目,与图像 和问题的联合输出相结合,存储在记忆模块中,最 后经过问题的查询读取存储的视觉知识特征,并 预测答案。

3 相关公开数据集的分析

VQA研究数据集:由图像、问题以及正确答案组成的三元组。
文献阅读(十四):面向深度学习的视觉问答技术的分析_第4张图片
VQA v2 缓解了 VQA v1 中的语言偏见,使数据集更加平衡,是目前视觉问答模型使用最广泛的数据集。
CLEVR 和其他数据集有所不同,它是为了解决推理相关的问题构建的。
KB -VQA、FVQA、OK -VQA 这三个都是知 识型的数据集,为上文基于外部知识的视觉问答模型提供了回答相应问题所必需的支持事实。

4 小结

VQA 技术研究取得了显著成绩,但也存在着一定的问题:

  • 首先,VQA 模型具有语言先验性。由于大部分香蕉的颜色是黄色,当输入一张青色的香蕉图像并提问图像中的香蕉是什么颜色?VQA 模型并不会仔细学习图像中香蕉颜色的特征就自动回答是黄色,导致模型整体的准确率不高,普遍低于人类水平。
  • 其次,现有模型难以将所有问题映射到外部知识和视觉问答数据集上,只有部分类型的问题可以解决,缺乏通用性。
  • 此外,VQA模型关系推理能力较弱,难以捕捉到图像中视觉对象间的交互状态或相对位置关系,需要理解对象间更高层次上的语义关系、空间关系,才能准确回答问题。
    因此,需要设计:
  • 设计一个能够在训练过程中捕获语言先验性的问题模型,动态调整损失并补偿这种偏见,让 VQA 模型将重心放在仅用问题模型不能正确回答的问题上。
  • 其次,设计更通用的外部知识使用策略,方便问题到外部知识的映射查询,正确回答问题;
  • 将输入的图像信息转变为文本,在文本域中将图像和问题特征进行融合,即视觉问答转化为机器阅读理解,这避免了直接在两种不同模态进行交互的状况,同时对引入的外部知识也能很好地进行融合特征,而且完美地保存了语言的结构特征,这将是未来重要的研究方向之一。

你可能感兴趣的:(研究领域论文学习)