Towards VQA Models That Can Read 论文解说

文章目录

      • 前言
      • 1. LoRRA模型
        • 1.1 VQA组件
        • 1.2 Reading组件
        • 1.3 Answer模块
      • 2. 实验结果

文章链接: https://arxiv.org/abs/1904.08920?context=cs.

前言

VQA取得了巨大的进步。但是今天的VQA模型在需要阅读的问题上惨败!这很讽刺,因为这些正是视力受损的用户经常向他们的辅助设备提出的问题。研究表明,视障用户对周围环境图像提出的主要问题包括阅读图像中的文本。但是现有的VQA模型不能读取!该文朝着解决这个问题迈出了第一步。
主要贡献:
(1)引入了一个新的数据集(TextVQA),其中包含需要模型读取的问题和对要回答的图像中的文本进行推理的问题。
(2)提出了“看、读、推理和回答”(LoRRA):一种新型的模型架构,回答问题时在OCR系统的输出上明确的进行推理。
(3)在TextVQA数据集上,LoRRA优于现有的最先进的VQA模型。
Towards VQA Models That Can Read 论文解说_第1张图片
TextVQA问题要求VQA模型理解嵌入在图像中的文本,以便正确地回答它们。绿色表示正确答案,红色表示由最先进的VQA模型预测(Pythia)预测的答案。显然,目前的VQA模型无法回答涉及阅读和推理图像文本的问题。因此,本文的重点是赋予视觉问题回答(VQA)模型一种新的能力——在图像中阅读文本并通过对文本和其他视觉内容进行推理来回答问题的能力。

1. LoRRA模型

该模型包含三个组件:
(i)一个基于image v 和question q 推理和推断答案的VQA组件
(ii)允许我们的模型读取图像中的文本的reading组件
(iii)answer模块,该模块可从应答空间预测或指向由 reading组件读取的文本
Towards VQA Models That Can Read 论文解说_第2张图片

1.1 VQA组件

红色、蓝色部分和通用的VQA模型基本相同,对于图像,使用GloVe对L个问题词w1, w2,…wl进行处理,然后传递给一个LSTM和一个self-attention来生成一个嵌入问题self-attetion 经过LSTM生成一个嵌入问题 fQ(q) ; 对于图像,使用faster RCNN提出图像特征 fI(V) ,对 fQ(q)和fI(V) 使用空间注意力 fA,并给出空间特征的加权平均值作为输出。然后将输出与问题嵌入相结合。在较高的层次上,我们对VQA特性fVQA(v, q)的计算可以写成:
在这里插入图片描述

假设我们有一个固定的答案空间a1,…aN,我们使用前馈MLP fc 结合嵌入f~V QA~(v, q)来预测概率p1,…pN,其中,正确答案 ai 的概率为 pi

1.2 Reading组件

为了增加从图像中读取文本的能力,我们依赖一个OCR模型,它没有与我们的系统联合训练。我们假设OCR模型可以从图像中读取并返回单词标记,OCR模型从图像中提取M个单词s1,…sM,然后将其嵌入经过预训练的FastText 得到 fO,最后,我们使用与VQA组件相同的体系结构来组合 OCR-question 特性fOCR。具体如下:

在这里插入图片描述
注意,上面的VQA模型组件并不共享函数fA,和 fcomb的参数,它们具有相同的体系结构,只是输入维度不同。在加权注意过程中,当特征与权重相乘,然后取平均值时,排序信息就丢失了。为了向应答模块提供原始OCR令牌的排序信息,我们将注意力权重和最终的平均权重特性连接起来。这样,answer模块就可以按顺序知道每个令牌的原始注意力权重。

1.3 Answer模块

在固定的回答空间中,当前的VQA模型只能预测固定的标记。由于图像中的文本经常包含训练时看不到的单词,因此仅基于预定义的答案空间就很难回答基于文本的问题。为了推广到任意文本,我们通过添加一个与M个OCRtokens相对应的动态组件来扩展答案空间。模型现在必须预测概率(p1,…, pN…(pN+M)),表示答案空间中的N+M项,而不是原来的N项。

我们选择概率最高的 pi 作为预测答案的索引。如果模型预测的索引大于N (即,在答案空间的最后M个令牌中),我们直接 “复制” 相应的OCR令牌作为预测的答案。我们的Answer模块可以被认为是“复制你需要”模块。答案可以在实际的答案空间和也可以在OCR标记中。
预测答案概率的最终公式fLoRRA可以写成:
在这里插入图片描述
其中,[; ] 指 concatenation ,fMLP是二层的前馈网络。

2. 实验结果

Towards VQA Models That Can Read 论文解说_第3张图片
作者制作了新的数据集TextVQA,包含45,336个问题,其中37,912个(83.6%)是不重复的涉及28408张图片,需要对文本进行推理才能回答。

Towards VQA Models That Can Read 论文解说_第4张图片

你可能感兴趣的:(VQA)