用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》

目录

一、文献摘要介绍

二、网络框架介绍

三、实验分析

四、结论


这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。

一、文献摘要介绍

Multimodal representation learning is gaining more and more interest within the deep learning community. While bilinear models provide an interesting framework to find subtle combination of modalities, their number of parameters grows quadratically with the input dimensions, making their practical implementation within classical deep learning pipelines challenging. In this paper, we introduce BLOCK, a new multimodal fusion based on the block-superdiagonal tensor decomposition. It leverages the notion of block-term ranks, which generalizes both concepts of rank and mode ranks for tensors, already used for multimodal fusion. It allows to defifine new ways for optimizing the tradeoff between the expressiveness and complexity of the fusion model, and is able to represent very fifine interactions between modalities while maintaining powerful mono-modal representations.

作者认为在深度学习社区中,多模式表示学习越来越受到关注。 虽然双线性模型提供了一个有意思的框架来查找模态的细微组合,但其参数数量却随着输入维呈二次方增长,这使其在经典深度学习流程中的实际实现具有挑战性。 在本文中,我们介绍了基于块超对角张量分解的新型多峰融合BLOCK。 它利用了块项秩的概念,它概括了已经用于多峰融合的张量的秩和模态秩的概念。 它允许定义新方法来优化融合模型的表达性和复杂性之间的折衷,并能够在保持强大的单模态表示的同时表示模态之间非常精细的交互。

二、网络框架介绍

作者提出的VQA模型基于经典的注意力架构(Fukui et al.2016),并通过作作者提出的合并方案得到了丰富,融合模型如下图所示,使用(Teney等人)提供的自下而上的图像特征,由一组检测到的对象及其表示组成(见Mordan等人Durand等人,关于检测和定位)。为了获得问题的嵌入向量,对单词进行预处理,然后将其输入到经过预先训练的Skip-thought编码器中(Kiros等人.2015),该语言模型的输出用于生成表示整个问题的单个向量,如(Yu et al.2018)。

用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》_第1张图片

        双线性模型以两个向量作为输入,并用张量积将它们投影到K维空间:

其中的每个分量都是输入的二次形式:

        双线性模型完全由其相关张量定义,与线性模型相同的方法是由其相关矩阵定义的。为了减少参数的数量和约束模型的复杂性,我们使用块项分解来表示。更准确地说,在秩(L,M,N)项中的分解定义为:

其中,。这种分解被称为块项,因为它可以写成:

其中,也一样),的块超对角线张量。将这一结构约束应用于方程(1)中的。我们可以表示关于。令这两个投影与由块-超对角线张量参数化的融合合并。这个张量中的每个块合并成一个块,大小为的块来自,大小为的块来自,以产生大小为的向量:

其中是维的向量,其中包含中的相应值。最后,将所有的向量拼接起来产生,最后的预测向量是

        为了进一步减少模型中的参数数,就像在最近的一些VQA应用程序中所做的那样,我们对块的每个三阶切片矩阵的秩添加了一个约束。

三、实验分析

        对于层,我们设置并将每个块的每个mode-3切片的秩约束为小于10,作者发现这些超参数在val集上具有交叉验证。 与(Yu et al.2018)中一样,作者考虑了3000个最常见的答案。就像在(Ben-Younes et al.2017)中一样,在答案采样中使用了交叉熵损失,使用Adam(Kingma and Ba 2015)联合优化了我们的VQA模型的参数,学习率为,没有学习率衰减或梯度修剪,并且批处理大小为200。根据结果的变化,选择最优值,提早结束了模型的循环。

在表1中,我们将BLOCK与常用VQA 2.0数据集上的文献中提供的8种不同融合方案进行了比较(Goyal et al.2017)。我们在trainval上减去用于早期停止的一小部分进行训练,并报告测试开发集上的性能。 对于每种融合策略,我们都会对其超参数进行网格搜索,并在验证集上保持表现最佳的模型。

用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》_第2张图片

正如我们在表2中所显示的,我们的模型能够在TDIUC上以很大的优势超过前面的模型,特别是那些解释数据中的偏差的度量。

用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》_第3张图片

在表3中,我们看到我们的融合模型在VQA2.0上获得了与以前发表的方法相比的竞争结果。由于我们的表现优于(Zhang,Hare,and Prgel-Bennett 2018),他们的主张依赖于完全不同的架构,因此我们认为我们的贡献是正交的。尽管如此,我们的模型仍然比(Teney等人2018)和(Yu等人2018)表现更好,我们与他们共享全部VQA架构。

用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》_第4张图片

四、结论

We apply BLOCK for two challenging computer vision tasks: VQA and VRD, where the parameters of our BLOCK fusion model are learned. Comparative experiments show that BLOCK improves over previous fusion schemes including linear, bilinear and non-linear models. We also show that BLOCK is able to maintain competitive performances with very compact parametrization.

In future works, we plan to extend the BLOCK idea to other applications. In particular, we want to explore the use of multiple input and output modalities, and to apply BLOCK for interpreting and explaining the behaviour of the multimodal deep fusion model (Engilberge et al. 2018; Carvalho et al. 2018).

作者提出的BLOCK模型框架,这是一个双线性融合模型,其参数张量使用块项分解来构造。 BLOCK旨在优化复杂性和建模能力之间的权衡,并结合CP和Tucker分解的优势。它提供了对要素组之间的丰富交互进行建模的可能性,同时仍使用高维单峰表示。

这篇论文的作者也是MUTAN论文的作者,在之前的基础上进行改进,提供了融合模型,值得借鉴的一篇融合模型框架。

你可能感兴趣的:(计算机视觉,VQA)