VQA中多模态fusion方式小结

多模态特征融合的线性池化 : 连接或者元素相加(concatenation or element-wise. addition)来融合图像的视觉特征和问题的文本特征
这种方式不能有效的捕捉图像的视觉特征和问题的文本特征之间的复杂关联。

接着出现了双线性池化 :最早由 Separating Style and Content提出,但是高维的输出特征和大量的模型参数限制了可用性 。
双线性池化的形式:
VQA中多模态fusion方式小结_第1张图片
1、Multi-modal Compact Bilinear (MCB) pooling使用 Tensor Sketch algorithm有效地减少参数数量和计算时间,但是MCB依赖一个高维输出(16000-D)特征来保证性能,内存使用过大。

2、Multi-modal Low-rank Bilinear (MLB)基于两个特征向量的Hadamard product。优点:输出低维特征,参数少。缺点:对于超参数敏感 ,收敛速度慢。
在这里插入图片描述
3、Multi-modal Factorized Bilinear pooling (MFB)
Inspired by the matrix factorization(矩阵分解)
VQA中多模态fusion方式小结_第2张图片
VQA中多模态fusion方式小结_第3张图片
MLB与MFB的区别 :
MLB相当于MFB的一种情况,对应k=1的rank-1 factorization。MLB直接将特征映射到低维输出特征进行点乘。MFB分为两步,先将不同模态的特征扩展到高维空间用点乘融合,第二阶段用sum pooling和正则层压缩向量到compact output feature。
VQA中多模态fusion方式小结_第4张图片
4、MUTAN:借助于Tucker decomposition
VQA中多模态fusion方式小结_第5张图片
VQA中多模态fusion方式小结_第6张图片
VQA中多模态fusion方式小结_第7张图片
参考论文:
[1] Separating Style and Content
[2]HADAMARD PRODUCT FOR LOW-RANK BILINEAR POOLING
[3]Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
[4]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[5]Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering

你可能感兴趣的:(多模态)