论文阅读“Multimodal Network Embedding via Attention based Multi-view Variational Autoencoder”

引用：Huang F, Zhang X, Li C, et al. Multimodal network embedding via attention based multi-view variational autoencoder[C]//Proceedings of the 2018 ACM on International Conference on Multimedia Retrieval. 2018: 108-116.

问题说明

多模态网络被定义为一个图形，每个节点包含多种内容形式。假设有一个多峰网络，其中是节点集合，表示节点之间的边，表示节点上的多模态内容。表示两个节点和之间的边缘（如果它们之间存在链接）。每个节点可以包含两种类型的内容，即视觉内容（）和文本描述（）。

Multimodal Network.png

简单来说，多模态是指在数据样本中，每个样本包含多个模态的描述，如文字及图片。多模态网络，则是指除了这些样本表示之外，还有一些关于样本联系的一些描述，例如上图中由（C）所确定的forms。

模型展示

The framework of the proposed AMVAE.png

在上图的(a)中，描述的是现实生活中存在的多模态网络数据的形式。为了更好的学习网络中所包含的各种信息，作者提出了图(b)中所展示的模型，主要包含“Visual Textual Attention Model”和“Multi-View VAE”来学习Network Embedding。

模型细节分析

Visual-Textual Attention Model

这一部分应该算是论文中比较有特色的部分，主要是针对图片和文本对应的形式。对于一个样本的两种跨模态的描述，文本模态记为长度为的句子；图片模态代表个图片的划分区域。目标是自动找到单词之间和视觉区域的相关性。在注意力模型中，对于每个单词，基于图像区域和之间的相关性，为每个分配一个和之间的相关分数。

weight.png

在上式中，权重矩阵和偏置都是可学习的参数。φ是非线性的激活函数，常用tanh。常用作每个word在图片区域的归一化因子。然后，将标准化的注意力得分用于调节不同区域的注意力强度。可以将视觉特征重新加权为一词的整个区域之和：

image.png

为了全面的捕捉句子间单词的语义依赖关系，该论文选择了LSTM进行编码。那么

对应的输出，则被替换为

。因此，完整的句子被表示为visual and textual联合的内容，即

。最后一个cell的输出被看做是最终的多模态内容的表示。

LSTM with attention model.png

在整个Visual-Textual Attention Model中，由只能处理序列数据的LSTM变成了可以同时处理图片和文本的attention model。

当然，论文期望视觉文本注意模型可以为图像和句子对在输入单词和视觉区域之间分配正确的注意权重。给定图像和句子对，首先对否定句子进行采样。然后将和都输入到LSTM中，并且优化了成对的margin ranking损失函数以学习语义嵌入，损失函数如下：

margin ranking loss.png

我们使用带有激活tanh的多层感知器（MLP）来学习匹配分数即loss函数中的。整体模型如下：

image.png

Multi-View VAE for Embedding

这部分作者重点介绍了3个multi-view vae模型，内容比较简单，因此只附上模型图。

multi-view vae.png

这里贴一下mixed model的loss

mixed model - loss.png

Attention based Multi-view Variational Autoencoder（整体模型）

论文提出了一种新颖的联合嵌入模型AMVAE（模型图展示），该模型通过探索它们的内在关联性来同时进行语义嵌入和多视图嵌入。 AMVAE的基本设计原理在于，语义嵌入模型和多视图嵌入模型应形成一个相互加强的学习循环。基于分析，我们将AMVAE的损失函数公式化为margin ranking loss（4）和多视图VAE-loss（7）的总和：

total loss.png

在多视图训练的数据中，往往涉及到个view。因此在AMVAE中，loss形式化如下：

loss 4 all views.png

模型评价

很巧妙的思路构造了Visual-Textual Attention Model，剩余的基本是常规操作。模型的完整性很容易让人接受，好文！