论文阅读“The Multi-Entity Variational Autoencoder”

引用格式：Nash C, Eslami S M A, Burgess C, et al. The multi-entity variational autoencoder[C]//NIPS Workshops. 2017.

摘要翻译

将世界表示为对象是人类智能的核心。它是人们进行推理，想象，规划和学习的先进能力的基础。人工智能通常假设对象是人类定义的表示形式，而很少有人研究如何通过无监督学习来产生基于对象的表示形式。在这里，我们提出一种用于从数据中学习概率性，基于对象的表示的方法，称为“多实体变分自编码器”（MVAE），其先验和后验分布是在一组随机向量上定义的。我们证明该模型可以学习可解开对象及其属性的视觉场景的可解释性表示形式。

论文的关注重点为：提出一种用于从数据中学习概率性，基于对象的表示的方法。MVAE

模型描述

MVAE是数据的隐含变量模型，其中潜在空间被分解为个独立的“对象”表示为。 MVAE定义了一个生成过程，其中每个相互独立并从先验分布中进行采样，并从解码器分布采样数据示例。

Multi-entity VAE.png

注：local conv与普通conv的区别就在于普通conv的参数在整个feature map上是共享的，而local conv在一个map上的局部区域内的参数是共享的不同区域内的参数是不同的。

编码器获取输入图像并生成后验参数的空间图。在每个空间位置(???)中计算后验分布相对于先验的KL散度（在论文中假设先验分布是维度为的均值为，方差为的高斯分布）。从空间图中选择通过KL散度的前个后验参数，并删除空间结构。对这些分布进行采样，并将采样独立地通过共享的卷积/上采样网络。最终的对象特征图使用逐元素运算进行汇总，最终的卷积网络生成输出参数。

解码模块介绍？？

在论文的解码部分，作者突出进行了介绍。（虽然我没怎么看懂）

The conditional data distribution被实现为three-step确定性解码函数。该函数
(1)使用共享函数将每个潜在对象表示映射到处理后的对象表示，
(2)将处理后的对象表示聚集在一起，
(3)将结果确定性地转换为像素值的伯努利分布。
至关重要的是，对于对象表示集而言是不变的。这鼓励模型学习一致且可互换的对象表示。

Shared object processing

在解码器的第一阶段，共享函数独立地应用于每个潜在对象表示，从而得出一组已处理对象描述。这些先验潜变量的确定性转换本身就是随机变量，它们具有由prior latents引起的依赖性。维对象的描述可以是任何形状，但是在这项工作中，我们使用3D张量作为对视觉属性表示的结构性偏置。论文实现了一个通过reshaping，convolutions 和upsampling将每个潜在矢量转换为3D张量的网络。

Aggregation

使用对称池化函数将处理后的对象表示--进行聚合，以形成张量，与的形状相同的张量。在实验中，作者使用逐元素和或最大值作为聚合函数。

Rendering

在合并之后，将得到的映射（即渲染）到解码器分布的逐元素参数。在实验中，是一个3D张量，而是一个卷积的上采样网络，该网络输出像素级的Bernoulli logits。

Maximal information attention(这部分对应模型图中的Encoder部分)

为了获取最大程度的信息关注，作者采用amortized variational inference ，并为每个潜在物体表示学习参数化的近似后验。通过生成大量候选对象推断集合，从中选择个对象。该推断方法的优点在于，它避免了对明确学习的注意力机制的需求，这种机制可能需要在图像上进行大量重复遍历。这使我们能够对具有大量对象的场景进行建模，这在以前的工作中具有挑战性。

Candidate generation

论文将像映射到后验参数网格的卷积网络为视觉场景生成候选对象推理。在此输出要素图中的每个空间位置都被视为一个对象，我们将按照下一部分中的描述执行此集合的候选 sub-selection。 sub-selection后，卷积网格中存在的空间结构被破坏，因此我们在卷积网络的中间特征图上用其相对空间坐标标记每个对象。

Candidate sub-selection

给定候选后验的集合，我们为每个候选计算KL散度。通过KL散度选择前个对象，可以获得个潜在对象的近似后验。

这个过程的直觉如下：为了重建输入，网络必须对许多信息进行编码，而对象的形状，颜色等都存在于对象所在的位置，而对背景信息进行编码所需的信息就少得多，简单来说是那里没有物体（换句话说，为了重建输入，我们只需要关注图片中存在物体的地方，那些地方包含了对象的形状、颜色等很多属性；而对没有物体的地方则需要编码的信息也较少）。这样，“对象”和“非对象”位置将分别具有较高的KL散度和较低的KL散度，通过按KL散度选择顶部位置，我们仅在图像信息最丰富的区域中对信息进行编码。我们称此过程为最大信息关注点，并注意它可用于可生成候选推断超集的任何数据形式。

虽然这是审稿人提到的文章，但是很明显该论文只是借用了VAE的生成特性，通过Multi-Entity来捕获来自一张图片中的不同对象信息进行重构，与具有多输入的多视图数据生成问题是完全不同的。但是论文的思维很自然，除了在解释多个候选对象的生成方面比较模糊（也可能是我太菜了没看明白，可能是通过对Filter的个数进行设定某个值如M，可以输出M个不同的feature map 从而进行KL散度的比较）。所以，我没有办法很好的用直观通用的VAE模型表示整个生成过程，后续可能会进行进一步探索。可能。