论文标题:Tagger: Deep Unsupervised Perceptual Grouping
作者:Klaus Greff, Antti Rasmus, Mathias Berglund, Tele Hotloo Hao,Jürgen Schmidhuber, Harri Valpola
【摘要】我们提出了一个有效的感知推理,它能明确地对输入和特征中的分割进行推论。我们的框架是以一种无监督方法或者有时会附加任意监督任务,来对分组过程进行学习,这与此前的为特定分区进行专门训练有很大的不同。我们让一个神经网络通过可微分机制,以迭代的方式将不同的物体表征进行分组。我们通过允许系统对各个分组和其中的表征的联合迭代推理进行分批次处理,实现了非常快速地收敛。与最近提出的一些用于解决多物体识别的方法不同,我们的系统不把输入看作是图像,因此能够直接处理其他的输入形态。我们使用多数位分类来评估方法,这种分类包含了非常复杂的图像,因而需要纹理分割的。通过使用分组机制,我们的方法提高了卷积网络的分类性能,尽管网络是被完全连接的。此外,我们还观察到,我们的系统大大改进了我们的数据集上的基础的阶梯网络的半监督结果。这些结果证明,分组是一种强大的工具,能够帮助提高抽样效率。
1. 引言
人类自然地认为世界是由不同的对象以及它们的属性和彼此之间的关系构造而成。这仲我们称为感知分组的现象在心理学中也称为模态感知。它毫不费力地发生并且包括视觉输入的分割,诸如图1中所示的,例如在解决鸡尾酒会问题(音频)中或当将抓握的物体的感觉与手指彼此接触(触觉)的感觉分离时。甚至更多抽象的特征,例如对象的类别,颜色,位置和速度被自然地与输入相干的目标分为一组。这种丰富的结构对于许多现实世界的任务是至关重要的,例如操纵物体或驾驶汽车,其中需要知道不同物体及其特征。
在本文中,我们介绍了一个框架,用于学习这种感知分组的有效迭代推理,我们称之为迭代平摊分组(TAG)。这个框架需要一种能够将输入和内部表示拆分成几个不同组的一种学习机制。我们不对这种分割的结构做假设,而是通过训练端到端的模型以便于发现哪些是相关特征以及如何执行分割。
通过使用辅助去噪任务,我们训练系统来直接摊销对象特征的后验推理及其分组。因为我们的框架没有对数据的结构做任何假设,它是完全域不可知的,适用于任何类型的数据。 TAG框架完全无监督地工作,但也可以与用于分类或分割的监督学习相结合。
2. Iterative Amortized Grouping (TAG)
Grouping
我们的目标是使神经网络将输入和内部表示分为相干组。我们将一起处理的输入和内部表示的集合定义为一个组,但(很大程度上)彼此独立。当在一个聚类中处理一切事情时可能出现干扰和模糊性,这里,我们通过分别处理每个组,使得网络可以利用不变的分布式特征,而没有干扰和模糊性的风险。对于对象和组之间的对应关系我们不做任何假设。如果网络可以在一个组中处理多个对象并且没有不必要的干扰,则网络可以自由地这样做。“正确”分组经常是动态,模糊和任务依赖的。所以,不是训练它作为一个单独的任务,我们允许网络切分输入过程,并让它学习对于任何给定问题如何最好地使用这种能力。为了使实例分割的任务更容易,我们保持由相同的底层模型处理的每个组对称。
Amortized IterativeInference
我们希望我们的模型不仅可以用于组分配,而且可以解释每个组的表示。这相当于推断两组变量:潜在的组分配和单独的组表示;公式与混合模型非常相似,对于其精确推断通常是难以处理的。对于这些模型,常见的方法是通过在这两个集合的(重新)估计之间交替(例如,类似于EM的方法[4])以迭代方式逼近推理。直觉是,给定分组,推断对象特征变得容易,反之亦然。我们采用类似的策略,允许我们的网络迭代地精化其组分配以及对象表示的估计。
我们训练一个参数映射以尽可能有效地得到推理的最终结果,而不是导出然后运行一个推理方法,这被称为摊销推理[31],并且它被用于例如变化自动编码器中,其中编码器学习分摊由解码器表示的生成模型所需的后验推论。在这里我们改为应用去噪自动编码器的框架[6,15,34],其被训练以从有损输入重建原始输入x。这鼓励网络实施有用的摊销后验推理,而不必指定或甚至知道其推断是隐含学习的潜在生成模型。
Putting it together.
这个参数映射通常由神经网络实现,并且整个系统使用通过时间的标准反向传播来端对端地训练。
Tagger.
对于本文,我们选择用形网络[19]作参数映射,因为其结构反映了层级潜变量模型中后验推理所需的计算。这意味着网络应该能够处理在许多域中可能期望找到的层次结构。 我们称之为包裹在TAG框架中的梯形网络。 这在图3中示出,并且相应的伪码可以在算法1中找到。
3 Experiments and results
我们在两个数据集上在完全无监督设置和半监督任务的情况下探索Tagger的性质和估计性能。虽然两个数据集都是由直观上类似于图像分割的图像和分组组成,但在Tagger模型中没有先前的图像:我们的结果(与ConvNet基线不同)即使我们置换所有像素也可以泛化。
3.1 Training and evaluation
我们仅使用4组和3次迭代来显示网络原始输入示例x,而不是地面真实掩码或任何类标签,以无监督的方式训练Tagger。我们平均迭代的成本,并使用ADAM [14]进行优化。在Shapes数据集上,我们以0.2的位翻转概率训练了100个纪元,并且在具有0.2的恶化噪声标准偏差的200个纪元的TextureMNIST数据集上训练。 本文报道的模型分别在单个Nvidia Titan X GPU上用于形状和TextureMNIST2数据集的挂钟时间中花费了大约3和11小时。
3.2 UnsupervisedPerceptual Grouping
表1显示了Taggers对Shapes数据集超过20个种子的中值性能。Tagger能够非常快速的实现收敛,如表1a所示。通过迭代,网络通过将不同的对象分组到不同的组中来提高其去噪性能。与Greff等[8]相比,Tagger在AMI评分方面表现的更好(见表1b)。 我们发现,对于这个数据集,使用LayerNorm [1]代替BatchNorm [13]可以大大改善结果,如表1所示。
图4a和图4b定性地表示出了形状和纹理MNIST数据集的学习的无监督分组。 Tagger对两个数据集使用其TAG机制稍有不同。 对于形状,zg表示填充对象,mg显示对象的哪一部分实际上是可见的。对于纹理MNIST,zg表示纹理,而mg捕获纹理段。在相同数字或两个相同形状的情况下,Tagger可以将它们分割成单独的组,并且因此,执行实例分割。我们使用4组训练,即使在Shapes数据集中只有3个对象,在Textured MNIST2数据集中有3个段。多余的组由训练的系统留空,但它的存在似乎加快了学习过程。
3.3Classification
为研究分类任务中分组所起的作用,我们评估Tagger针对纹理MNIST任务的四个基准模型。作为我们的第一个基准,我们在每个层之后使用具有ReLU激活的完全连接的网络(FC)和BatchNorm [13]。我们的第二个基线是基于[30]的模型C的ConvNet(Conv),其接近CIFAR-10的最先进的结果。我们删除了dropout,在每个层之后添加BatchNorm,并通过全连接层替换最后的池,以提高其任务的性能。此外,我们与完全连接的梯形图[19](FC梯形图)网络进行比较。
所有模型都使用softmax输出,并对50,000个样本进行训练,以最小化分类交叉熵误差。 如果图像中有两个不同的数字(在TextureMNIST2数据集中的大多数示例),那么目标对于两个类都是p = 0:5。我们基于分类误差来评估模型,我们基于两位数情况的两个最高预测类别(前2)来计算。
对于Tagger,我们首先在无监督阶段训练系统150 epochs(相当于迭代150次),然后在顶部添加两个新的随机初始化层,并使用无监督和监督成本项之和对50 epochs继续训练整个系统。 此外,最顶层具有每组softmax激活,其包括用于不包含任何数字的组的添加的“无类”神经元。 然后通过对真实10个类的所有组的softmax输出求和并将其重新归一化来执行最终分类。
如表2所示,Tagger的性能明显优于两个变体上的所有完全连接的基线模型,但是对于两位数的情况,改进更明显。此结果是预期的,因为对于具有多对象重叠的情况,分组变得更重要。此外,它证实了分组可以帮助分类并且对复杂输入特别有益的假设。值得注意的是,Tagger与TexturedMNIST1数据集的卷积基线相当,甚至在两位数的情况下胜过它,尽管它是完全连接的。我们假设该结果的一个原因是分组允许构建已经在低层中的有效不变特征,而不丢失关于向对象分配特征的信息。卷积网络在一定程度上通过使用接收字段对特征进行分组来解决这个问题,但是该策略是昂贵的,并且在重叠严重的情况下不可用。
3.4 Semi-SupervisedLearning
TAG框架不依赖于标签,因此可直接在半监督上下文中使用。 对于半监督学习,Ladder [19]可以说是具有1,000个MNIST和60,000个排列不变MNIST分类的SOTA结果的最强基线之一。我们遵循使用1,000个标记样本和49,000个未标记样本来训练Tagger和梯形基线的常见做法。为了完整性,我们还报告了卷积(ConvNet)和完全连接(FC)基线的结果,这些基线仅在1,000个样本。
从表2中可以看出,所有完全监督的方法在这个带有1000个标签的任务上是失败的。最佳基线结果通过FC梯形实现,其对于一位数字达到30.5%的误差,但对于TextureMNIST2为68.5.对于这两个数据集,Tagger实现了最低的错误率:10.%和24.9%。同样,对于两位数的情况,这种差异被放大,其中具有1000个标签的Tagger甚至胜过具有所有50k个标签的梯形基线。这个结果符合我们的直觉,分组可以经常分段甚至未知类的对象,从而帮助选择相关的功能进行学习。这在半监督学习中特别重要,其中不能对未标记的样本进行自分类可能意味着网络根本无法从它们中学习。
为了将这些结果放在上下文中,我们对五个人类受试者进行了非正式测试。受试者在训练后几天明显改善,但也有显著的个体差异。任务被证明是非常困难和艰苦的,用表现最好的受试者验证在TextureMNIST110%的误差和30%的误差TextureMNIST2。
4 Related work
注意力模型最近变得非常受欢迎,并且类似于感知分组,它们帮助处理复杂的结构化输入。然而,这些方法不是相互排斥的,并且可以彼此受益。公开注意模型[28,5]控制一个窗口(中央凹)以集中在输入的相关部分。它们的两个限制是它们大多是针对视觉领域定制的,并且通常仅适合于与窗口大致相同形状的对象。但是他们限制视野的能力可以帮助减少目标问题的复杂性,从而也有助于分割。软注意机制[26,3,40]另一方面使用某种形式的自顶向下反馈来抑制与给定任务无关的输入。这些机制最近已经普及,首先在机器翻译[2],然后是许多其他问题,如图像字幕生成[39]。因为他们根据他们的相关性重新权衡所有的输入,他们可以从感知分组过程中受益,这可以改善精确的注意界限。
我们的工作主要是建立在一系列研究基础上的概念,大脑使用同步的神经元射击绑定对象表示在一起。这个观点是由[37]介绍的,并启发了许多早期的神经网络振荡的作品(见调查[36]摘要)。显式地模拟振荡是昂贵的,并且不适合现代神经网络架构(但参见[17])。相反,复数值已被用于模拟振荡激活,使用相位作为软标签用于同步[18,20]。在我们的模型中,我们通过使用离散的同步槽(我们的组)进一步提取它们。它最类似于Wersing等人的模型。 [38],Hyvärinen&Perkiö[12]和Greff et al。 [8]。然而,我们的工作是第一个,结合这一与去噪自动编码器在端到端可训练的方式。
另一个密切相关的研究线[23,22]集中在输入的多因果建模。 该领域的许多作品[16,32,29,11]建立在受限玻尔兹曼机器基础之上。 每个输入被建模为具有每个对象的单独潜变量的混合模型。因为精确推理是难以解决的,这些模型近似于某种形式的期望最大化的后验[4]或抽样程序。 我们的假设与这些方法非常相似,但我们允许模型直接学习摊销推理(更符合Goodfellow等人[7])。
由于循环神经网络(RNN)是通用计算机,它们原则上可以实现任意可计算类型的临时变量绑定[25,26],无监督分段[24],内部[26]和外部注意[28]。 例如,具有快速权重的RNN [26]可以快速地关联或绑定RNN当前所参与的模式。 类似的方法甚至允许元学习[27],即学习一个学习算法。 Hochreiter etal。 [10],例如,学习快速在线学习算法的两个变量的所有二次函数的类。 因此,无监督分段原则上可以由作为数据压缩或任何其他给定任务的副产品的任何RNN来学习。 然而,这并不意味着每个RNN将通过学习轻松地发现和实施这个工具。 从这个角度来看,TAG可以被视为帮助RNN快速学习和有效实施分组机制的一种方式。
5 Conclusion
在本文中,我们认为将输入元素和内部表示分组的能力是一个强大的工具,可以提高系统处理复杂多对象输入的能力。我们已经引入了TAG框架,其使得网络能够以无监督的方式直接学习分组和相应的迭代平摊推理。所得到的迭代推理是非常有效的,并且在五次迭代内收敛。我们已经证明了这种机制对于严格分类任务的好处,其中我们的完全连接的Tagger甚至明显优于最先进的卷积网络。更令人印象深刻的是,我们已经表明,我们的机制可以大大提高半监督学习,大大超过传统梯形网络。我们的方法对数据做最少的假设,可以应用于任何模态。使用TAG,我们仅仅抓住了一个全面的集成分组机制的表面,但我们已经看到了显著的优势。我们认为分组对于人类的感知至关重要,并且相信它将有助于将神经网络扩展到未来更复杂的任务中。