Graph Mixture Density Networks 图混合密度网络

是一类新的机器学习模型,可以适应条件为任意拓扑图的多模态输出分布。通过结合混合模型和图表示学习的思想,我们解决了一类更广泛的依赖结构化数据的具有挑战性的条件密度估计问题。我们在一个利用随机图进行随机流行病模拟的新基准应用程序上评估了我们的方法,显示了我们的方法在建模输出预测不确定性方面的有效性。图混合密度网络为研究具有非平凡条件输出分布的结构相关现象提供了的研究机会。

以输入x为条件近似目标值y的分布是有监督学习任务的核心。已知有监督方法可以近似给定输入的目标的预期条件分布,即,当目标分布为单峰且目标值的微小变化主要由随机噪声引起时,这是标准做法。然而,当回归问题的目标分布不是单峰分布时,大多数机器学习方法无法通过预测平均值来正确地表示它。多模态目标分布将多个可能的结果与给定的输入样本相关联,在这种情况下,通常讨论解决条件密度估计问题。为了解决这个问题,提出了混合密度网络(MDN)来近似任意复杂的条件目标分布。MDN是为向量性质的输入数据而设计的,但现实世界中的问题通常处理关系数据,其中结构会对可能的结果产生重大影响。

图的自适应处理,目标是通过不同的邻域聚合方案、图粗化和信息传播策略来推断给定任务的结构化样本的最佳表示。

主要贡献:提出了一种混合方法来处理图的机器学习方法中的多峰目标分布,称为图混合密度网络(GMDN)。该模型以输入图为条件,输出整个结构或其实体的多模态分布。给定一个可观测的输入图x,GMDN经过训练,通过最大似然估计来近似与目标随机变量y相关的(可能是多峰的)分布。可能性是密度估计任务需要优化的常用指标,它告诉我们模型与经验数据分布的拟合程度。像“标准”回归问题那样预测一个单一的产值来解决这类任务是不够的;因此,GMDN对输出仅限于单峰分布的图深度学习模型拓展了功能。

我们在本文介绍的一个新的基准应用程序上测试GMDN,该应用程序包括大型流行病学模拟,其中结构和多模态在确定流行病结果方面起着至关重要的作用。结果表明,GMDN产生了显著改善的可能性。然后,我们在两个真实世界的化学图回归任务中评估了我们的模型,以展示GMDN如何更好地模拟输出预测中的不确定性,即,该模型揭示了与给定的输入分子表示相关联的可能不止一个可容许的化学性质值。

训练网络来输出有条件的多模式分布,即具有一种或多种模式的分布。最早是专家混合(MoE)模型。MoE由许多神经网络组成,也被称为本地专家,每个神经网络被期望解决一个特定的子任务。此外,MoE使用门控网络来衡量当地专家对每项输入的贡献。通过这种方式,模型选择最有可能做出正确预测的专家。然后,总MoE输出是本地专家输出的加权组合。

混合密度网络(MDN)减少了训练MoE的计算负担,同时允许不同的专家(现在称为子网络)进行合作。MDN与MoE模型类似,但有细微的区别。首先,将输入转换为隐藏表示,在更简单的子网络之间共享,从而提高整体效率。其次,该表示用于产生门权重以及不同输出分布的参数。因此,初始转换应该将解决任务所需的所有信息编码到所述表示中。从图形结构数据中自动自适应提取关系信息是另一个长期存在的研究课题。之前,图核是处理结构信息的主要方法;尽管图核仍然有效且强大,但其缺点是计算成对图之间的相似性分数所需的计算成本。如今,一系列称为深度图网络(DGNs)的模型使高效处理任意拓扑图成为可能。DGN将图形的卷积层堆叠起来,这些卷积层聚集每个节点的相邻状态,以便在整个图形中传播信息。层数反映了传播的上下文信息量,与卷积神经网络的感受野非常相似。

基于以上原因,我们提出了图混合密度网络来结合MDN和DGN的优点。据我们所知,这是第一个可以学习任意输入图条件下的多模态输出分布的DGN。

Graph Mixture Density Networks

所考虑的任务是一个有监督的条件密度估计(CDE)问题,目标是学习条件分布是与数据集D中的输入图g关联的连续目标标签,假设目标分布为多峰分布,因此,由于上述平均效应,当前DGN无法很好地模拟目标分布。因此,我们借鉴了混合密度网络的思想,扩展了具有多模态输出能力的深图网络。

我们寻求一个能执行同构转换的DGN来获得节点表示以及和为1的混合权重,其中C是我们想要混合的单峰输出分布的数量。给定后,应用C个不同的子网络来分别产生C个输出分布的参数。最后,将C个单峰输出分布与混合权重Qg相结合,得到多峰输出分布。

 Graph Mixture Density Networks 图混合密度网络_第1张图片

DGN将输入图g的每个节点v转换为隐藏表示hv,该表示对该节点周围的结构信息进行编码。随后的变换ΦQ生成混合概率向量Qg,其组合了由C个子网络产生的C个不同分布。输入的第一个转换(DGN)在子网络中是共享的。

Graph Mixture Density Networks 图混合密度网络_第2张图片

使用贝叶斯网络学习条件分布。圆形的白色(黑色)节点表示未观察到的(观察到的)随机变量,较大的正方形表示确定性输出。混合权重Qg被建模为具有C个可能状态的分类分布。数据集D中的每个图g,我们通过边缘化引入潜在变量Qg。将分两部计算:第一步将图信息编码为确定性节点状态hVg,并产生后验分布。第二部输出发射分布结果是一个以输入结构为条件的混合模型。

通过最大似然估计(MLE)来解决CDE问题。可能性,即P(y | g),是通常要最大化的量。它反映了从图g生成输出y的概率。给定假设空间H,我们寻求MLE假设:Graph Mixture Density Networks 图混合密度网络_第3张图片通过边缘化引入了潜变量Qg,其第i分量为Qig。利用深图网络对该方程的分布进行建模,这使得输入结构和图自同构不变性具有很大的灵活性。通过这种方式,我们能够近似概率,这些概率取决于可变数量的图节点和边。

深度图网络将输入图编码为节点表示

 在图预测中,表示hVg必须用另一个置换不变函数ψg进一步聚合

 该式其实就是ReadOut

可以使用Readout计算混合权重,如下所示其中σ是聚合向量分量上的softmax函数。

为了学习发射我们必须实现一个子网络Φi,其能输出所选分布的参数

例如,如果分布是多元高斯分布,我们有

你可能感兴趣的:(神经网络)